CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

本文作者：鄭佳美

2026-04-30 10:42

導(dǎo)語：從擴(kuò)散控制到語義泛化，視覺 AI 進(jìn)入范式重構(gòu)期。

過去幾年，視覺生成與視覺理解領(lǐng)域的技術(shù)推進(jìn)，整體上始終沿著一條相對明確的路徑展開：當(dāng)一套建模范式被驗證有效之后，后續(xù)的大量工作往往都會圍繞這套既有框架持續(xù)做模型擴(kuò)容、訓(xùn)練增強(qiáng)、采樣優(yōu)化與局部模塊修補(bǔ)，以此換取更高的性能上限。

無論是擴(kuò)散生成、視頻 world model，還是動作建模與視覺匹配，主流研究在很長時間里都更多表現(xiàn)為對既有系統(tǒng)的持續(xù)加固，而不是對底層假設(shè)本身的重新審視。

但從今年 CVPR 集中出現(xiàn)的一批代表性工作來看，這種相對穩(wěn)定的技術(shù)推進(jìn)邏輯正在發(fā)生值得警惕的變化。越來越多研究已經(jīng)不再滿足于在現(xiàn)有模型框架內(nèi)部繼續(xù)做增量式性能修補(bǔ)，而是開始系統(tǒng)性地把問題重新拉回到那些長期被工程實踐視為“默認(rèn)正確”的基礎(chǔ)設(shè)定上。

擴(kuò)散模型中的引導(dǎo)機(jī)制是否真的合理，視頻生成是否必須建立在 diffusion 的反復(fù)去噪之上，生成模型所學(xué)習(xí)的預(yù)測對象是否從一開始就遵循了最自然的數(shù)據(jù)流形，以及人體動作生成與語義對應(yīng)任務(wù)中長期被粗粒度評價掩蓋的控制邊界和泛化邊界，是否都需要被重新定義。

這意味著，頂會論文所呈現(xiàn)出的競爭重點正在悄然發(fā)生遷移。相比于過去更多強(qiáng)調(diào)“在原有范式內(nèi)把模型做得更強(qiáng)、把指標(biāo)推得更高”，這一批工作更值得注意的地方在于，它們開始同步觸碰那些決定模型行為方式的底層建模前提，并試圖重新建立新的生成目標(biāo)、控制機(jī)制、主干架構(gòu)與表示邏輯。

換句話說，視覺 AI 的下一輪競爭，正在逐漸從性能增量競爭，轉(zhuǎn)向?qū)扔心J(rèn)設(shè)定的回溯性重寫。

視覺生成開始重寫基礎(chǔ)機(jī)制

這一趨勢首先體現(xiàn)在由上海交通大學(xué)和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。

Classifier-Free Guidance（CFG）作為條件擴(kuò)散模型中最常用的生成引導(dǎo)機(jī)制，幾乎已經(jīng)成為默認(rèn)組件：通過調(diào)節(jié) conditional 分支和 unconditional 分支之間的 guidance strength 來增強(qiáng)模型對條件信息的服從程度，從而提升生成質(zhì)量。

但長期以來，這一過程主要依賴固定 guidance weight 或少量經(jīng)驗化動態(tài)調(diào)整，真正的問題在于，擴(kuò)散過程內(nèi)部的噪聲結(jié)構(gòu)和 score 差異并不是靜止的，而是隨著時間步不斷變化，固定的引導(dǎo)強(qiáng)度很難在整個采樣階段都保持最優(yōu)。

論文正是從這一被忽視的內(nèi)部動力學(xué)出發(fā)，分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規(guī)律，指出 guidance scale 本質(zhì)上不應(yīng)是一個靜態(tài)超參數(shù)。

基于這種理論觀察，作者提出 C2FG（Control Classifier-Free Guidance），利用指數(shù)衰減控制函數(shù)讓 guidance strength 在采樣前期和后期自動完成動態(tài)分配：前期更強(qiáng)地利用條件約束保證語義對齊，后期則逐步減弱引導(dǎo)以避免過強(qiáng) guidance 帶來的分布偏移和細(xì)節(jié)失真。

它真正打破的是 CFG 長期依賴經(jīng)驗調(diào)參的慣性，把一個原本“手工設(shè)定的 scale”重新建立成一個與擴(kuò)散動力學(xué)同步變化的控制變量，而且由于整個方法 training-free、plug-in，無需重新訓(xùn)練模型即可直接嵌入現(xiàn)有采樣流程，這也使它具備了非常強(qiáng)的工程可遷移性。

CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

而當(dāng)擴(kuò)散模型內(nèi)部的引導(dǎo)控制開始被重新理論化時，蘋果團(tuán)隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進(jìn)一步把問題推向了更底層的生成架構(gòu)本身。

當(dāng)前高質(zhì)量視頻生成幾乎清一色建立在 diffusion 框架之上，反復(fù)去噪似乎已經(jīng)成為視頻 world model 的默認(rèn)實現(xiàn)方式，normalizing flow 雖然在圖像生成中重新受到關(guān)注，卻始終沒有真正進(jìn)入視頻生成主流。

STARFlow-V 試圖回答的是：高質(zhì)量視頻生成是否真的只有 diffusion 這一條路。為此，論文并沒有簡單把圖像 flow 結(jié)構(gòu)遷移到視頻，而是針對視頻生成的長時序依賴和跨幀一致性，在時空 latent 空間中重新構(gòu)建了一套 global-local 的 autoregressive normalizing flow 架構(gòu)：

全局 latent 用于控制跨幀因果依賴，減少長視頻中誤差逐幀累積的問題，局部 latent 則保留幀內(nèi)細(xì)節(jié)交互，保證空間紋理質(zhì)量。

同時，作者進(jìn)一步引入 flow-score matching，通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性，并利用 video-aware Jacobi iteration 提高內(nèi)部更新的并行效率。

也就是說，它并不是在 diffusion 框架內(nèi)繼續(xù)做采樣優(yōu)化，而是直接打破“高質(zhì)量視頻生成必須依賴 diffusion 反復(fù)去噪”的默認(rèn)前提，建立起一種基于 normalizing flow 的端到端視頻生成范式。

更重要的是，由于 flow 天然具備可逆結(jié)構(gòu)和顯式 likelihood 估計能力，同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務(wù)，不需要為不同任務(wù)額外堆疊復(fù)雜分支，這使它不僅是一個替代架構(gòu)，更像是在重新打開視頻生成的技術(shù)路線圖。

CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現(xiàn)”，那么由 MIT 團(tuán)隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進(jìn)一步推回到擴(kuò)散模型最核心的預(yù)測對象上。雷峰網(wǎng)

當(dāng)前主流 denoising diffusion model 雖然名義上是“去噪生成模型”，但大多數(shù)做法實際上并不直接預(yù)測干凈圖像，而是讓模型去擬合噪聲殘差或帶噪中間量，這一設(shè)定在工程上已經(jīng)沿用多年，卻很少有人重新追問它是否真的是最合理的生成目標(biāo)。

他們的研究指出，按照流形假設(shè)，自然圖像分布位于相對低維且連續(xù)的數(shù)據(jù)流形，而噪聲空間則高維、分散且更難擬合；從這個角度看，讓模型直接學(xué)習(xí)回到 clean data，本身可能比在高維噪聲空間中預(yù)測 noised quantity 更自然、更穩(wěn)定。

基于這一認(rèn)識，作者提出 JiT（Just image Transformers），不再依賴額外 tokenizer、復(fù)雜預(yù)訓(xùn)練模塊或輔助損失，而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預(yù)測。

這個設(shè)計表面上看是“回歸樸素”，但它真正打破的是“擴(kuò)散模型默認(rèn)預(yù)測噪聲”的路徑依賴，重新建立起一種以直接回歸數(shù)據(jù)流形為核心的生成思路，也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。

CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

生成模型開始從「會生成」走向「會精確編排」

當(dāng)視覺生成模型不斷回到底層機(jī)制做重構(gòu)時，另一部分工作則開始把注意力轉(zhuǎn)向“模型生成結(jié)果到底能被控制到什么程度”。由德國圖賓根大學(xué)、Tübingen AI Center 以及馬克斯·普朗克信息學(xué)研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

當(dāng)前文本驅(qū)動人體動作生成雖然已經(jīng)能夠根據(jù)整體動作描述生成相對自然的人體運動，但模型控制依然停留在粗粒度層面：它能理解“一個人在走路”“一個人在揮手”，卻很難精確回答“左手什么時候抬起”“下半身何時轉(zhuǎn)向”“動作切換發(fā)生在哪一幀”。

造成這一問題的核心原因，一方面在于現(xiàn)有 mocap 數(shù)據(jù)大多只有序列級動作標(biāo)簽，缺少按時間對齊、按身體部位拆分的細(xì)粒度標(biāo)注；另一方面，模型即使理解整體語義，也很難同時兼顧局部肢體動作與全局時序一致性。

FrankenMotion 正是重新把復(fù)雜人體運動視為由多個“原子動作單元”組成，并嘗試讓模型學(xué)習(xí)這些身體部位級動作之間的組合關(guān)系。

論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標(biāo)注，構(gòu)建新的 FrankenStein 數(shù)據(jù)集；隨后訓(xùn)練 FrankenMotion 同時接收序列級、動作級和身體部位級條件，使模型不僅知道“做什么動作”，還知道“哪部分身體在什么時候做”。

這意味著人體動作生成開始從“生成一個合理動作片段”轉(zhuǎn)向“按指令精確編排復(fù)雜動作組合”，模型能夠組合出訓(xùn)練集中并未直接出現(xiàn)過的細(xì)粒度復(fù)合動作。

與這種細(xì)粒度控制需求相對應(yīng)，視覺理解中的匹配任務(wù)也在經(jīng)歷類似的范式轉(zhuǎn)向。由意大利都靈理工大學(xué)、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的

CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

由而意大利都靈理工大學(xué)（Politecnico di Torino）、德國達(dá)姆施塔特工業(yè)大學(xué)（TU Darmstadt）、德國黑森州人工智能研究院（hessian.AI）以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

關(guān)注的則是語義對應(yīng)（semantic correspondence）里一個很現(xiàn)實卻常被 benchmark 掩蓋的問題：現(xiàn)有方法雖然在已標(biāo)注關(guān)鍵點上精度很高，但一旦查詢點超出訓(xùn)練時見過的關(guān)鍵點位置，或者遇到未見類別，泛化能力就會迅速下降，導(dǎo)致 benchmark 成績與真實可用性之間存在明顯落差。

當(dāng)前主流語義對應(yīng)模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構(gòu)，雖然效果強(qiáng)，但模型規(guī)模接近十億參數(shù)，計算開銷大，而且依賴稀疏關(guān)鍵點監(jiān)督時很難學(xué)到真正連續(xù)、致密的語義匹配關(guān)系。

MARCO 的核心切入點，就是不再滿足于“在標(biāo)注點上對得準(zhǔn)”，而是嘗試讓模型學(xué)會在未被標(biāo)注的空間中也能推斷合理的對應(yīng)關(guān)系。

為此，論文在 DINOv2 基礎(chǔ)上構(gòu)建了一個更統(tǒng)一、更輕量的對應(yīng)框架，并結(jié)合 coarse-to-fine 的定位目標(biāo)提升細(xì)粒度空間精度，同時引入一種 dense self-distillation 機(jī)制，把原本稀疏的關(guān)鍵點監(jiān)督逐步擴(kuò)展成更致密的語義對齊信號。

這種設(shè)計帶來的變化在于，模型不只是記住訓(xùn)練時出現(xiàn)過的對應(yīng)點，而是開始學(xué)習(xí)物體表面更連續(xù)的結(jié)構(gòu)關(guān)聯(lián)，因此在 unseen keypoints 和 unseen categories 上都表現(xiàn)出更強(qiáng)泛化能力。

實驗結(jié)果顯示，MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標(biāo)準(zhǔn)基準(zhǔn)上刷新了性能，在更嚴(yán)格的細(xì)粒度定位閾值和未見關(guān)鍵點測試中提升尤其明顯；與此同時，它相比 diffusion-based 方法還實現(xiàn)了約 3 倍更小、10 倍更快的效率優(yōu)勢。

這篇工作的價值在于，它打破了語義對應(yīng)領(lǐng)域長期“高 benchmark 分?jǐn)?shù) ≠ 強(qiáng)真實泛化”的隱性瓶頸，建立起一種更強(qiáng)調(diào)致密推斷和未見空間泛化的建模思路，使 semantic correspondence 從“在標(biāo)注點上匹配”，進(jìn)一步走向“在整片語義空間中尋找對應(yīng)”。

CVPR 2026 生成式 AI 觀察梳理：視覺模型開始重寫默認(rèn)設(shè)定

把這幾項工作放在一起看，會發(fā)現(xiàn)它們雖然分別來自擴(kuò)散控制、視頻生成、人體動作生成和語義對應(yīng)等不同方向，但背后其實共享著同一條更深層的研究脈絡(luò)：視覺 AI 正在從“沿著既定范式堆模型、調(diào)參數(shù)、刷 benchmark”，轉(zhuǎn)向“重新拆掉那些被默認(rèn)正確的底層設(shè)定，再建立新的生成目標(biāo)、控制機(jī)制和表示方式”。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

有的工作在重新定義擴(kuò)散模型應(yīng)該如何引導(dǎo)，有的在重新打開視頻生成不止 diffusion 一條路的可能性，有的在追問生成模型到底該預(yù)測噪聲還是直接預(yù)測數(shù)據(jù)流形，也有的在把模型控制粒度和泛化空間從粗粒度推進(jìn)到更連續(xù)、更真實的層面。

換句話說，真正值得注意的已經(jīng)不只是某一個模型分?jǐn)?shù)提升了多少，而是這一批工作共同釋放出的信號：視覺模型的下一輪競爭，正在從性能增量競爭，轉(zhuǎn)向底層建模范式的重構(gòu)競爭。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

專題

CVPR 計算機(jī)視覺與模式識別會議

本專題其他文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章