0
| 本文作者: 鄭佳美 | 2026-04-30 10:42 | 專題:CVPR 計算機(jī)視覺與模式識別會議 |
過去幾年,視覺生成與視覺理解領(lǐng)域的技術(shù)推進(jìn),整體上始終沿著一條相對明確的路徑展開:當(dāng)一套建模范式被驗證有效之后,后續(xù)的大量工作往往都會圍繞這套既有框架持續(xù)做模型擴(kuò)容、訓(xùn)練增強(qiáng)、采樣優(yōu)化與局部模塊修補(bǔ),以此換取更高的性能上限。
無論是擴(kuò)散生成、視頻 world model,還是動作建模與視覺匹配,主流研究在很長時間里都更多表現(xiàn)為對既有系統(tǒng)的持續(xù)加固,而不是對底層假設(shè)本身的重新審視。
但從今年 CVPR 集中出現(xiàn)的一批代表性工作來看,這種相對穩(wěn)定的技術(shù)推進(jìn)邏輯正在發(fā)生值得警惕的變化。越來越多研究已經(jīng)不再滿足于在現(xiàn)有模型框架內(nèi)部繼續(xù)做增量式性能修補(bǔ),而是開始系統(tǒng)性地把問題重新拉回到那些長期被工程實踐視為“默認(rèn)正確”的基礎(chǔ)設(shè)定上。
擴(kuò)散模型中的引導(dǎo)機(jī)制是否真的合理,視頻生成是否必須建立在 diffusion 的反復(fù)去噪之上,生成模型所學(xué)習(xí)的預(yù)測對象是否從一開始就遵循了最自然的數(shù)據(jù)流形,以及人體動作生成與語義對應(yīng)任務(wù)中長期被粗粒度評價掩蓋的控制邊界和泛化邊界,是否都需要被重新定義。
這意味著,頂會論文所呈現(xiàn)出的競爭重點正在悄然發(fā)生遷移。相比于過去更多強(qiáng)調(diào)“在原有范式內(nèi)把模型做得更強(qiáng)、把指標(biāo)推得更高”,這一批工作更值得注意的地方在于,它們開始同步觸碰那些決定模型行為方式的底層建模前提,并試圖重新建立新的生成目標(biāo)、控制機(jī)制、主干架構(gòu)與表示邏輯。
換句話說,視覺 AI 的下一輪競爭,正在逐漸從性能增量競爭,轉(zhuǎn)向?qū)扔心J(rèn)設(shè)定的回溯性重寫。
這一趨勢首先體現(xiàn)在由上海交通大學(xué)和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。
Classifier-Free Guidance(CFG)作為條件擴(kuò)散模型中最常用的生成引導(dǎo)機(jī)制,幾乎已經(jīng)成為默認(rèn)組件:通過調(diào)節(jié) conditional 分支和 unconditional 分支之間的 guidance strength 來增強(qiáng)模型對條件信息的服從程度,從而提升生成質(zhì)量。
但長期以來,這一過程主要依賴固定 guidance weight 或少量經(jīng)驗化動態(tài)調(diào)整,真正的問題在于,擴(kuò)散過程內(nèi)部的噪聲結(jié)構(gòu)和 score 差異并不是靜止的,而是隨著時間步不斷變化,固定的引導(dǎo)強(qiáng)度很難在整個采樣階段都保持最優(yōu)。
論文正是從這一被忽視的內(nèi)部動力學(xué)出發(fā),分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規(guī)律,指出 guidance scale 本質(zhì)上不應(yīng)是一個靜態(tài)超參數(shù)。
基于這種理論觀察,作者提出 C2FG(Control Classifier-Free Guidance),利用指數(shù)衰減控制函數(shù)讓 guidance strength 在采樣前期和后期自動完成動態(tài)分配:前期更強(qiáng)地利用條件約束保證語義對齊,后期則逐步減弱引導(dǎo)以避免過強(qiáng) guidance 帶來的分布偏移和細(xì)節(jié)失真。
它真正打破的是 CFG 長期依賴經(jīng)驗調(diào)參的慣性,把一個原本“手工設(shè)定的 scale”重新建立成一個與擴(kuò)散動力學(xué)同步變化的控制變量,而且由于整個方法 training-free、plug-in,無需重新訓(xùn)練模型即可直接嵌入現(xiàn)有采樣流程,這也使它具備了非常強(qiáng)的工程可遷移性。

而當(dāng)擴(kuò)散模型內(nèi)部的引導(dǎo)控制開始被重新理論化時,蘋果團(tuán)隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進(jìn)一步把問題推向了更底層的生成架構(gòu)本身。
當(dāng)前高質(zhì)量視頻生成幾乎清一色建立在 diffusion 框架之上,反復(fù)去噪似乎已經(jīng)成為視頻 world model 的默認(rèn)實現(xiàn)方式,normalizing flow 雖然在圖像生成中重新受到關(guān)注,卻始終沒有真正進(jìn)入視頻生成主流。
STARFlow-V 試圖回答的是:高質(zhì)量視頻生成是否真的只有 diffusion 這一條路。為此,論文并沒有簡單把圖像 flow 結(jié)構(gòu)遷移到視頻,而是針對視頻生成的長時序依賴和跨幀一致性,在時空 latent 空間中重新構(gòu)建了一套 global-local 的 autoregressive normalizing flow 架構(gòu):
全局 latent 用于控制跨幀因果依賴,減少長視頻中誤差逐幀累積的問題,局部 latent 則保留幀內(nèi)細(xì)節(jié)交互,保證空間紋理質(zhì)量。
同時,作者進(jìn)一步引入 flow-score matching,通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性,并利用 video-aware Jacobi iteration 提高內(nèi)部更新的并行效率。
也就是說,它并不是在 diffusion 框架內(nèi)繼續(xù)做采樣優(yōu)化,而是直接打破“高質(zhì)量視頻生成必須依賴 diffusion 反復(fù)去噪”的默認(rèn)前提,建立起一種基于 normalizing flow 的端到端視頻生成范式。
更重要的是,由于 flow 天然具備可逆結(jié)構(gòu)和顯式 likelihood 估計能力,同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務(wù),不需要為不同任務(wù)額外堆疊復(fù)雜分支,這使它不僅是一個替代架構(gòu),更像是在重新打開視頻生成的技術(shù)路線圖。

如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現(xiàn)”,那么由 MIT 團(tuán)隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進(jìn)一步推回到擴(kuò)散模型最核心的預(yù)測對象上。雷峰網(wǎng)
當(dāng)前主流 denoising diffusion model 雖然名義上是“去噪生成模型”,但大多數(shù)做法實際上并不直接預(yù)測干凈圖像,而是讓模型去擬合噪聲殘差或帶噪中間量,這一設(shè)定在工程上已經(jīng)沿用多年,卻很少有人重新追問它是否真的是最合理的生成目標(biāo)。
他們的研究指出,按照流形假設(shè),自然圖像分布位于相對低維且連續(xù)的數(shù)據(jù)流形,而噪聲空間則高維、分散且更難擬合;從這個角度看,讓模型直接學(xué)習(xí)回到 clean data,本身可能比在高維噪聲空間中預(yù)測 noised quantity 更自然、更穩(wěn)定。
基于這一認(rèn)識,作者提出 JiT(Just image Transformers),不再依賴額外 tokenizer、復(fù)雜預(yù)訓(xùn)練模塊或輔助損失,而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預(yù)測。
這個設(shè)計表面上看是“回歸樸素”,但它真正打破的是“擴(kuò)散模型默認(rèn)預(yù)測噪聲”的路徑依賴,重新建立起一種以直接回歸數(shù)據(jù)流形為核心的生成思路,也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。

當(dāng)視覺生成模型不斷回到底層機(jī)制做重構(gòu)時,另一部分工作則開始把注意力轉(zhuǎn)向“模型生成結(jié)果到底能被控制到什么程度”。由德國圖賓根大學(xué)、Tübingen AI Center 以及馬克斯·普朗克信息學(xué)研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。
當(dāng)前文本驅(qū)動人體動作生成雖然已經(jīng)能夠根據(jù)整體動作描述生成相對自然的人體運動,但模型控制依然停留在粗粒度層面:它能理解“一個人在走路”“一個人在揮手”,卻很難精確回答“左手什么時候抬起”“下半身何時轉(zhuǎn)向”“動作切換發(fā)生在哪一幀”。
造成這一問題的核心原因,一方面在于現(xiàn)有 mocap 數(shù)據(jù)大多只有序列級動作標(biāo)簽,缺少按時間對齊、按身體部位拆分的細(xì)粒度標(biāo)注;另一方面,模型即使理解整體語義,也很難同時兼顧局部肢體動作與全局時序一致性。
FrankenMotion 正是重新把復(fù)雜人體運動視為由多個“原子動作單元”組成,并嘗試讓模型學(xué)習(xí)這些身體部位級動作之間的組合關(guān)系。
論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標(biāo)注,構(gòu)建新的 FrankenStein 數(shù)據(jù)集;隨后訓(xùn)練 FrankenMotion 同時接收序列級、動作級和身體部位級條件,使模型不僅知道“做什么動作”,還知道“哪部分身體在什么時候做”。
這意味著人體動作生成開始從“生成一個合理動作片段”轉(zhuǎn)向“按指令精確編排復(fù)雜動作組合”,模型能夠組合出訓(xùn)練集中并未直接出現(xiàn)過的細(xì)粒度復(fù)合動作。
與這種細(xì)粒度控制需求相對應(yīng),視覺理解中的匹配任務(wù)也在經(jīng)歷類似的范式轉(zhuǎn)向。由意大利都靈理工大學(xué)、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的

由而意大利都靈理工大學(xué)(Politecnico di Torino)、德國達(dá)姆施塔特工業(yè)大學(xué)(TU Darmstadt)、德國黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。
關(guān)注的則是語義對應(yīng)(semantic correspondence)里一個很現(xiàn)實卻常被 benchmark 掩蓋的問題:現(xiàn)有方法雖然在已標(biāo)注關(guān)鍵點上精度很高,但一旦查詢點超出訓(xùn)練時見過的關(guān)鍵點位置,或者遇到未見類別,泛化能力就會迅速下降,導(dǎo)致 benchmark 成績與真實可用性之間存在明顯落差。
當(dāng)前主流語義對應(yīng)模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構(gòu),雖然效果強(qiáng),但模型規(guī)模接近十億參數(shù),計算開銷大,而且依賴稀疏關(guān)鍵點監(jiān)督時很難學(xué)到真正連續(xù)、致密的語義匹配關(guān)系。
MARCO 的核心切入點,就是不再滿足于“在標(biāo)注點上對得準(zhǔn)”,而是嘗試讓模型學(xué)會在未被標(biāo)注的空間中也能推斷合理的對應(yīng)關(guān)系。
為此,論文在 DINOv2 基礎(chǔ)上構(gòu)建了一個更統(tǒng)一、更輕量的對應(yīng)框架,并結(jié)合 coarse-to-fine 的定位目標(biāo)提升細(xì)粒度空間精度,同時引入一種 dense self-distillation 機(jī)制,把原本稀疏的關(guān)鍵點監(jiān)督逐步擴(kuò)展成更致密的語義對齊信號。
這種設(shè)計帶來的變化在于,模型不只是記住訓(xùn)練時出現(xiàn)過的對應(yīng)點,而是開始學(xué)習(xí)物體表面更連續(xù)的結(jié)構(gòu)關(guān)聯(lián),因此在 unseen keypoints 和 unseen categories 上都表現(xiàn)出更強(qiáng)泛化能力。
實驗結(jié)果顯示,MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標(biāo)準(zhǔn)基準(zhǔn)上刷新了性能,在更嚴(yán)格的細(xì)粒度定位閾值和未見關(guān)鍵點測試中提升尤其明顯;與此同時,它相比 diffusion-based 方法還實現(xiàn)了約 3 倍更小、10 倍更快 的效率優(yōu)勢。
這篇工作的價值在于,它打破了語義對應(yīng)領(lǐng)域長期“高 benchmark 分?jǐn)?shù) ≠ 強(qiáng)真實泛化”的隱性瓶頸,建立起一種更強(qiáng)調(diào)致密推斷和未見空間泛化的建模思路,使 semantic correspondence 從“在標(biāo)注點上匹配”,進(jìn)一步走向“在整片語義空間中尋找對應(yīng)”。

把這幾項工作放在一起看,會發(fā)現(xiàn)它們雖然分別來自擴(kuò)散控制、視頻生成、人體動作生成和語義對應(yīng)等不同方向,但背后其實共享著同一條更深層的研究脈絡(luò):視覺 AI 正在從“沿著既定范式堆模型、調(diào)參數(shù)、刷 benchmark”,轉(zhuǎn)向“重新拆掉那些被默認(rèn)正確的底層設(shè)定,再建立新的生成目標(biāo)、控制機(jī)制和表示方式”。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
有的工作在重新定義擴(kuò)散模型應(yīng)該如何引導(dǎo),有的在重新打開視頻生成不止 diffusion 一條路的可能性,有的在追問生成模型到底該預(yù)測噪聲還是直接預(yù)測數(shù)據(jù)流形,也有的在把模型控制粒度和泛化空間從粗粒度推進(jìn)到更連續(xù)、更真實的層面。
換句話說,真正值得注意的已經(jīng)不只是某一個模型分?jǐn)?shù)提升了多少,而是這一批工作共同釋放出的信號:視覺模型的下一輪競爭,正在從性能增量競爭,轉(zhuǎn)向底層建模范式的重構(gòu)競爭。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章