0
| 本文作者: 鄭佳美 | 2026-04-30 10:37 | 專題:CVPR 計算機視覺與模式識別會議 |
如果回看過去十年的計算機視覺發(fā)展,其主線其實非常清晰:從早期以 ImageNet classification 為代表的“識別范式”,到以檢測、分割為核心的“結(jié)構(gòu)理解”,再到擴散模型推動的“生成范式”,視覺研究始終圍繞一個核心目標(biāo)展開——讓機器更準確地“看見世界”。
然而,這一路徑在近兩年開始出現(xiàn)明顯的邊界:當(dāng)模型已經(jīng)可以在靜態(tài)圖像上達到接近甚至超過人類的感知水平時,“看得更準”本身,正在變成一個邊際收益遞減的問題。
在這樣的背景下,在 CVPR 2026 中的一些相關(guān)工作所呈現(xiàn)出的,不再只是性能曲線的繼續(xù)上揚,而是一種更深層的范式轉(zhuǎn)向:視覺不再被視為終點,而被重新定位為一種中介能力,它服務(wù)于更高層的目標(biāo),例如推理、決策與交互。
這種變化直接體現(xiàn)在多個層面:一方面,越來越多工作開始質(zhì)疑以語言為中心的推理路徑,嘗試讓模型在視覺或潛在空間中直接完成結(jié)構(gòu)推理;另一方面,研究者也在反思現(xiàn)有評測體系與數(shù)據(jù)構(gòu)建方式,因為如果評價標(biāo)準本身存在偏差,那么所謂的“進步”很可能只是對 benchmark 的過擬合。
更重要的是,這一屆論文并不是在單一方向上推進,而是呈現(xiàn)出一種系統(tǒng)性重構(gòu)的跡象:推理機制上,從“始終推理”走向“按需推理”,從顯式鏈式推理走向隱式表示推理。
評測層面,從選擇題式的便捷評估走向更接近真實能力的開放式驗證;模型形態(tài)上,從單一任務(wù)模型演進為支持圖像、視頻與定位的一體化多模態(tài)系統(tǒng);而在數(shù)據(jù)層面,則從零散數(shù)據(jù)集走向規(guī)?;?、結(jié)構(gòu)化且任務(wù)驅(qū)動的數(shù)據(jù)基礎(chǔ)設(shè)施。
這些變化背后隱含著一個更深的共識正在形成:視覺智能的瓶頸,已經(jīng)不再只是模型能力本身,而是“推理方式、評測范式、系統(tǒng)形態(tài)與數(shù)據(jù)供給”之間的協(xié)同問題。
基于這樣的整體趨勢,AI 科技評論對本屆具有代表性的工作進行了系統(tǒng)梳理,從推理機制的重構(gòu)、評測范式的反思、模型系統(tǒng)的演進以及數(shù)據(jù)基礎(chǔ)設(shè)施的升級四個關(guān)鍵維度出發(fā),選取了一系列具有標(biāo)志性意義的論文,試圖還原這一輪視覺智能范式轉(zhuǎn)變的核心脈絡(luò)。
如果說過去的多模態(tài)研究默認一種路徑——無論任務(wù)難易,模型都應(yīng)該通過 Chain-of-Thought 展開逐步推理,那么由 Meta AI、KAUST 以及普林斯頓大學(xué)共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》實際上是在動搖這個前提本身。
在視頻理解任務(wù)中,主流方法往往依賴顯式推理來提升性能,但作者通過實驗觀察到一個并不直觀的現(xiàn)象:對于經(jīng)過強化學(xué)習(xí)優(yōu)化的視頻模型,直接回答在不少情況下已經(jīng)可以達到,甚至超過帶推理的結(jié)果。這意味著問題并不在于模型缺乏推理能力,而在于“每一次都推理”本身可能是低效甚至冗余的。
基于這一點,論文提出了 VideoAuto-R1 框架,與其說是在增強推理,不如說是在重新調(diào)度推理。模型在訓(xùn)練階段采用一種“Thinking Once, Answering Twice”的機制:先生成一個初始答案,再進行推理得到修正后的答案,并同時對這兩個輸出進行監(jiān)督學(xué)習(xí),使模型既具備快速響應(yīng)能力,又具備在必要時進行深入推理的能力。
而在推理階段,模型不會固定執(zhí)行推理流程,而是根據(jù)初始答案的置信度動態(tài)決策——如果問題簡單,則直接輸出結(jié)果;如果問題復(fù)雜,才觸發(fā)后續(xù)推理。
這種設(shè)計把“是否推理”從一個人為設(shè)定的流程,轉(zhuǎn)變?yōu)槟P妥陨砜梢詫W(xué)習(xí)的決策變量。實驗結(jié)果進一步說明,這種按需推理的方式不僅沒有損失性能,反而在保持當(dāng)前最優(yōu)水平的同時,將平均輸出長度減少約 3.3 倍。
同時也揭示出一個更細粒度的規(guī)律:在感知類任務(wù)中,推理的作用相對有限,而在真正需要復(fù)雜邏輯的任務(wù)中,推理才顯得關(guān)鍵。
這篇論文的亮點主要體現(xiàn)在三個方面。首先,它提出了一種“按需推理”的新范式,使模型不再固定執(zhí)行復(fù)雜推理流程,從而顯著提高效率。
其次,通過“雙答案訓(xùn)練機制”,模型在保持高性能的同時減少不必要的推理開銷,在實驗中將平均輸出長度減少約 3.3 倍,同時仍達到當(dāng)前最優(yōu)水平。
最后,論文揭示了一個重要現(xiàn)象,即推理并不是在所有任務(wù)中都必要,在感知類任務(wù)中使用較少,而在復(fù)雜推理任務(wù)中才更有價值,這為后續(xù)多模態(tài)模型設(shè)計提供了重要啟發(fā) 。
總體來看,這篇論文的核心貢獻是提出了一種“按需觸發(fā)推理”的視頻理解框架,使多模態(tài)模型在保證性能的同時顯著提升效率,從而推動視頻理解從“始終推理”向“自適應(yīng)推理”轉(zhuǎn)變。

如果說 VideoAuto-R1 是在回答“推理是否必須發(fā)生”,那么由加州大學(xué)伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》則是在追問另一個更隱蔽的問題——即便發(fā)生了推理,它是否一定要以語言為中介。
當(dāng)前多模態(tài)模型雖然能夠處理視覺輸入,但其內(nèi)部推理過程依然高度依賴語言表示,這在處理拼圖、空間對應(yīng)關(guān)系、幾何結(jié)構(gòu)等任務(wù)時會遇到表達瓶頸,因為這些結(jié)構(gòu)本身很難被線性的文本步驟充分刻畫。
同時,已有方法往往依賴人工設(shè)計的中間監(jiān)督信號(例如邊界框或裁剪區(qū)域),不僅標(biāo)注成本高,也限制了模型學(xué)習(xí)更靈活的視覺表示能力。
在這種背景下,LIVR(Latent Implicit Visual Reasoning)提出了一種不同路徑:與其顯式構(gòu)造推理步驟,不如讓模型在潛在空間中自行形成推理結(jié)構(gòu)。
具體來說,方法在輸入中引入一組 latent visual tokens,并通過一種“視覺瓶頸機制”強制模型在預(yù)測答案時只能通過這些 token 獲取視覺信息,而不能直接訪問原始圖像特征。這種限制實際上迫使模型將關(guān)鍵信息壓縮并編碼進這些潛在表示中,從而在 latent 空間中完成信息組織與推理。
訓(xùn)練過程分為兩個階段:首先學(xué)習(xí) latent token 如何承載視覺信息,其次恢復(fù)完整結(jié)構(gòu)進行聯(lián)合優(yōu)化。最終得到的不是一條可讀的推理鏈,而是一種隱式的、內(nèi)嵌在表示中的推理過程。這種方式不依賴顯式中間監(jiān)督,卻在多個視覺任務(wù)和不同模型架構(gòu)上都帶來了穩(wěn)定性能提升,說明這種“去語言化”的推理機制具備較強的泛化能力。
這篇論文的亮點主要體現(xiàn)在三個方面。首先,它提出了一種不依賴顯式監(jiān)督的視覺推理方式,模型可以自動學(xué)習(xí)中間表示,而不需要人工設(shè)計推理步驟。
其次,它將推理從“文本鏈式推理”擴展到“潛在空間推理”,使模型能夠更自然地表達復(fù)雜視覺結(jié)構(gòu)。最后,該方法具有很強的通用性,在多個視覺任務(wù)和多模型上都能穩(wěn)定提升性能,說明這種隱式視覺推理機制具有良好的泛化能力 。
總體來看,這篇論文的核心貢獻是提出了一種基于潛在 token 的隱式視覺推理框架,使多模態(tài)模型從依賴語言進行推理,轉(zhuǎn)向在內(nèi)部表示中進行更高效、更靈活的視覺推理。

而麻省理工學(xué)院(MIT)的研究論文《ARC Is a Vision Problem!》則更進一步,直接打破了問題本身的建模方式。ARC(抽象推理基準)長期以來被視為語言推理任務(wù),大量方法依賴大語言模型進行規(guī)則歸納與解釋,但這篇論文指出,這種處理方式可能從一開始就偏離了問題本質(zhì)。
與其說 ARC 是一個需要語言推理的問題,不如說它是一個典型的視覺結(jié)構(gòu)變換問題,其核心在于空間關(guān)系、對稱性以及幾何規(guī)律,而非語言邏輯。
基于這一重新定義,研究將 ARC 建模為一個圖像到圖像的映射任務(wù):首先將原始網(wǎng)格嵌入到一個“畫布(canvas)”中,使其可以像自然圖像一樣被處理;隨后直接使用標(biāo)準視覺模型(例如 Vision Transformer)學(xué)習(xí)從輸入到輸出的空間變換規(guī)則。
在推理階段,方法進一步引入測試時訓(xùn)練(test-time training),使模型能夠在看到少量示例后進行快速適應(yīng),從而實現(xiàn)跨任務(wù)泛化。
值得注意的是,這種方法并不依賴大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),但依然能夠在 ARC 上取得接近人類水平的性能,同時顯著縮小與大型語言模型之間的差距。其背后依賴的是視覺模型天然具備的歸納偏置,例如空間局部性、平移不變性和尺度不變性,這些特性使模型能夠更自然地學(xué)習(xí)抽象規(guī)則,并在少樣本場景中展現(xiàn)出更強的泛化能力。
總體來看,這篇論文的核心貢獻是將 ARC 問題從“語言推理”重新定義為“視覺建模問題”,并證明基于視覺的方法可以有效學(xué)習(xí)抽象規(guī)則,從而為通用推理模型提供了一種新的方向。

把這幾項工作放在一起看,會發(fā)現(xiàn)它們并不是簡單地提升模型能力,而是在逐步拆解“推理”這一概念本身:如果說過去的路徑是默認所有問題都需要通過語言展開推理,那么現(xiàn)在的趨勢更像是在重新分工,有些問題本質(zhì)上是感知問題,可以直接回答。
有些推理可以在潛在表示中完成,而不需要顯式展開;還有一些任務(wù)甚至需要先被重新定義,才能找到更合適的建模方式。也正是在這種不斷打破既有假設(shè)、并建立新范式的過程中,多模態(tài)模型開始從“始終推理”的范式,轉(zhuǎn)向一種更具適應(yīng)性的“按需與多形態(tài)推理”。
如果說現(xiàn)有視覺語言模型的評測大多還停留在“看懂了什么”這一層,那么由清華大學(xué)電機工程系、清華大學(xué)深圳國際研究生院、清華大學(xué)交叉信息研究院與理想汽車共同提出的 《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》,則把問題推進到了更接近真實世界的一步:模型不僅要看懂環(huán)境,還要在多個智能體共同參與的場景中理解合作、競爭與策略選擇。
現(xiàn)實任務(wù)往往不是單一主體面對靜態(tài)圖像,而是多個智能體在同一環(huán)境中相互影響,既可能合作,也可能競爭,還可能處在混合動機之下;但已有基準大多局限于單智能體或純文本環(huán)境,很難真正衡量 VLM 在復(fù)雜交互場景中的策略能力。
基于這個缺口,論文提出了 VS-Bench(Visual Strategic Benchmark),構(gòu)建了一個多模態(tài)、多智能體的統(tǒng)一評測環(huán)境,其中包含 10 個視覺驅(qū)動的交互場景,覆蓋合作、競爭以及混合動機等任務(wù)類型。
更重要的是,它沒有只看最終答對與否,而是把模型能力拆成三個層次來評估:首先是感知能力,也就是能否識別環(huán)境元素;其次是策略推理能力,即能否預(yù)測下一步行動;最后是決策能力,也就是模型在整體任務(wù)中的實際表現(xiàn)。
這樣的拆分讓評測結(jié)果不再只是一個分數(shù),而能進一步看出模型到底是“沒看懂”,還是“看懂了但不會推理”,又或者是“能推理但決策不穩(wěn)”。
實驗中,作者測試了多個主流視覺語言模型,結(jié)果顯示這些模型雖然在感知層面已經(jīng)表現(xiàn)較強,但在策略推理和決策上仍然存在明顯差距。也就是說,它們很多時候是“看得懂環(huán)境”,卻還沒有真正具備在復(fù)雜交互中做出好決策的能力。
這篇工作的價值也正在這里:它首次建立了一個面向多智能體與多模態(tài)場景的統(tǒng)一評測框架,彌補了現(xiàn)有基準在復(fù)雜交互任務(wù)上的空缺;同時又通過感知、推理、決策三層拆解,讓 VLM 的能力分析更細致、更可解釋。
與其說它只是增加了一個新 benchmark,不如說它把視覺語言模型的評估范圍,從單一圖像理解擴展到了策略推理與交互決策,從而為后續(xù)研究明確指出了一個關(guān)鍵短板:當(dāng)前模型已經(jīng)越來越會“看”,但還遠沒有真正學(xué)會在多智能體環(huán)境中“謀”。

相比之下中國科學(xué)院自動化研究所、中國科學(xué)院大學(xué)人工智能學(xué)院、智源 FlagEval 團隊、北京航空航天大學(xué)、北京大學(xué)、浙江大學(xué)共同提出的 《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》,則把目光轉(zhuǎn)向了另一個更基礎(chǔ)、卻同樣影響深遠的問題:我們現(xiàn)在用來訓(xùn)練和評估多模態(tài)模型的題目形式,本身是否可靠。
當(dāng)前大量視覺問答基準采用多項選擇問答(MCQA),這種形式確實方便自動評測,但論文指出,選項本身常常會泄露額外信息,使模型即使沒有真正理解圖像和問題,也能通過排除法、選項偏差或猜測模式拿到較高分數(shù)。換句話說,模型分數(shù)看起來變高了,但真實能力可能被系統(tǒng)性高估。
為了解決這個問題,論文提出了 ReVeL(Rewrite and Verify by LLM) 框架,試圖打破對選擇題形式的依賴,建立一種“可驗證開放問答”的新范式。雷峰網(wǎng)
它的核心做法并不是簡單刪除選項,而是根據(jù)不同問題類型設(shè)計對應(yīng)的重寫策略和驗證機制,把原本依賴選項的信息重新組織成開放式問答形式,同時保留自動驗證答案的能力。這樣一來,模型在回答時不能再借助選項進行投機性推理,而必須真正基于視覺內(nèi)容和問題語義生成答案。
在訓(xùn)練階段,作者進一步利用這些轉(zhuǎn)換后的數(shù)據(jù)對視覺語言模型進行強化微調(diào),使訓(xùn)練信號更加接近真實開放場景,也降低了 MCQA 選項偏差帶來的干擾。
這篇論文最關(guān)鍵的貢獻,是把一個長期被默認接受的評測形式重新問題化了。作者不僅指出 MCQA 存在“虛高”風(fēng)險,還通過實驗量化了這種偏差,發(fā)現(xiàn)分數(shù)可能被高估多達約 20 個百分點。
在此基礎(chǔ)上,ReVeL 又提供了一條從“選擇題評測”走向“可驗證開放問答”的路徑。它既保留了自動評測的可操作性,又迫使模型擺脫對選項線索的依賴,從而提升開放問答能力、數(shù)據(jù)效率和訓(xùn)練穩(wěn)健性。
與其說這項工作只是換了一種題型,不如說它在打破多模態(tài)評測中“方便評估等于有效評估”的慣性,并建立起一種更接近真實應(yīng)用的訓(xùn)練與評估方式。

把這兩篇放在一起看,會發(fā)現(xiàn)它們都在推動視覺語言模型評測從“表面正確”走向“能力真實”。VS-Bench 追問的是:模型能否在多智能體環(huán)境中完成策略推理與決策;ReVeL 追問的是:模型看似答對時,是否真的理解了問題,而不是被選項提示帶著走。
前者把評估場景從單一理解擴展到復(fù)雜交互,后者把評估形式從多項選擇推進到可驗證開放問答。它們共同指向的是同一個趨勢:未來的多模態(tài)模型不能只在靜態(tài)、封閉、容易打分的任務(wù)上取得高分,而必須在更開放、更動態(tài)、更接近真實世界的任務(wù)中證明自己的理解、推理和決策能力。
與不少已經(jīng)具備圖像理解能力的開源視覺語言模型相比,由 Allen Institute for AI 和 華盛頓大學(xué)共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》則把關(guān)注點進一步延伸到了兩個更關(guān)鍵的方向:一是視頻理解能力,二是語言與視覺之間的精細對齊。
當(dāng)前主流開源 VLM 雖然在單張圖像理解上已經(jīng)取得不錯效果,但在處理視頻這種時序信息更復(fù)雜的輸入時仍然能力有限,同時在將語言描述精確對應(yīng)到具體視覺區(qū)域方面也存在明顯不足。
更深一層的問題在于“開源”的不徹底:不少模型僅開放部分權(quán)重,訓(xùn)練數(shù)據(jù)、數(shù)據(jù)來源或訓(xùn)練流程并不透明,甚至依賴閉源模型蒸餾,這使得結(jié)果難以復(fù)現(xiàn),也限制了后續(xù)研究的可持續(xù)發(fā)展。
Molmo2 的切入點正是同時回應(yīng)這兩個問題。它不僅擴展了輸入形式,從單圖、多圖進一步覆蓋到視頻,還在模型中引入了 grounding 能力,使模型能夠?qū)⒄Z言中的描述精確映射到圖像或視頻中的具體區(qū)域。
這樣一來,模型不再只是回答“看到了什么”,而是能夠進一步回答“具體在哪里”,在理解與定位之間建立更緊密的聯(lián)系。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
在方法之外,這篇論文的亮點同樣矚目。首先,它提供了一個完全開源的視覺語言模型體系,不僅開放模型,還開放數(shù)據(jù)和訓(xùn)練流程,這在當(dāng)前多模態(tài)領(lǐng)域中較為少見。
其次,它將能力從圖像擴展到視頻,并且加入了精細的定位能力,使模型不僅能“看懂”,還可以“指出具體位置”。最后,該工作在開放性和性能之間取得了平衡,為后續(xù)研究提供了一個可直接使用和擴展的基礎(chǔ)模型框架。
總體來看,這篇論文的核心貢獻是構(gòu)建了一套完全開放、支持視頻理解與定位能力的視覺語言模型體系,使多模態(tài)模型從“只理解圖像”進一步發(fā)展為“能夠理解視頻并進行精細對齊”的統(tǒng)一框架。

而由蘋果公司提出的 《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》,則是把焦點放在文本驅(qū)動圖像編輯里一個基礎(chǔ)但長期缺口明顯的問題上:模型想要根據(jù)自然語言指令修改圖像,離不開大規(guī)模、高質(zhì)量、開放且貼近真實場景的數(shù)據(jù),但現(xiàn)有數(shù)據(jù)集往往要么規(guī)模有限,要么主要依賴合成圖像,難以覆蓋真實圖像中的復(fù)雜內(nèi)容、多樣物體關(guān)系和開放場景變化。
Pico-Banana-400K 正是圍繞這一數(shù)據(jù)瓶頸構(gòu)建的。論文基于來自 OpenImages 的真實圖像,利用多模態(tài)模型自動生成編輯指令和對應(yīng)編輯結(jié)果,從而形成大規(guī)模的“圖像 - 指令 - 編輯結(jié)果”三元組數(shù)據(jù)集。
它并不只是簡單堆數(shù)據(jù),而是在構(gòu)建過程中引入細粒度編輯分類體系和多模態(tài)模型評分機制,用來同時保證兩件事:編輯結(jié)果要符合指令,修改后又要盡可能保持原始圖像內(nèi)容的一致性。
更進一步,這個數(shù)據(jù)集的設(shè)計也沒有停留在單步編輯。除了基礎(chǔ)的單輪“給一張圖、按一句話編輯”之外,它還包含多輪編輯數(shù)據(jù)、偏好數(shù)據(jù)以及長短指令對,因而可以支持更復(fù)雜的推理、規(guī)劃和對齊研究。
也就是說,Pico-Banana-400K 不只是為圖像編輯模型補充訓(xùn)練樣本,而是在嘗試把文本驅(qū)動圖像編輯從一次性操作,推進到更接近真實使用場景的連續(xù)編輯、偏好對齊和指令理解。
這篇工作的價值主要在于,它以 40 萬級別的高質(zhì)量真實圖像編輯數(shù)據(jù),填補了 instruction-based image editing 領(lǐng)域長期缺少開放大規(guī)模數(shù)據(jù)的空白,同時又通過系統(tǒng)化的數(shù)據(jù)構(gòu)建流程,在規(guī)模、質(zhì)量和多樣性之間取得平衡。
它打破了以往圖像編輯數(shù)據(jù)過小、過合成、任務(wù)形式單一的限制,建立起一個更標(biāo)準化的基礎(chǔ)設(shè)施,為后續(xù)文本驅(qū)動圖像編輯模型的訓(xùn)練、評測和對齊提供了更扎實的起點。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章