CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

本文作者：鄭佳美

2026-04-30 10:37

導(dǎo)語：視覺智能：從單一感知能力，擴展為融合感知、認知與行動的一體化智能形態(tài)。

如果回看過去十年的計算機視覺發(fā)展，其主線其實非常清晰：從早期以 ImageNet classification 為代表的“識別范式”，到以檢測、分割為核心的“結(jié)構(gòu)理解”，再到擴散模型推動的“生成范式”，視覺研究始終圍繞一個核心目標(biāo)展開——讓機器更準確地“看見世界”。

然而，這一路徑在近兩年開始出現(xiàn)明顯的邊界：當(dāng)模型已經(jīng)可以在靜態(tài)圖像上達到接近甚至超過人類的感知水平時，“看得更準”本身，正在變成一個邊際收益遞減的問題。

在這樣的背景下，在 CVPR 2026 中的一些相關(guān)工作所呈現(xiàn)出的，不再只是性能曲線的繼續(xù)上揚，而是一種更深層的范式轉(zhuǎn)向：視覺不再被視為終點，而被重新定位為一種中介能力，它服務(wù)于更高層的目標(biāo)，例如推理、決策與交互。

這種變化直接體現(xiàn)在多個層面：一方面，越來越多工作開始質(zhì)疑以語言為中心的推理路徑，嘗試讓模型在視覺或潛在空間中直接完成結(jié)構(gòu)推理；另一方面，研究者也在反思現(xiàn)有評測體系與數(shù)據(jù)構(gòu)建方式，因為如果評價標(biāo)準本身存在偏差，那么所謂的“進步”很可能只是對 benchmark 的過擬合。

更重要的是，這一屆論文并不是在單一方向上推進，而是呈現(xiàn)出一種系統(tǒng)性重構(gòu)的跡象：推理機制上，從“始終推理”走向“按需推理”，從顯式鏈式推理走向隱式表示推理。

評測層面，從選擇題式的便捷評估走向更接近真實能力的開放式驗證；模型形態(tài)上，從單一任務(wù)模型演進為支持圖像、視頻與定位的一體化多模態(tài)系統(tǒng)；而在數(shù)據(jù)層面，則從零散數(shù)據(jù)集走向規(guī)?；?、結(jié)構(gòu)化且任務(wù)驅(qū)動的數(shù)據(jù)基礎(chǔ)設(shè)施。

這些變化背后隱含著一個更深的共識正在形成：視覺智能的瓶頸，已經(jīng)不再只是模型能力本身，而是“推理方式、評測范式、系統(tǒng)形態(tài)與數(shù)據(jù)供給”之間的協(xié)同問題。

基于這樣的整體趨勢，AI 科技評論對本屆具有代表性的工作進行了系統(tǒng)梳理，從推理機制的重構(gòu)、評測范式的反思、模型系統(tǒng)的演進以及數(shù)據(jù)基礎(chǔ)設(shè)施的升級四個關(guān)鍵維度出發(fā)，選取了一系列具有標(biāo)志性意義的論文，試圖還原這一輪視覺智能范式轉(zhuǎn)變的核心脈絡(luò)。

推理，可能一直用錯了

如果說過去的多模態(tài)研究默認一種路徑——無論任務(wù)難易，模型都應(yīng)該通過 Chain-of-Thought 展開逐步推理，那么由 Meta AI、KAUST 以及普林斯頓大學(xué)共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》實際上是在動搖這個前提本身。

在視頻理解任務(wù)中，主流方法往往依賴顯式推理來提升性能，但作者通過實驗觀察到一個并不直觀的現(xiàn)象：對于經(jīng)過強化學(xué)習(xí)優(yōu)化的視頻模型，直接回答在不少情況下已經(jīng)可以達到，甚至超過帶推理的結(jié)果。這意味著問題并不在于模型缺乏推理能力，而在于“每一次都推理”本身可能是低效甚至冗余的。

基于這一點，論文提出了 VideoAuto-R1 框架，與其說是在增強推理，不如說是在重新調(diào)度推理。模型在訓(xùn)練階段采用一種“Thinking Once, Answering Twice”的機制：先生成一個初始答案，再進行推理得到修正后的答案，并同時對這兩個輸出進行監(jiān)督學(xué)習(xí)，使模型既具備快速響應(yīng)能力，又具備在必要時進行深入推理的能力。

而在推理階段，模型不會固定執(zhí)行推理流程，而是根據(jù)初始答案的置信度動態(tài)決策——如果問題簡單，則直接輸出結(jié)果；如果問題復(fù)雜，才觸發(fā)后續(xù)推理。

這種設(shè)計把“是否推理”從一個人為設(shè)定的流程，轉(zhuǎn)變?yōu)槟Ｐ妥陨砜梢詫W(xué)習(xí)的決策變量。實驗結(jié)果進一步說明，這種按需推理的方式不僅沒有損失性能，反而在保持當(dāng)前最優(yōu)水平的同時，將平均輸出長度減少約 3.3 倍。

同時也揭示出一個更細粒度的規(guī)律：在感知類任務(wù)中，推理的作用相對有限，而在真正需要復(fù)雜邏輯的任務(wù)中，推理才顯得關(guān)鍵。

這篇論文的亮點主要體現(xiàn)在三個方面。首先，它提出了一種“按需推理”的新范式，使模型不再固定執(zhí)行復(fù)雜推理流程，從而顯著提高效率。

其次，通過“雙答案訓(xùn)練機制”，模型在保持高性能的同時減少不必要的推理開銷，在實驗中將平均輸出長度減少約 3.3 倍，同時仍達到當(dāng)前最優(yōu)水平。

最后，論文揭示了一個重要現(xiàn)象，即推理并不是在所有任務(wù)中都必要，在感知類任務(wù)中使用較少，而在復(fù)雜推理任務(wù)中才更有價值，這為后續(xù)多模態(tài)模型設(shè)計提供了重要啟發(fā) 。

總體來看，這篇論文的核心貢獻是提出了一種“按需觸發(fā)推理”的視頻理解框架，使多模態(tài)模型在保證性能的同時顯著提升效率，從而推動視頻理解從“始終推理”向“自適應(yīng)推理”轉(zhuǎn)變。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

如果說 VideoAuto-R1 是在回答“推理是否必須發(fā)生”，那么由加州大學(xué)伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》則是在追問另一個更隱蔽的問題——即便發(fā)生了推理，它是否一定要以語言為中介。

當(dāng)前多模態(tài)模型雖然能夠處理視覺輸入，但其內(nèi)部推理過程依然高度依賴語言表示，這在處理拼圖、空間對應(yīng)關(guān)系、幾何結(jié)構(gòu)等任務(wù)時會遇到表達瓶頸，因為這些結(jié)構(gòu)本身很難被線性的文本步驟充分刻畫。

同時，已有方法往往依賴人工設(shè)計的中間監(jiān)督信號（例如邊界框或裁剪區(qū)域），不僅標(biāo)注成本高，也限制了模型學(xué)習(xí)更靈活的視覺表示能力。

在這種背景下，LIVR（Latent Implicit Visual Reasoning）提出了一種不同路徑：與其顯式構(gòu)造推理步驟，不如讓模型在潛在空間中自行形成推理結(jié)構(gòu)。

具體來說，方法在輸入中引入一組 latent visual tokens，并通過一種“視覺瓶頸機制”強制模型在預(yù)測答案時只能通過這些 token 獲取視覺信息，而不能直接訪問原始圖像特征。這種限制實際上迫使模型將關(guān)鍵信息壓縮并編碼進這些潛在表示中，從而在 latent 空間中完成信息組織與推理。

訓(xùn)練過程分為兩個階段：首先學(xué)習(xí) latent token 如何承載視覺信息，其次恢復(fù)完整結(jié)構(gòu)進行聯(lián)合優(yōu)化。最終得到的不是一條可讀的推理鏈，而是一種隱式的、內(nèi)嵌在表示中的推理過程。這種方式不依賴顯式中間監(jiān)督，卻在多個視覺任務(wù)和不同模型架構(gòu)上都帶來了穩(wěn)定性能提升，說明這種“去語言化”的推理機制具備較強的泛化能力。

這篇論文的亮點主要體現(xiàn)在三個方面。首先，它提出了一種不依賴顯式監(jiān)督的視覺推理方式，模型可以自動學(xué)習(xí)中間表示，而不需要人工設(shè)計推理步驟。

其次，它將推理從“文本鏈式推理”擴展到“潛在空間推理”，使模型能夠更自然地表達復(fù)雜視覺結(jié)構(gòu)。最后，該方法具有很強的通用性，在多個視覺任務(wù)和多模型上都能穩(wěn)定提升性能，說明這種隱式視覺推理機制具有良好的泛化能力。

總體來看，這篇論文的核心貢獻是提出了一種基于潛在 token 的隱式視覺推理框架，使多模態(tài)模型從依賴語言進行推理，轉(zhuǎn)向在內(nèi)部表示中進行更高效、更靈活的視覺推理。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

而麻省理工學(xué)院（MIT）的研究論文《ARC Is a Vision Problem!》則更進一步，直接打破了問題本身的建模方式。ARC（抽象推理基準）長期以來被視為語言推理任務(wù)，大量方法依賴大語言模型進行規(guī)則歸納與解釋，但這篇論文指出，這種處理方式可能從一開始就偏離了問題本質(zhì)。

與其說 ARC 是一個需要語言推理的問題，不如說它是一個典型的視覺結(jié)構(gòu)變換問題，其核心在于空間關(guān)系、對稱性以及幾何規(guī)律，而非語言邏輯。

基于這一重新定義，研究將 ARC 建模為一個圖像到圖像的映射任務(wù)：首先將原始網(wǎng)格嵌入到一個“畫布（canvas）”中，使其可以像自然圖像一樣被處理；隨后直接使用標(biāo)準視覺模型（例如 Vision Transformer）學(xué)習(xí)從輸入到輸出的空間變換規(guī)則。

在推理階段，方法進一步引入測試時訓(xùn)練（test-time training），使模型能夠在看到少量示例后進行快速適應(yīng)，從而實現(xiàn)跨任務(wù)泛化。

值得注意的是，這種方法并不依賴大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)，但依然能夠在 ARC 上取得接近人類水平的性能，同時顯著縮小與大型語言模型之間的差距。其背后依賴的是視覺模型天然具備的歸納偏置，例如空間局部性、平移不變性和尺度不變性，這些特性使模型能夠更自然地學(xué)習(xí)抽象規(guī)則，并在少樣本場景中展現(xiàn)出更強的泛化能力。

總體來看，這篇論文的核心貢獻是將 ARC 問題從“語言推理”重新定義為“視覺建模問題”，并證明基于視覺的方法可以有效學(xué)習(xí)抽象規(guī)則，從而為通用推理模型提供了一種新的方向。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

把這幾項工作放在一起看，會發(fā)現(xiàn)它們并不是簡單地提升模型能力，而是在逐步拆解“推理”這一概念本身：如果說過去的路徑是默認所有問題都需要通過語言展開推理，那么現(xiàn)在的趨勢更像是在重新分工，有些問題本質(zhì)上是感知問題，可以直接回答。

有些推理可以在潛在表示中完成，而不需要顯式展開；還有一些任務(wù)甚至需要先被重新定義，才能找到更合適的建模方式。也正是在這種不斷打破既有假設(shè)、并建立新范式的過程中，多模態(tài)模型開始從“始終推理”的范式，轉(zhuǎn)向一種更具適應(yīng)性的“按需與多形態(tài)推理”。

評測，正在誤導(dǎo)一切

如果說現(xiàn)有視覺語言模型的評測大多還停留在“看懂了什么”這一層，那么由清華大學(xué)電機工程系、清華大學(xué)深圳國際研究生院、清華大學(xué)交叉信息研究院與理想汽車共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，則把問題推進到了更接近真實世界的一步：模型不僅要看懂環(huán)境，還要在多個智能體共同參與的場景中理解合作、競爭與策略選擇。

現(xiàn)實任務(wù)往往不是單一主體面對靜態(tài)圖像，而是多個智能體在同一環(huán)境中相互影響，既可能合作，也可能競爭，還可能處在混合動機之下；但已有基準大多局限于單智能體或純文本環(huán)境，很難真正衡量 VLM 在復(fù)雜交互場景中的策略能力。

基于這個缺口，論文提出了 VS-Bench（Visual Strategic Benchmark），構(gòu)建了一個多模態(tài)、多智能體的統(tǒng)一評測環(huán)境，其中包含 10 個視覺驅(qū)動的交互場景，覆蓋合作、競爭以及混合動機等任務(wù)類型。

更重要的是，它沒有只看最終答對與否，而是把模型能力拆成三個層次來評估：首先是感知能力，也就是能否識別環(huán)境元素；其次是策略推理能力，即能否預(yù)測下一步行動；最后是決策能力，也就是模型在整體任務(wù)中的實際表現(xiàn)。

這樣的拆分讓評測結(jié)果不再只是一個分數(shù)，而能進一步看出模型到底是“沒看懂”，還是“看懂了但不會推理”，又或者是“能推理但決策不穩(wěn)”。

實驗中，作者測試了多個主流視覺語言模型，結(jié)果顯示這些模型雖然在感知層面已經(jīng)表現(xiàn)較強，但在策略推理和決策上仍然存在明顯差距。也就是說，它們很多時候是“看得懂環(huán)境”，卻還沒有真正具備在復(fù)雜交互中做出好決策的能力。

這篇工作的價值也正在這里：它首次建立了一個面向多智能體與多模態(tài)場景的統(tǒng)一評測框架，彌補了現(xiàn)有基準在復(fù)雜交互任務(wù)上的空缺；同時又通過感知、推理、決策三層拆解，讓 VLM 的能力分析更細致、更可解釋。

與其說它只是增加了一個新 benchmark，不如說它把視覺語言模型的評估范圍，從單一圖像理解擴展到了策略推理與交互決策，從而為后續(xù)研究明確指出了一個關(guān)鍵短板：當(dāng)前模型已經(jīng)越來越會“看”，但還遠沒有真正學(xué)會在多智能體環(huán)境中“謀”。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

相比之下中國科學(xué)院自動化研究所、中國科學(xué)院大學(xué)人工智能學(xué)院、智源 FlagEval 團隊、北京航空航天大學(xué)、北京大學(xué)、浙江大學(xué)共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，則把目光轉(zhuǎn)向了另一個更基礎(chǔ)、卻同樣影響深遠的問題：我們現(xiàn)在用來訓(xùn)練和評估多模態(tài)模型的題目形式，本身是否可靠。

當(dāng)前大量視覺問答基準采用多項選擇問答（MCQA），這種形式確實方便自動評測，但論文指出，選項本身常常會泄露額外信息，使模型即使沒有真正理解圖像和問題，也能通過排除法、選項偏差或猜測模式拿到較高分數(shù)。換句話說，模型分數(shù)看起來變高了，但真實能力可能被系統(tǒng)性高估。

為了解決這個問題，論文提出了 ReVeL（Rewrite and Verify by LLM）框架，試圖打破對選擇題形式的依賴，建立一種“可驗證開放問答”的新范式。雷峰網(wǎng)

它的核心做法并不是簡單刪除選項，而是根據(jù)不同問題類型設(shè)計對應(yīng)的重寫策略和驗證機制，把原本依賴選項的信息重新組織成開放式問答形式，同時保留自動驗證答案的能力。這樣一來，模型在回答時不能再借助選項進行投機性推理，而必須真正基于視覺內(nèi)容和問題語義生成答案。

在訓(xùn)練階段，作者進一步利用這些轉(zhuǎn)換后的數(shù)據(jù)對視覺語言模型進行強化微調(diào)，使訓(xùn)練信號更加接近真實開放場景，也降低了 MCQA 選項偏差帶來的干擾。

這篇論文最關(guān)鍵的貢獻，是把一個長期被默認接受的評測形式重新問題化了。作者不僅指出 MCQA 存在“虛高”風(fēng)險，還通過實驗量化了這種偏差，發(fā)現(xiàn)分數(shù)可能被高估多達約 20 個百分點。

在此基礎(chǔ)上，ReVeL 又提供了一條從“選擇題評測”走向“可驗證開放問答”的路徑。它既保留了自動評測的可操作性，又迫使模型擺脫對選項線索的依賴，從而提升開放問答能力、數(shù)據(jù)效率和訓(xùn)練穩(wěn)健性。

與其說這項工作只是換了一種題型，不如說它在打破多模態(tài)評測中“方便評估等于有效評估”的慣性，并建立起一種更接近真實應(yīng)用的訓(xùn)練與評估方式。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

把這兩篇放在一起看，會發(fā)現(xiàn)它們都在推動視覺語言模型評測從“表面正確”走向“能力真實”。VS-Bench 追問的是：模型能否在多智能體環(huán)境中完成策略推理與決策；ReVeL 追問的是：模型看似答對時，是否真的理解了問題，而不是被選項提示帶著走。

前者把評估場景從單一理解擴展到復(fù)雜交互，后者把評估形式從多項選擇推進到可驗證開放問答。它們共同指向的是同一個趨勢：未來的多模態(tài)模型不能只在靜態(tài)、封閉、容易打分的任務(wù)上取得高分，而必須在更開放、更動態(tài)、更接近真實世界的任務(wù)中證明自己的理解、推理和決策能力。

不是小修小補，而是整體重建

與不少已經(jīng)具備圖像理解能力的開源視覺語言模型相比，由 Allen Institute for AI 和華盛頓大學(xué)共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》則把關(guān)注點進一步延伸到了兩個更關(guān)鍵的方向：一是視頻理解能力，二是語言與視覺之間的精細對齊。

當(dāng)前主流開源 VLM 雖然在單張圖像理解上已經(jīng)取得不錯效果，但在處理視頻這種時序信息更復(fù)雜的輸入時仍然能力有限，同時在將語言描述精確對應(yīng)到具體視覺區(qū)域方面也存在明顯不足。

更深一層的問題在于“開源”的不徹底：不少模型僅開放部分權(quán)重，訓(xùn)練數(shù)據(jù)、數(shù)據(jù)來源或訓(xùn)練流程并不透明，甚至依賴閉源模型蒸餾，這使得結(jié)果難以復(fù)現(xiàn)，也限制了后續(xù)研究的可持續(xù)發(fā)展。

Molmo2 的切入點正是同時回應(yīng)這兩個問題。它不僅擴展了輸入形式，從單圖、多圖進一步覆蓋到視頻，還在模型中引入了 grounding 能力，使模型能夠?qū)⒄Z言中的描述精確映射到圖像或視頻中的具體區(qū)域。

這樣一來，模型不再只是回答“看到了什么”，而是能夠進一步回答“具體在哪里”，在理解與定位之間建立更緊密的聯(lián)系。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

在方法之外，這篇論文的亮點同樣矚目。首先，它提供了一個完全開源的視覺語言模型體系，不僅開放模型，還開放數(shù)據(jù)和訓(xùn)練流程，這在當(dāng)前多模態(tài)領(lǐng)域中較為少見。

其次，它將能力從圖像擴展到視頻，并且加入了精細的定位能力，使模型不僅能“看懂”，還可以“指出具體位置”。最后，該工作在開放性和性能之間取得了平衡，為后續(xù)研究提供了一個可直接使用和擴展的基礎(chǔ)模型框架。

總體來看，這篇論文的核心貢獻是構(gòu)建了一套完全開放、支持視頻理解與定位能力的視覺語言模型體系，使多模態(tài)模型從“只理解圖像”進一步發(fā)展為“能夠理解視頻并進行精細對齊”的統(tǒng)一框架。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫

不是缺模型，而是缺數(shù)據(jù)

而由蘋果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，則是把焦點放在文本驅(qū)動圖像編輯里一個基礎(chǔ)但長期缺口明顯的問題上：模型想要根據(jù)自然語言指令修改圖像，離不開大規(guī)模、高質(zhì)量、開放且貼近真實場景的數(shù)據(jù)，但現(xiàn)有數(shù)據(jù)集往往要么規(guī)模有限，要么主要依賴合成圖像，難以覆蓋真實圖像中的復(fù)雜內(nèi)容、多樣物體關(guān)系和開放場景變化。

Pico-Banana-400K 正是圍繞這一數(shù)據(jù)瓶頸構(gòu)建的。論文基于來自 OpenImages 的真實圖像，利用多模態(tài)模型自動生成編輯指令和對應(yīng)編輯結(jié)果，從而形成大規(guī)模的“圖像 - 指令 - 編輯結(jié)果”三元組數(shù)據(jù)集。

它并不只是簡單堆數(shù)據(jù)，而是在構(gòu)建過程中引入細粒度編輯分類體系和多模態(tài)模型評分機制，用來同時保證兩件事：編輯結(jié)果要符合指令，修改后又要盡可能保持原始圖像內(nèi)容的一致性。

更進一步，這個數(shù)據(jù)集的設(shè)計也沒有停留在單步編輯。除了基礎(chǔ)的單輪“給一張圖、按一句話編輯”之外，它還包含多輪編輯數(shù)據(jù)、偏好數(shù)據(jù)以及長短指令對，因而可以支持更復(fù)雜的推理、規(guī)劃和對齊研究。

也就是說，Pico-Banana-400K 不只是為圖像編輯模型補充訓(xùn)練樣本，而是在嘗試把文本驅(qū)動圖像編輯從一次性操作，推進到更接近真實使用場景的連續(xù)編輯、偏好對齊和指令理解。

這篇工作的價值主要在于，它以 40 萬級別的高質(zhì)量真實圖像編輯數(shù)據(jù)，填補了 instruction-based image editing 領(lǐng)域長期缺少開放大規(guī)模數(shù)據(jù)的空白，同時又通過系統(tǒng)化的數(shù)據(jù)構(gòu)建流程，在規(guī)模、質(zhì)量和多樣性之間取得平衡。

它打破了以往圖像編輯數(shù)據(jù)過小、過合成、任務(wù)形式單一的限制，建立起一個更標(biāo)準化的基礎(chǔ)設(shè)施，為后續(xù)文本驅(qū)動圖像編輯模型的訓(xùn)練、評測和對齊提供了更扎實的起點。

CVPR 2026 多模態(tài)視覺智能全景梳理：從感知到推理的范式重寫