CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

本文作者：鄭佳美

2026-04-30 21:39

導(dǎo)語：輸入不再完整、目標(biāo)不再固定，視覺模型開始面對(duì)真實(shí)世界。

如果把近幾年計(jì)算機(jī)視覺的發(fā)展放在一個(gè)更長(zhǎng)的時(shí)間尺度上去看，會(huì)發(fā)現(xiàn)整個(gè)領(lǐng)域其實(shí)一直在沿著一條非常明確但也非常受限的路徑前進(jìn)：

研究者不斷把模型做得更大，把訓(xùn)練數(shù)據(jù)堆得更多，把單項(xiàng) benchmark 指標(biāo)推得更高，于是無論是分割、重建還是生成，模型在標(biāo)準(zhǔn)任務(wù)上的表現(xiàn)都在持續(xù)逼近“看起來已經(jīng)足夠強(qiáng)”的狀態(tài)。

但如果把視角拉回到 CVPR 2026 前后這一批最新工作，會(huì)發(fā)現(xiàn)一個(gè)更值得警惕的變化正在發(fā)生：研究的重心，正在悄悄從“把答案做對(duì)”，轉(zhuǎn)向“在不完美條件下依然能夠持續(xù)理解世界”。

也就是說，這一輪進(jìn)展不再只是精度層面的線性推進(jìn)，而更像是對(duì)視覺系統(tǒng)基本工作方式的一次系統(tǒng)性松動(dòng)。

問題在于，這種“強(qiáng)”，往往建立在一個(gè)并不真實(shí)的假設(shè)之上——默認(rèn)輸入信息是充分的、任務(wù)定義是清晰的、交互過程是單輪的、場(chǎng)景變化是可預(yù)期的。換句話說，過去的大多數(shù)視覺模型雖然在實(shí)驗(yàn)環(huán)境中越來越像一個(gè)“高精度求解器”，卻依然很難成為一個(gè)真正能夠在開放環(huán)境中持續(xù)理解、持續(xù)修正、持續(xù)適應(yīng)的視覺智能體。

而 CVPR 2026 這一波工作最值得關(guān)注的地方，恰恰不在于它們分別把某個(gè)子任務(wù)的數(shù)字提高了多少，而在于它們幾乎不約而同地開始挑戰(zhàn)這個(gè)舊時(shí)代視覺系統(tǒng)最根本的四個(gè)默認(rèn)前提：模型是否必須凍結(jié)、目標(biāo)是否必須預(yù)定義、信息是否必須充分、輸入是否必須結(jié)構(gòu)化。

整個(gè)變化，是從交互式視頻分割這里率先被撕開口子的。

從「用戶修錯(cuò)」到「模型自學(xué)」

長(zhǎng)期以來，交互式視頻分割給人的印象似乎已經(jīng)相當(dāng)成熟：用戶點(diǎn)擊一下，模型修正一下；用戶框選一下，模型繼續(xù)傳播掩碼。看起來人機(jī)協(xié)同已經(jīng)建立起來了。但康奈爾大學(xué)在《Live Interactive Training for Video Segmentation》中指出，這其實(shí)是一種很容易讓人忽略的“偽交互”。因?yàn)樵诂F(xiàn)有范式下，所謂交互只發(fā)生在輸出層，模型的內(nèi)部知識(shí)卻是完全靜止的。

這意味著什么？意味著當(dāng)視頻里出現(xiàn)遮擋、光照突變、主體分裂或者背景偽裝時(shí)，模型第一次犯錯(cuò)，用戶點(diǎn)擊修正；下一次遇到同樣的視覺模式，它大概率還會(huì)再犯同樣的錯(cuò)。用戶似乎一直在參與，但參與的只是重復(fù)勞動(dòng)——用戶并沒有真的把自己的判斷傳遞進(jìn)模型的內(nèi)部表征。

所以這篇論文真正想打破的，并不是“如何讓點(diǎn)擊提示更有效”這種局部工程問題，而是更底層地在追問：為什么我們默認(rèn)推理階段的模型必須是凍結(jié)的？為什么用戶反饋只能被當(dāng)成 prompt，而不能被當(dāng)成即時(shí)學(xué)習(xí)信號(hào)？

LIT 的提出，本質(zhì)上就是把交互式視覺系統(tǒng)從“提示—響應(yīng)”結(jié)構(gòu)，推進(jìn)到了“反饋—吸收—再預(yù)測(cè)”的動(dòng)態(tài)閉環(huán)。用戶一次糾錯(cuò)之后，輕量級(jí) LIT-LoRA 模塊立刻完成局部在線更新，模型隨即對(duì)當(dāng)前視頻的運(yùn)動(dòng)模式、遮擋關(guān)系和外觀變化形成短時(shí)適應(yīng)。于是，用戶的點(diǎn)擊不再只是修補(bǔ)當(dāng)前這一幀，而是開始改變模型之后的判斷邏輯。

這看起來像是一點(diǎn)點(diǎn)在線訓(xùn)練的加入，但它實(shí)際打破的是視覺推理幾十年來非常頑固的一條邊界：推理不再只是參數(shù)凍結(jié)下的被動(dòng)執(zhí)行，而開始擁有任務(wù)內(nèi)自我更新能力。換句話說，視覺模型第一次開始在使用過程中“成長(zhǎng)”。

而一旦“模型可以在任務(wù)中成長(zhǎng)”這件事被打開，研究自然會(huì)往前追問另一層問題：如果模型擁有足夠強(qiáng)的內(nèi)部表征，它是不是甚至不需要顯式訓(xùn)練，也能根據(jù)極少的上下文快速理解用戶想要的目標(biāo)？

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

這就引出了 INSID3 的價(jià)值。Politecnico di Torino、TU Darmstadt 與 TU Munich 聯(lián)合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》，表面看是在做一個(gè)“免訓(xùn)練上下文示例分割”，但它真正挑戰(zhàn)的是過去視覺分割領(lǐng)域?qū)Α叭蝿?wù)泛化”的理解方式。

傳統(tǒng)分割系統(tǒng)的泛化能力通常來自類別預(yù)訓(xùn)練、任務(wù)微調(diào)，或者額外訓(xùn)練一個(gè) support-query 適配頭。也就是說，研究界始終默認(rèn)：想讓模型理解一個(gè)新目標(biāo)，就必須通過參數(shù)層面的新學(xué)習(xí)去注入任務(wù)知識(shí)。

INSID3 的反向論證則非常激進(jìn)——作者認(rèn)為，自監(jiān)督基礎(chǔ)模型 DINOv3 內(nèi)部其實(shí)已經(jīng)潛藏了大量跨像素、跨區(qū)域、跨語義層級(jí)的對(duì)應(yīng)知識(shí)，這些知識(shí)不是不存在，而是過去的任務(wù)設(shè)計(jì)沒有把它有效調(diào)動(dòng)出來。

因此他們不再訓(xùn)練任何分割頭，而是直接讓參考圖與查詢圖在凍結(jié)特征空間里建立密集語義映射，讓“這一塊是什么”的定義通過特征相似性自然傳遞。這意味著模型并不是通過新訓(xùn)練獲得理解，而是在已有表征中被上下文示例即時(shí)喚醒。

這背后非常關(guān)鍵：LIT 證明模型可以從即時(shí)反饋里學(xué)習(xí)；INSID3 則進(jìn)一步證明，模型甚至可能在不學(xué)習(xí)的情況下，僅憑上下文就完成任務(wù)臨場(chǎng)重定義。前者是在打破“推理凍結(jié)”，后者是在打破“目標(biāo)預(yù)定義”。

也就是說，視覺系統(tǒng)正在逐漸擺脫那種“訓(xùn)練時(shí)決定一切，測(cè)試時(shí)只能執(zhí)行”的舊工業(yè)流程。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

離開理想輸入，進(jìn)入真實(shí)場(chǎng)景

但當(dāng)模型開始擁有這種臨場(chǎng)適應(yīng)與臨場(chǎng)理解能力后，更尖銳的問題隨之出現(xiàn)：現(xiàn)實(shí)世界提供給模型的信息，往往根本不像 benchmark 那樣完整。這里，《Long-Tail Internet Photo Reconstruction》的出現(xiàn)就顯得極其重要。

Cornell University 和 Kempner Institute 的研究者指出，今天幾乎所有互聯(lián)網(wǎng)三維重建方法之所以在論文中表現(xiàn)穩(wěn)定，是因?yàn)樗鼈冮L(zhǎng)期依賴熱門地標(biāo)數(shù)據(jù)訓(xùn)練：照片多、重疊強(qiáng)、視角密、幾何對(duì)應(yīng)關(guān)系天然充足。

然而真實(shí)互聯(lián)網(wǎng)世界的絕大多數(shù)地點(diǎn)并不滿足這個(gè)條件。更多時(shí)候，用戶上傳的是幾張零散的手機(jī)拍攝圖，角度不統(tǒng)一，清晰度參差不齊，甚至主體只在少量區(qū)域出現(xiàn)。換句話說，模型面對(duì)的不是“信息充分的重建任務(wù)”，而是“信息極度稀缺下的結(jié)構(gòu)猜測(cè)任務(wù)”。

這篇論文的深刻之處在于，它沒有像以往那樣繼續(xù)在重建算法局部模塊上縫縫補(bǔ)補(bǔ)，而是直接指出：?jiǎn)栴}根本不在推理器，而在訓(xùn)練分布。模型之所以不會(huì)處理長(zhǎng)尾場(chǎng)景，不是因?yàn)樗粫?huì)重建，而是因?yàn)樗鼜奈丛凇吧僬掌?、弱重疊、低覆蓋”的真實(shí)互聯(lián)網(wǎng)分布上形成過幾何推理習(xí)慣。

于是 MegaDepth-X 的意義，是人為制造一種長(zhǎng)期被 benchmark 回避掉的稀疏現(xiàn)實(shí)，讓 3D Foundation Model 學(xué)會(huì)在缺信息、弱對(duì)應(yīng)、低冗余條件下仍然建立結(jié)構(gòu)認(rèn)知。

到這里，視覺系統(tǒng)的第三個(gè)舊前提也被擊穿了：模型不再被允許只在信息充足時(shí)工作，它必須開始具備從碎片線索中補(bǔ)全世界的能力。而這種“從局部線索恢復(fù)整體邏輯”的趨勢(shì)，很快又被延伸到了三維資產(chǎn)理解與生成一致性問題上。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一個(gè)三維材質(zhì)分組工具，但它真正挑戰(zhàn)的是視覺模型長(zhǎng)期以來“只理解幾何相似性，卻不理解設(shè)計(jì)語義”的局限。

多倫多大學(xué)與 Adobe 研究院關(guān)注的是無紋理三維網(wǎng)格中的材質(zhì)感知部件分組問題：在真實(shí)三維資產(chǎn)中，窗框、欄桿、瓦片、鱗片、果殼這類局部結(jié)構(gòu)經(jīng)常重復(fù)出現(xiàn)，卻并不一定在幾何上完全相同；但在后續(xù)材質(zhì)編輯中，它們往往又需要被賦予同一種木材、金屬或石材紋理。

這正是傳統(tǒng)方法的短板。過去模型通常依據(jù)幾何相似性來檢索部件，因此更容易找到“長(zhǎng)得像”的結(jié)構(gòu)，卻很難識(shí)別那些“形狀不同但材質(zhì)邏輯一致”的對(duì)象。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

對(duì)于設(shè)計(jì)師來說，真正重要的并不是兩個(gè)部件是否足夠相似，而是它們?cè)谡w模型的功能、位置和視覺組織中，是否應(yīng)該被一起處理。如果模型只能回答“像不像”，它仍然停留在視覺表面；只有當(dāng)它開始判斷“這些部件是否應(yīng)該共享同一種材質(zhì)”，才算接近真實(shí)三維創(chuàng)作中的語義理解。

Material Magic Wand 的思路，是把二維圖像里“魔棒工具”的交互邏輯遷移到三維網(wǎng)格中：用戶只需點(diǎn)擊一個(gè)部件，系統(tǒng)就自動(dòng)找出模型中所有可能共享相同材質(zhì)屬性的其他部件。

為此，作者設(shè)計(jì)了 material-aware embedding，在編碼三維部件時(shí)，不只看局部幾何形狀，也結(jié)合它在整體模型中的上下文結(jié)構(gòu)信息，并通過監(jiān)督式對(duì)比學(xué)習(xí)，讓相同材質(zhì)的部件在特征空間中更接近、不同材質(zhì)的部件彼此區(qū)分。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

這說明視覺模型正在從“識(shí)別物體是什么”，向“理解人類為什么這樣使用這些物體”過渡。同樣的邏輯，在由魏茨曼科學(xué)研究所（Weizmann Institute of Science）提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

這項(xiàng)研究關(guān)注的是非結(jié)構(gòu)化圖像集合的一致性生成：輸入不再是一張單圖，也不是連續(xù)視頻幀，而是一組共享某個(gè)主體、但在視角、時(shí)間、姿態(tài)和背景上差異很大的圖像，比如商品展示圖、人物相冊(cè)或故事板參考圖。

這類任務(wù)的難點(diǎn)在于，這些圖像沒有視頻那樣天然連續(xù)的時(shí)序約束，卻又要求生成結(jié)果在主體身份、外觀紋理和細(xì)節(jié)結(jié)構(gòu)上保持一致。傳統(tǒng)生成模型往往習(xí)慣逐張?zhí)幚恚虼撕苋菀壮霈F(xiàn)身份漂移、紋理變化或細(xì)節(jié)錯(cuò)亂，本質(zhì)上是因?yàn)槟Ｐ蜎]有把“這一組圖屬于同一個(gè)整體語義系統(tǒng)”真正建模進(jìn)去。

Match-and-Fuse 的做法，是把整組輸入圖像建模成圖結(jié)構(gòu)：每張圖像作為一個(gè)節(jié)點(diǎn)，相關(guān)圖像之間建立邊連接，并在邊上執(zhí)行聯(lián)合雙圖生成。這樣模型能夠先捕捉任意兩張圖之間的共享信息，再把局部一致性約束融合成全局一致輸出。

同時(shí)，論文還利用稠密像素匹配，在擴(kuò)散模型內(nèi)部進(jìn)行跨圖特征融合，讓不同視角下屬于同一對(duì)象的區(qū)域共享潛在表示，從而無需額外訓(xùn)練或人工掩碼，也能維持服飾紋理、商品細(xì)節(jié)、文字標(biāo)識(shí)等細(xì)粒度一致性。

雷峰網(wǎng)

把這些工作放在一起看，會(huì)發(fā)現(xiàn)它們雖然分屬視頻分割、上下文分割、三維重建、三維編輯和一致性生成等不同方向，但真正共同推動(dòng)的，其實(shí)是同一件事：視覺模型正在被迫離開那個(gè)過去被 benchmark 精心整理好的理想環(huán)境。

在那里，輸入是完整的，目標(biāo)是清楚的，圖像關(guān)系是預(yù)設(shè)的，用戶反饋也只是有限的補(bǔ)充；模型要做的，只是在一次推理里盡可能給出正確答案。但現(xiàn)實(shí)世界顯然不是這樣。它的信息往往是殘缺的，目標(biāo)會(huì)臨時(shí)變化，用戶會(huì)不斷介入，不同視角和不同圖片之間還隱藏著大量需要被主動(dòng)整合的關(guān)系。

也正因?yàn)槿绱?，這一批工作最值得關(guān)注的地方，并不是它們分別把某個(gè)任務(wù)做得更強(qiáng)，而是它們開始集體拆掉視覺系統(tǒng)過去賴以成立的那些默認(rèn)前提：模型不再必須凍結(jié)，目標(biāo)不再必須預(yù)定義，輸入不再必須充分，圖像也不再必須被單獨(dú)處理。雷峰網(wǎng)

如果說過去的計(jì)算機(jī)視覺更擅長(zhǎng)的是“看懂一張圖、答對(duì)一道題”，那么現(xiàn)在的新一輪研究正在讓模型學(xué)會(huì)的是另一種能力——在一個(gè)持續(xù)變化、信息不完整、關(guān)系高度交織的視覺環(huán)境里，邊接收反饋，邊補(bǔ)全認(rèn)知，邊重新組織自己對(duì)整個(gè)場(chǎng)景的理解。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章