日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

本文作者: 鄭佳美   2026-04-30 21:39
導(dǎo)語:輸入不再完整、目標(biāo)不再固定,視覺模型開始面對(duì)真實(shí)世界。

如果把近幾年計(jì)算機(jī)視覺的發(fā)展放在一個(gè)更長(zhǎng)的時(shí)間尺度上去看,會(huì)發(fā)現(xiàn)整個(gè)領(lǐng)域其實(shí)一直在沿著一條非常明確但也非常受限的路徑前進(jìn):

研究者不斷把模型做得更大,把訓(xùn)練數(shù)據(jù)堆得更多,把單項(xiàng) benchmark 指標(biāo)推得更高,于是無論是分割、重建還是生成,模型在標(biāo)準(zhǔn)任務(wù)上的表現(xiàn)都在持續(xù)逼近“看起來已經(jīng)足夠強(qiáng)”的狀態(tài)。

但如果把視角拉回到 CVPR 2026 前后這一批最新工作,會(huì)發(fā)現(xiàn)一個(gè)更值得警惕的變化正在發(fā)生:研究的重心,正在悄悄從“把答案做對(duì)”,轉(zhuǎn)向“在不完美條件下依然能夠持續(xù)理解世界”。

也就是說,這一輪進(jìn)展不再只是精度層面的線性推進(jìn),而更像是對(duì)視覺系統(tǒng)基本工作方式的一次系統(tǒng)性松動(dòng)。

問題在于,這種“強(qiáng)”,往往建立在一個(gè)并不真實(shí)的假設(shè)之上——默認(rèn)輸入信息是充分的、任務(wù)定義是清晰的、交互過程是單輪的、場(chǎng)景變化是可預(yù)期的。換句話說,過去的大多數(shù)視覺模型雖然在實(shí)驗(yàn)環(huán)境中越來越像一個(gè)“高精度求解器”,卻依然很難成為一個(gè)真正能夠在開放環(huán)境中持續(xù)理解、持續(xù)修正、持續(xù)適應(yīng)的視覺智能體。

而 CVPR 2026 這一波工作最值得關(guān)注的地方,恰恰不在于它們分別把某個(gè)子任務(wù)的數(shù)字提高了多少,而在于它們幾乎不約而同地開始挑戰(zhàn)這個(gè)舊時(shí)代視覺系統(tǒng)最根本的四個(gè)默認(rèn)前提:模型是否必須凍結(jié)、目標(biāo)是否必須預(yù)定義、信息是否必須充分、輸入是否必須結(jié)構(gòu)化。

整個(gè)變化,是從交互式視頻分割這里率先被撕開口子的。

從「用戶修錯(cuò)」到「模型自學(xué)」

長(zhǎng)期以來,交互式視頻分割給人的印象似乎已經(jīng)相當(dāng)成熟:用戶點(diǎn)擊一下,模型修正一下;用戶框選一下,模型繼續(xù)傳播掩碼。看起來人機(jī)協(xié)同已經(jīng)建立起來了。但康奈爾大學(xué)在《Live Interactive Training for Video Segmentation》中指出,這其實(shí)是一種很容易讓人忽略的“偽交互”。因?yàn)樵诂F(xiàn)有范式下,所謂交互只發(fā)生在輸出層,模型的內(nèi)部知識(shí)卻是完全靜止的。

這意味著什么?意味著當(dāng)視頻里出現(xiàn)遮擋、光照突變、主體分裂或者背景偽裝時(shí),模型第一次犯錯(cuò),用戶點(diǎn)擊修正;下一次遇到同樣的視覺模式,它大概率還會(huì)再犯同樣的錯(cuò)。用戶似乎一直在參與,但參與的只是重復(fù)勞動(dòng)——用戶并沒有真的把自己的判斷傳遞進(jìn)模型的內(nèi)部表征。

所以這篇論文真正想打破的,并不是“如何讓點(diǎn)擊提示更有效”這種局部工程問題,而是更底層地在追問:為什么我們默認(rèn)推理階段的模型必須是凍結(jié)的?為什么用戶反饋只能被當(dāng)成 prompt,而不能被當(dāng)成即時(shí)學(xué)習(xí)信號(hào)?

LIT 的提出,本質(zhì)上就是把交互式視覺系統(tǒng)從“提示—響應(yīng)”結(jié)構(gòu),推進(jìn)到了“反饋—吸收—再預(yù)測(cè)”的動(dòng)態(tài)閉環(huán)。用戶一次糾錯(cuò)之后,輕量級(jí) LIT-LoRA 模塊立刻完成局部在線更新,模型隨即對(duì)當(dāng)前視頻的運(yùn)動(dòng)模式、遮擋關(guān)系和外觀變化形成短時(shí)適應(yīng)。于是,用戶的點(diǎn)擊不再只是修補(bǔ)當(dāng)前這一幀,而是開始改變模型之后的判斷邏輯。

這看起來像是一點(diǎn)點(diǎn)在線訓(xùn)練的加入,但它實(shí)際打破的是視覺推理幾十年來非常頑固的一條邊界:推理不再只是參數(shù)凍結(jié)下的被動(dòng)執(zhí)行,而開始擁有任務(wù)內(nèi)自我更新能力。換句話說,視覺模型第一次開始在使用過程中“成長(zhǎng)”。

而一旦“模型可以在任務(wù)中成長(zhǎng)”這件事被打開,研究自然會(huì)往前追問另一層問題:如果模型擁有足夠強(qiáng)的內(nèi)部表征,它是不是甚至不需要顯式訓(xùn)練,也能根據(jù)極少的上下文快速理解用戶想要的目標(biāo)?

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

這就引出了 INSID3 的價(jià)值。Politecnico di Torino、TU Darmstadt 與 TU Munich 聯(lián)合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》,表面看是在做一個(gè)“免訓(xùn)練上下文示例分割”,但它真正挑戰(zhàn)的是過去視覺分割領(lǐng)域?qū)Α叭蝿?wù)泛化”的理解方式。

傳統(tǒng)分割系統(tǒng)的泛化能力通常來自類別預(yù)訓(xùn)練、任務(wù)微調(diào),或者額外訓(xùn)練一個(gè) support-query 適配頭。也就是說,研究界始終默認(rèn):想讓模型理解一個(gè)新目標(biāo),就必須通過參數(shù)層面的新學(xué)習(xí)去注入任務(wù)知識(shí)。

INSID3 的反向論證則非常激進(jìn)——作者認(rèn)為,自監(jiān)督基礎(chǔ)模型 DINOv3 內(nèi)部其實(shí)已經(jīng)潛藏了大量跨像素、跨區(qū)域、跨語義層級(jí)的對(duì)應(yīng)知識(shí),這些知識(shí)不是不存在,而是過去的任務(wù)設(shè)計(jì)沒有把它有效調(diào)動(dòng)出來。

因此他們不再訓(xùn)練任何分割頭,而是直接讓參考圖與查詢圖在凍結(jié)特征空間里建立密集語義映射,讓“這一塊是什么”的定義通過特征相似性自然傳遞。這意味著模型并不是通過新訓(xùn)練獲得理解,而是在已有表征中被上下文示例即時(shí)喚醒。

這背后非常關(guān)鍵:LIT 證明模型可以從即時(shí)反饋里學(xué)習(xí);INSID3 則進(jìn)一步證明,模型甚至可能在不學(xué)習(xí)的情況下,僅憑上下文就完成任務(wù)臨場(chǎng)重定義。前者是在打破“推理凍結(jié)”,后者是在打破“目標(biāo)預(yù)定義”。

也就是說,視覺系統(tǒng)正在逐漸擺脫那種“訓(xùn)練時(shí)決定一切,測(cè)試時(shí)只能執(zhí)行”的舊工業(yè)流程。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

離開理想輸入,進(jìn)入真實(shí)場(chǎng)景

但當(dāng)模型開始擁有這種臨場(chǎng)適應(yīng)與臨場(chǎng)理解能力后,更尖銳的問題隨之出現(xiàn):現(xiàn)實(shí)世界提供給模型的信息,往往根本不像 benchmark 那樣完整。這里,《Long-Tail Internet Photo Reconstruction》的出現(xiàn)就顯得極其重要。

Cornell University 和 Kempner Institute 的研究者指出,今天幾乎所有互聯(lián)網(wǎng)三維重建方法之所以在論文中表現(xiàn)穩(wěn)定,是因?yàn)樗鼈冮L(zhǎng)期依賴熱門地標(biāo)數(shù)據(jù)訓(xùn)練:照片多、重疊強(qiáng)、視角密、幾何對(duì)應(yīng)關(guān)系天然充足。

然而真實(shí)互聯(lián)網(wǎng)世界的絕大多數(shù)地點(diǎn)并不滿足這個(gè)條件。更多時(shí)候,用戶上傳的是幾張零散的手機(jī)拍攝圖,角度不統(tǒng)一,清晰度參差不齊,甚至主體只在少量區(qū)域出現(xiàn)。換句話說,模型面對(duì)的不是“信息充分的重建任務(wù)”,而是“信息極度稀缺下的結(jié)構(gòu)猜測(cè)任務(wù)”。

這篇論文的深刻之處在于,它沒有像以往那樣繼續(xù)在重建算法局部模塊上縫縫補(bǔ)補(bǔ),而是直接指出:?jiǎn)栴}根本不在推理器,而在訓(xùn)練分布。模型之所以不會(huì)處理長(zhǎng)尾場(chǎng)景,不是因?yàn)樗粫?huì)重建,而是因?yàn)樗鼜奈丛凇吧僬掌?、弱重疊、低覆蓋”的真實(shí)互聯(lián)網(wǎng)分布上形成過幾何推理習(xí)慣。

于是 MegaDepth-X 的意義,是人為制造一種長(zhǎng)期被 benchmark 回避掉的稀疏現(xiàn)實(shí),讓 3D Foundation Model 學(xué)會(huì)在缺信息、弱對(duì)應(yīng)、低冗余條件下仍然建立結(jié)構(gòu)認(rèn)知。

到這里,視覺系統(tǒng)的第三個(gè)舊前提也被擊穿了:模型不再被允許只在信息充足時(shí)工作,它必須開始具備從碎片線索中補(bǔ)全世界的能力。而這種“從局部線索恢復(fù)整體邏輯”的趨勢(shì),很快又被延伸到了三維資產(chǎn)理解與生成一致性問題上。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一個(gè)三維材質(zhì)分組工具,但它真正挑戰(zhàn)的是視覺模型長(zhǎng)期以來“只理解幾何相似性,卻不理解設(shè)計(jì)語義”的局限。

多倫多大學(xué)與 Adobe 研究院關(guān)注的是無紋理三維網(wǎng)格中的材質(zhì)感知部件分組問題:在真實(shí)三維資產(chǎn)中,窗框、欄桿、瓦片、鱗片、果殼這類局部結(jié)構(gòu)經(jīng)常重復(fù)出現(xiàn),卻并不一定在幾何上完全相同;但在后續(xù)材質(zhì)編輯中,它們往往又需要被賦予同一種木材、金屬或石材紋理。

這正是傳統(tǒng)方法的短板。過去模型通常依據(jù)幾何相似性來檢索部件,因此更容易找到“長(zhǎng)得像”的結(jié)構(gòu),卻很難識(shí)別那些“形狀不同但材質(zhì)邏輯一致”的對(duì)象。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

對(duì)于設(shè)計(jì)師來說,真正重要的并不是兩個(gè)部件是否足夠相似,而是它們?cè)谡w模型的功能、位置和視覺組織中,是否應(yīng)該被一起處理。如果模型只能回答“像不像”,它仍然停留在視覺表面;只有當(dāng)它開始判斷“這些部件是否應(yīng)該共享同一種材質(zhì)”,才算接近真實(shí)三維創(chuàng)作中的語義理解。

Material Magic Wand 的思路,是把二維圖像里“魔棒工具”的交互邏輯遷移到三維網(wǎng)格中:用戶只需點(diǎn)擊一個(gè)部件,系統(tǒng)就自動(dòng)找出模型中所有可能共享相同材質(zhì)屬性的其他部件。

為此,作者設(shè)計(jì)了 material-aware embedding,在編碼三維部件時(shí),不只看局部幾何形狀,也結(jié)合它在整體模型中的上下文結(jié)構(gòu)信息,并通過監(jiān)督式對(duì)比學(xué)習(xí),讓相同材質(zhì)的部件在特征空間中更接近、不同材質(zhì)的部件彼此區(qū)分。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

這說明視覺模型正在從“識(shí)別物體是什么”,向“理解人類為什么這樣使用這些物體”過渡。同樣的邏輯,在 由魏茨曼科學(xué)研究所(Weizmann Institute of Science)提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

這項(xiàng)研究關(guān)注的是非結(jié)構(gòu)化圖像集合的一致性生成:輸入不再是一張單圖,也不是連續(xù)視頻幀,而是一組共享某個(gè)主體、但在視角、時(shí)間、姿態(tài)和背景上差異很大的圖像,比如商品展示圖、人物相冊(cè)或故事板參考圖。

這類任務(wù)的難點(diǎn)在于,這些圖像沒有視頻那樣天然連續(xù)的時(shí)序約束,卻又要求生成結(jié)果在主體身份、外觀紋理和細(xì)節(jié)結(jié)構(gòu)上保持一致。傳統(tǒng)生成模型往往習(xí)慣逐張?zhí)幚恚虼撕苋菀壮霈F(xiàn)身份漂移、紋理變化或細(xì)節(jié)錯(cuò)亂,本質(zhì)上是因?yàn)槟P蜎]有把“這一組圖屬于同一個(gè)整體語義系統(tǒng)”真正建模進(jìn)去。

Match-and-Fuse 的做法,是把整組輸入圖像建模成圖結(jié)構(gòu):每張圖像作為一個(gè)節(jié)點(diǎn),相關(guān)圖像之間建立邊連接,并在邊上執(zhí)行聯(lián)合雙圖生成。這樣模型能夠先捕捉任意兩張圖之間的共享信息,再把局部一致性約束融合成全局一致輸出。

同時(shí),論文還利用稠密像素匹配,在擴(kuò)散模型內(nèi)部進(jìn)行跨圖特征融合,讓不同視角下屬于同一對(duì)象的區(qū)域共享潛在表示,從而無需額外訓(xùn)練或人工掩碼,也能維持服飾紋理、商品細(xì)節(jié)、文字標(biāo)識(shí)等細(xì)粒度一致性。

雷峰網(wǎng)

把這些工作放在一起看,會(huì)發(fā)現(xiàn)它們雖然分屬視頻分割、上下文分割、三維重建、三維編輯和一致性生成等不同方向,但真正共同推動(dòng)的,其實(shí)是同一件事:視覺模型正在被迫離開那個(gè)過去被 benchmark 精心整理好的理想環(huán)境。

在那里,輸入是完整的,目標(biāo)是清楚的,圖像關(guān)系是預(yù)設(shè)的,用戶反饋也只是有限的補(bǔ)充;模型要做的,只是在一次推理里盡可能給出正確答案。但現(xiàn)實(shí)世界顯然不是這樣。它的信息往往是殘缺的,目標(biāo)會(huì)臨時(shí)變化,用戶會(huì)不斷介入,不同視角和不同圖片之間還隱藏著大量需要被主動(dòng)整合的關(guān)系。

也正因?yàn)槿绱?,這一批工作最值得關(guān)注的地方,并不是它們分別把某個(gè)任務(wù)做得更強(qiáng),而是它們開始集體拆掉視覺系統(tǒng)過去賴以成立的那些默認(rèn)前提:模型不再必須凍結(jié),目標(biāo)不再必須預(yù)定義,輸入不再必須充分,圖像也不再必須被單獨(dú)處理。雷峰網(wǎng)

如果說過去的計(jì)算機(jī)視覺更擅長(zhǎng)的是“看懂一張圖、答對(duì)一道題”,那么現(xiàn)在的新一輪研究正在讓模型學(xué)會(huì)的是另一種能力——在一個(gè)持續(xù)變化、信息不完整、關(guān)系高度交織的視覺環(huán)境里,邊接收反饋,邊補(bǔ)全認(rèn)知,邊重新組織自己對(duì)整個(gè)場(chǎng)景的理解。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2026 動(dòng)態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說