日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

導(dǎo)語:世界模型:通過統(tǒng)一建??臻g結(jié)構(gòu)、時(shí)間演化與物理規(guī)律,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的理解與模擬。

在過去幾年中,視頻生成技術(shù)取得了令人矚目的進(jìn)展。從基于擴(kuò)散模型的方法到大規(guī)模視頻基礎(chǔ)模型,生成結(jié)果在視覺質(zhì)量上已經(jīng)逐漸逼近真實(shí)世界。然而,當(dāng)我們進(jìn)一步審視這些模型時(shí),一個(gè)更本質(zhì)的問題開始顯現(xiàn):它們究竟是在“理解世界”,還是僅僅在“擬合像素分布”?

傳統(tǒng)視頻生成方法大多建立在 2D 圖像空間之上,通過逐幀建模來合成動(dòng)態(tài)內(nèi)容。這種范式雖然在短時(shí)間尺度和視覺表現(xiàn)上表現(xiàn)出色,但也暴露出一系列根本性局限:相機(jī)運(yùn)動(dòng)難以精確控制,多物體交互缺乏一致性,長時(shí)間生成容易出現(xiàn)結(jié)構(gòu)漂移,甚至在復(fù)雜場景中違背基本物理規(guī)律。這些問題的共同根源在于模型缺乏對(duì)“世界本身”的建模能力。

正是在這一背景下,“世界模型(World Model)”逐漸成為視覺生成與智能系統(tǒng)中的核心研究方向。與傳統(tǒng)方法不同,世界模型試圖構(gòu)建一個(gè)能夠統(tǒng)一描述空間結(jié)構(gòu)、時(shí)間演化以及物理規(guī)律的內(nèi)部表示,使模型不僅能夠生成視覺內(nèi)容,還能夠進(jìn)行推理、預(yù)測,甚至支持決策。從某種意義上說,這一轉(zhuǎn)變標(biāo)志著研究目標(biāo)從“生成看起來真實(shí)的結(jié)果”,邁向“建模一個(gè)本質(zhì)上合理的世界”。

這一范式的演進(jìn)正在多個(gè)維度同時(shí)發(fā)生:在表示層面,從 2D 像素走向 3D/4D 幾何結(jié)構(gòu);在建模目標(biāo)上,從單純生成擴(kuò)展到因果關(guān)系、物理一致性與可交互性;在學(xué)習(xí)方式上,從依賴標(biāo)注數(shù)據(jù)轉(zhuǎn)向從真實(shí)世界視頻中提取可遷移知識(shí);而在評(píng)估體系上,也逐漸從單一視覺指標(biāo)轉(zhuǎn)向?qū)Α笆澜缃D芰Α钡亩嗑S度衡量。

CVPR 2026 中的一系列工作,正集中體現(xiàn)了這一趨勢(shì)。這些研究不僅在技術(shù)路徑上各有側(cè)重,有的強(qiáng)調(diào) 4D 幾何建模,有的關(guān)注物理對(duì)齊與因果建模,有的探索從真實(shí)視頻中學(xué)習(xí)世界知識(shí),還有的致力于構(gòu)建統(tǒng)一評(píng)測體系,更重要的是,它們共同指向一個(gè)核心目標(biāo):讓模型從“生成工具”演化為“世界模擬器”。

AI 科技評(píng)論對(duì)這些代表性工作進(jìn)行了系統(tǒng)梳理,從建模范式、控制能力、物理一致性、可擴(kuò)展性以及評(píng)測方法等多個(gè)角度,解析當(dāng)前世界模型研究的關(guān)鍵進(jìn)展與內(nèi)在邏輯,嘗試回答一個(gè)更深層的問題:當(dāng)我們談?wù)摗吧墒澜纭睍r(shí),我們究竟在建模什么?

世界在模型里到底長什么樣?

論文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由復(fù)旦大學(xué)、香港大學(xué)聯(lián)合 Tencent ARC(騰訊應(yīng)用研究中心)研究團(tuán)隊(duì)提出的一項(xiàng)視頻生成研究成果 。

它主要針對(duì)當(dāng)前視頻生成模型的一個(gè)核心問題:現(xiàn)有方法大多在 2D 圖像空間中建模,導(dǎo)致相機(jī)運(yùn)動(dòng)和多物體運(yùn)動(dòng)難以統(tǒng)一控制、且生成結(jié)果容易不穩(wěn)定。

為了解決這一問題,論文提出了一種新的 4D 幾何世界建模方法,將視頻表示為“3D 空間 + 時(shí)間”的統(tǒng)一世界狀態(tài),而不是簡單的逐幀像素生成。

在具體方法上,作者提出了一個(gè)關(guān)鍵技術(shù):4D Geometric Control 表示。這個(gè)表示用靜態(tài)背景點(diǎn)云來描述場景結(jié)構(gòu),用帶時(shí)間信息的 3D 高斯軌跡來描述動(dòng)態(tài)物體,從而構(gòu)建一個(gè)統(tǒng)一的 4D 世界模型 。

在這個(gè)世界模型基礎(chǔ)上,再將幾何信息轉(zhuǎn)化為控制信號(hào),輸入到視頻擴(kuò)散模型中進(jìn)行生成,使最終視頻能夠嚴(yán)格遵循設(shè)定的相機(jī)路徑和物體運(yùn)動(dòng)。

這項(xiàng)工作的亮點(diǎn)主要體現(xiàn)在三個(gè)方面:首先,它實(shí)現(xiàn)了從傳統(tǒng) 2D 像素生成向 4D 幾何建模范式的轉(zhuǎn)變,使視頻生成更接近真實(shí)世界建模;

其次,它在同一框架下實(shí)現(xiàn)了對(duì)相機(jī)運(yùn)動(dòng)和多物體運(yùn)動(dòng)的統(tǒng)一、精確控制,相比以往依賴 2D 軌跡或邊界框的方法更加靈活且一致;

最后,由于引入了顯式的 3D 結(jié)構(gòu)和時(shí)間約束,模型在時(shí)序一致性和穩(wěn)定性方面顯著提升,生成的視頻在長時(shí)間范圍內(nèi)更加連貫、真實(shí) 。

總體來說,這篇論文的核心貢獻(xiàn)可以概括為:提出了一種基于 4D 幾何控制的世界模型框架,使視頻生成從“基于像素的合成”轉(zhuǎn)向“基于結(jié)構(gòu)的生成”,從而在可控性和穩(wěn)定性上取得了明顯提升。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中國科學(xué)院自動(dòng)化研究所和 CreateAI 共同提出。

這項(xiàng)研究主要圍繞 4D 世界模型的一個(gè)關(guān)鍵問題展開,即現(xiàn)有方法往往依賴多視角數(shù)據(jù)或復(fù)雜預(yù)處理,導(dǎo)致擴(kuò)展性差,很難直接利用真實(shí)世界中大量隨手拍攝的單目視頻。

為了解決這一問題,論文提出了一個(gè)新的框架 NeoVerse,其核心思路是利用“自然場景中的單目視頻”來構(gòu)建 4D 世界模型。具體來說,模型可以從普通視頻中恢復(fù)場景的 3D 結(jié)構(gòu),并進(jìn)一步建模隨時(shí)間變化的動(dòng)態(tài)信息,從而實(shí)現(xiàn)完整的 4D 表示。

在此基礎(chǔ)上,該模型不僅能夠進(jìn)行 4D 重建,還可以生成新的相機(jī)軌跡視頻,并支持多種下游任務(wù)。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它突破了以往對(duì)多視角或?qū)S脭?shù)據(jù)的依賴,直接使用“野外采集”的單目視頻進(jìn)行訓(xùn)練,大幅提升了方法的可擴(kuò)展性和數(shù)據(jù)可獲得性。

其次,它在同一框架中統(tǒng)一了 4D 重建與視頻生成能力,使模型既可以理解場景結(jié)構(gòu),又可以生成新的視角和動(dòng)態(tài)內(nèi)容。最后,通過這種方式,模型在真實(shí)場景中的泛化能力更強(qiáng),能夠更好地適應(yīng)復(fù)雜環(huán)境,而不是局限于受控?cái)?shù)據(jù)集。

總體來看,這篇論文的核心貢獻(xiàn)在于提出了一種基于單目視頻構(gòu)建 4D 世界模型的方法,使 4D 建模從依賴昂貴數(shù)據(jù)采集,轉(zhuǎn)向可以利用大規(guī)模真實(shí)視頻,從而顯著提升了實(shí)用性與擴(kuò)展能力。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大學(xué)(廣州)、地平線機(jī)器人、浙江大學(xué)和中南大學(xué)等研究團(tuán)隊(duì)提出。

論文關(guān)注的是一個(gè)非常核心但長期沒有很好解決的問題:長序列 3D 重建。現(xiàn)有方法通常在短序列或離線場景下表現(xiàn)不錯(cuò),但一旦處理上千幀的長視頻,就會(huì)出現(xiàn)明顯問題,例如注意力逐漸衰減、尺度不斷漂移,以及預(yù)測誤差累積,最終導(dǎo)致整體重建不穩(wěn)定甚至失效 。

這些問題的根本原因在于,大多數(shù)自回歸模型都會(huì)把所有幀“錨定”到第一幀,從而在長時(shí)間推理中不斷放大誤差 。

為了解決這一問題,論文提出了 LongStream 框架,核心思路是構(gòu)建一種流式的、規(guī)范解耦(gauge-decoupled)的視覺幾何模型。

具體來說,它不再把所有幀綁定到初始幀,而是通過“關(guān)鍵幀相對(duì)建?!钡姆绞剑屆恳欢尉植啃蛄歇?dú)立建模,同時(shí)再統(tǒng)一到全局結(jié)構(gòu)中。此外,模型將“尺度學(xué)習(xí)”和“幾何預(yù)測”進(jìn)行解耦,使尺度不會(huì)在長序列中逐漸漂移。同時(shí),通過周期性刷新緩存和流式更新機(jī)制,模型可以在嚴(yán)格在線(看不到未來幀)的條件下穩(wěn)定處理上千幀數(shù)據(jù) 。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了一種真正面向長序列的流式 3D 重建框架,能夠在在線場景中處理上千幀甚至更長的視頻,這是以往方法難以實(shí)現(xiàn)的。

其次,它通過“規(guī)范解耦”的方式,從根本上解決了尺度漂移和誤差累積問題,使長時(shí)間建模更加穩(wěn)定。最后,該方法在效率和穩(wěn)定性之間取得了較好平衡,可以在現(xiàn)實(shí)應(yīng)用場景中落地,例如自動(dòng)駕駛、AR/VR 和具身智能中的持續(xù)環(huán)境建模。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種面向長時(shí)序視頻的穩(wěn)定 3D 世界建模方法,使模型能夠在嚴(yán)格在線條件下持續(xù)構(gòu)建一致的三維世界,從而推動(dòng)世界模型向真實(shí)應(yīng)用場景邁進(jìn)。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

模型有沒有學(xué)到可以遷移的世界規(guī)律?

論文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大學(xué)和字節(jié)研究團(tuán)隊(duì)共同提出。

這項(xiàng)研究關(guān)注的核心問題是,模型是否能夠像人一樣,僅通過觀看真實(shí)世界的視頻,就學(xué)習(xí)到可以遷移到新環(huán)境中的通用知識(shí)。論文指出,現(xiàn)有視頻模型大多側(cè)重生成視覺效果,雖然畫面逼真,但缺乏對(duì)物體運(yùn)動(dòng)規(guī)律、交互關(guān)系以及時(shí)序結(jié)構(gòu)的理解能力,因此難以在新場景中泛化。

為了解決這一問題,論文提出了 VideoWorld 2 框架,其核心思路是直接從大規(guī)模無標(biāo)注的真實(shí)視頻中學(xué)習(xí)世界知識(shí)。

模型不依賴人工標(biāo)注,而是通過觀察視頻中的動(dòng)態(tài)過程,自主學(xué)習(xí)物理規(guī)律、物體交互以及時(shí)間變化,并將這些信息編碼為一種可復(fù)用的表示,使其能夠遷移到不同任務(wù)和環(huán)境中。相比傳統(tǒng)視頻生成方法只關(guān)注圖像外觀,這種方法更強(qiáng)調(diào)從視頻中提取“可以用于理解和推理的知識(shí)”。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它將研究重點(diǎn)從生成逼真的視頻轉(zhuǎn)向從視頻中學(xué)習(xí)可遷移知識(shí),使模型從“會(huì)生成”發(fā)展到“會(huì)理解”。

其次,它直接利用真實(shí)世界視頻進(jìn)行訓(xùn)練,減少對(duì)模擬環(huán)境或人工構(gòu)造數(shù)據(jù)的依賴,使方法更加貼近真實(shí)應(yīng)用場景。最后,這種方法在一定程度上兼顧了視覺生成能力與知識(shí)表達(dá)能力,使模型既能夠保持較好的生成效果,又具備更強(qiáng)的泛化能力。

總體來看,這篇論文的核心貢獻(xiàn)在于提出了一種從真實(shí)視頻中學(xué)習(xí)世界知識(shí)的框架,使視頻模型從單純的生成工具,發(fā)展為能夠理解并泛化現(xiàn)實(shí)世界規(guī)律的模型。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大學(xué)、鵬城實(shí)驗(yàn)室等科研團(tuán)隊(duì)共同提出。

論文關(guān)注的問題是當(dāng)前視頻生成模型雖然在視覺效果上已經(jīng)較好,但在物理一致性方面仍然存在明顯不足,例如物體運(yùn)動(dòng)不符合真實(shí)物理規(guī)律,或者復(fù)雜場景中的交互不合理。這一問題的根本原因在于現(xiàn)有方法缺乏對(duì)物理規(guī)律的顯式建模,同時(shí)無法將物理信息精確地對(duì)齊到視頻中的具體空間位置。

為了解決這一問題,論文提出了 ProPhy 框架,其核心思路是引入一種“漸進(jìn)式物理對(duì)齊機(jī)制”。模型通過一個(gè)兩階段的結(jié)構(gòu)來建模物理信息:首先在語義層面提取文本中的物理規(guī)律,例如運(yùn)動(dòng)類型或物理現(xiàn)象,然后在更細(xì)粒度的層面,將這些物理規(guī)律精確對(duì)齊到視頻中的具體區(qū)域和時(shí)間過程。

同時(shí),模型采用“物理專家混合機(jī)制”,讓不同模塊分別學(xué)習(xí)不同類型的物理規(guī)律,從而形成更加細(xì)致的物理建模能力。此外,論文還將視覺語言模型的物理推理能力引入生成過程,使模型能夠更準(zhǔn)確地表達(dá)復(fù)雜動(dòng)態(tài)現(xiàn)象。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了顯式的物理建模機(jī)制,使視頻生成不再只是視覺逼真,而是能夠遵循真實(shí)物理規(guī)律。其次,它實(shí)現(xiàn)了從語義級(jí)到細(xì)粒度空間級(jí)的逐步對(duì)齊,使不同物理現(xiàn)象能夠準(zhǔn)確作用在對(duì)應(yīng)區(qū)域,而不是全局混合。

最后,通過引入“物理專家”結(jié)構(gòu)和視覺語言模型的推理能力,模型在復(fù)雜動(dòng)態(tài)場景中生成的視頻更加穩(wěn)定、合理,并在物理一致性方面明顯優(yōu)于已有方法。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種面向物理一致性的生成框架,使視頻生成模型從單純追求視覺真實(shí),進(jìn)一步發(fā)展為能夠遵循真實(shí)物理規(guī)律的世界模型。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大學(xué)、香港理工大學(xué)、電子科技大學(xué)、阿德萊德大學(xué)研究團(tuán)隊(duì)共同提出。

論文關(guān)注的問題是當(dāng)前視頻生成模型在“物理一致性”上的不足。雖然現(xiàn)有視頻擴(kuò)散模型可以生成視覺上真實(shí)的畫面,但在描述復(fù)雜物理過程時(shí),往往只能生成某一個(gè)瞬間,而無法正確表達(dá)事件之間的因果關(guān)系和連續(xù)變化,例如液體流動(dòng)、能量變化等動(dòng)態(tài)過程 。

為了解決這一問題,論文提出了一種以“事件為中心”的生成框架,其核心思路是把一個(gè)物理現(xiàn)象看作一系列按因果順序發(fā)展的事件鏈,而不是一個(gè)靜態(tài)描述。

具體方法包括兩個(gè)關(guān)鍵模塊:首先是“物理驅(qū)動(dòng)的事件鏈推理”,將復(fù)雜物理過程拆解為多個(gè)有明確因果關(guān)系的子事件,并通過引入物理公式作為約束,使這些事件之間的關(guān)系具有確定性;其次是“跨模態(tài)過渡建?!保瑢⑦@些事件轉(zhuǎn)化為時(shí)間對(duì)齊的文本和視覺提示,例如關(guān)鍵幀和語義描述,從而引導(dǎo)視頻生成過程在不同事件之間平滑過渡。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了“事件鏈”這一新的建模方式,使視頻生成從描述單一畫面轉(zhuǎn)向描述完整的因果過程,從而更接近真實(shí)世界。

其次,它將物理公式引入推理過程,使生成內(nèi)容不僅在視覺上合理,也在物理規(guī)律上更加可信。最后,通過結(jié)合語義提示和關(guān)鍵幀的跨模態(tài)控制方式,模型能夠在不同事件之間保持連續(xù)性,從而生成具有時(shí)間一致性和因果一致性的動(dòng)態(tài)視頻 。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種基于因果事件鏈的物理視頻生成框架,使視頻生成從“生成一個(gè)結(jié)果”發(fā)展為“生成一個(gè)符合物理規(guī)律的動(dòng)態(tài)過程”,在物理一致性和時(shí)序建模方面都有明顯提升。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

能不能精確控制生成的世界?

論文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大學(xué)和南陽理工大學(xué)的研究團(tuán)隊(duì)共同提出。

論文主要研究的是視頻擴(kuò)散模型在 3D 和 4D 場景生成中的一個(gè)核心問題,即雖然這些模型已經(jīng)具備很強(qiáng)的“世界先驗(yàn)”,但在實(shí)際使用中存在三個(gè)關(guān)鍵缺陷,包括難以精確控制相機(jī)運(yùn)動(dòng)、時(shí)空一致性差以及場景與相機(jī)運(yùn)動(dòng)耦合在一起,導(dǎo)致生成結(jié)果不穩(wěn)定或者不符合預(yù)期。

為了解決這一問題,論文提出了一個(gè)新的框架 WorldForge,其核心思路是在不重新訓(xùn)練模型的情況下,僅通過推理階段對(duì)已有視頻擴(kuò)散模型進(jìn)行控制增強(qiáng)。

具體來說,該方法由三個(gè)關(guān)鍵機(jī)制組成:首先是在擴(kuò)散去噪過程中加入遞歸優(yōu)化,使生成過程逐步貼合目標(biāo)相機(jī)軌跡;其次利用光流信息在潛空間中區(qū)分“運(yùn)動(dòng)”和“外觀”,從而只對(duì)運(yùn)動(dòng)相關(guān)部分進(jìn)行控制;最后通過雙路徑對(duì)比機(jī)制,將有控制與無控制的生成過程進(jìn)行比較,自動(dòng)修正偏差,從而避免軌跡漂移。

這篇論文的亮點(diǎn)主要體現(xiàn)在幾個(gè)方面。首先,它提出了一種完全不需要訓(xùn)練的控制方法,只在推理階段進(jìn)行修改,大幅降低了成本,同時(shí)避免破壞原有模型能力。

其次,它實(shí)現(xiàn)了對(duì)相機(jī)軌跡的精確控制,同時(shí)保持較高的視覺質(zhì)量,解決了以往方法中“控制和質(zhì)量難以兼顧”的問題。最后,該方法具有很強(qiáng)的通用性,是一個(gè)“即插即用”的框架,可以直接應(yīng)用在不同的視頻擴(kuò)散模型上,并支持多種任務(wù),例如 3D 重建、4D 場景生成以及視頻編輯等。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種無需訓(xùn)練的控制框架,使視頻擴(kuò)散模型能夠在保持生成質(zhì)量的同時(shí),實(shí)現(xiàn)精確的幾何和運(yùn)動(dòng)控制,從而推動(dòng)其在 3D 和 4D 世界建模任務(wù)中的應(yīng)用。雷峰網(wǎng)

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

模型不僅表示世界,還要「用世界做事」

論文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由華中科技大學(xué)和小米 EV 團(tuán)隊(duì)共同提出。

論文研究的是自動(dòng)駕駛中的一個(gè)關(guān)鍵問題,即如何讓“世界模型”不僅能夠預(yù)測未來場景,還能直接參與決策與規(guī)劃?,F(xiàn)有方法通常把兩個(gè)過程分開處理,一部分模型負(fù)責(zé)預(yù)測未來視頻或場景變化,另一部分模塊負(fù)責(zé)根據(jù)這些預(yù)測結(jié)果進(jìn)行路徑規(guī)劃,這種解耦方式會(huì)導(dǎo)致信息利用不充分,并且在復(fù)雜場景中容易出現(xiàn)誤差累積。

為了解決這一問題,論文提出了一個(gè)新的框架 DriveLaW,其核心思路是在一個(gè)統(tǒng)一的“潛在駕駛世界(latent driving world)”中,同時(shí)進(jìn)行視頻生成和運(yùn)動(dòng)規(guī)劃。

模型首先在潛在空間中學(xué)習(xí)駕駛場景的動(dòng)態(tài)演化規(guī)律,然后在這個(gè)空間中直接進(jìn)行決策推理,而不是先生成完整視頻再做規(guī)劃。這樣一來,預(yù)測和決策被整合到同一個(gè)過程之中,使模型能夠更高效地利用環(huán)境信息,同時(shí)減少中間誤差的傳播。

這篇論文的亮點(diǎn)主要體現(xiàn)在幾個(gè)方面。首先,它將視頻生成與路徑規(guī)劃統(tǒng)一在同一個(gè)框架中,打破了傳統(tǒng)方法中“預(yù)測”和“決策”分離的結(jié)構(gòu),使世界模型真正參與到?jīng)Q策過程中。

其次,它通過在潛在空間中進(jìn)行建模和推理,避免了直接生成高維視頻帶來的計(jì)算開銷,同時(shí)提高了效率和穩(wěn)定性。最后,這種方法在長時(shí)間預(yù)測和復(fù)雜駕駛場景中表現(xiàn)出更好的魯棒性,因?yàn)槟P褪窃谝粋€(gè)結(jié)構(gòu)化的世界表示中進(jìn)行推理,而不是依賴逐幀生成。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種將視頻生成與自動(dòng)駕駛規(guī)劃統(tǒng)一起來的世界模型框架,使模型不僅能夠“看見未來”,還能夠基于未來進(jìn)行決策,從而推動(dòng)自動(dòng)駕駛系統(tǒng)向更一體化、更高效的方向發(fā)展。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究團(tuán)隊(duì)提出。

論文研究的是機(jī)器人操作場景中的世界模型問題。現(xiàn)有視頻世界模型雖然能夠生成視覺上真實(shí)的結(jié)果,但在涉及物體交互時(shí),往往會(huì)出現(xiàn)明顯的物理錯(cuò)誤,例如物體穿透、違背重力等現(xiàn)象。這是因?yàn)檫@些模型大多基于視覺數(shù)據(jù)訓(xùn)練,優(yōu)化目標(biāo)只關(guān)注生成概率,而忽略了真實(shí)物理規(guī)律 。

為了解決這一問題,論文提出了 ABot-PhysWorld 框架,其核心思路是構(gòu)建一個(gè)具備物理對(duì)齊能力的交互式世界模型。該模型基于一個(gè)大規(guī)模擴(kuò)散 Transformer 架構(gòu),在生成視頻的同時(shí)引入物理約束,使生成的機(jī)器人操作過程既真實(shí)又符合物理規(guī)律。

同時(shí),模型支持動(dòng)作可控生成,可以根據(jù)輸入的操作指令控制機(jī)器人與物體之間的交互過程。此外,論文還引入了物理感知訓(xùn)練機(jī)制和偏好優(yōu)化策略,使模型在學(xué)習(xí)過程中更關(guān)注“物理合理性”而不僅是視覺質(zhì)量 。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它顯式引入物理約束,使世界模型在生成復(fù)雜交互場景時(shí)能夠避免常見的物理錯(cuò)誤,從而提升真實(shí)性。

其次,它實(shí)現(xiàn)了“動(dòng)作可控的視頻生成”,使模型不僅能預(yù)測世界,還能根據(jù)動(dòng)作進(jìn)行交互式模擬,更貼近機(jī)器人應(yīng)用。最后,該方法在大規(guī)模模型基礎(chǔ)上實(shí)現(xiàn)了視覺真實(shí)感與物理一致性的統(tǒng)一,使世界模型從單純的生成工具,發(fā)展為可以用于機(jī)器人決策和模擬的基礎(chǔ)模型 。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種融合物理約束與動(dòng)作控制的世界模型框架,使視頻生成不僅具備視覺真實(shí)性,還具備物理合理性和交互能力,從而推動(dòng)世界模型在機(jī)器人操作中的應(yīng)用。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自動(dòng)化所 MAIS 實(shí)驗(yàn)室、香港大學(xué) OpenDriveLab 和小米 EV 團(tuán)隊(duì)共同提出。

論文關(guān)注的是自動(dòng)駕駛中的一個(gè)關(guān)鍵問題,即真實(shí)駕駛數(shù)據(jù)中“關(guān)鍵危險(xiǎn)場景”非常稀缺,導(dǎo)致模型雖然在常規(guī)場景中表現(xiàn)良好,但在極端或邊界情況下容易失敗?,F(xiàn)有方法主要依賴收集更多真實(shí)數(shù)據(jù)或構(gòu)建人工仿真環(huán)境,但前者成本高且難以覆蓋長尾情況,后者又往往與真實(shí)世界存在差距。

為了解決這一問題,論文提出了 SimScale 框架,其核心思路是利用真實(shí)世界數(shù)據(jù)構(gòu)建可擴(kuò)展的仿真環(huán)境,并在此基礎(chǔ)上自動(dòng)生成大量新的駕駛場景。

具體來說,模型首先從真實(shí)數(shù)據(jù)中提取場景結(jié)構(gòu),然后在仿真環(huán)境中擴(kuò)展出未見過的狀態(tài),并自動(dòng)生成對(duì)應(yīng)的駕駛軌跡作為監(jiān)督信號(hào),最終將真實(shí)數(shù)據(jù)與仿真數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,從而提升模型在復(fù)雜場景下的表現(xiàn)能力。

這篇論文的亮點(diǎn)在于,它通過“真實(shí)數(shù)據(jù)驅(qū)動(dòng)仿真”的方式,有效縮小了仿真與現(xiàn)實(shí)之間的差距,同時(shí)能夠大規(guī)模生成關(guān)鍵長尾場景數(shù)據(jù),彌補(bǔ)真實(shí)數(shù)據(jù)中的不足。

此外,該方法具有很強(qiáng)的可擴(kuò)展性,隨著仿真數(shù)據(jù)規(guī)模增加,模型性能可以持續(xù)提升,而不依賴額外真實(shí)數(shù)據(jù)。最后,這種結(jié)合真實(shí)與仿真的訓(xùn)練方式,使模型在安全性和泛化能力方面都有明顯增強(qiáng)。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種基于真實(shí)數(shù)據(jù)構(gòu)建仿真環(huán)境并進(jìn)行規(guī)?;?xùn)練的方法,從而有效解決自動(dòng)駕駛中長尾場景不足的問題,提升模型在復(fù)雜現(xiàn)實(shí)環(huán)境中的表現(xiàn)能力。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

如何知道一個(gè)模型真的在「建模世界」?

論文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中國科學(xué)技術(shù)大學(xué)、浙江大學(xué)和北京智源研究院等機(jī)構(gòu)合作完成。

這項(xiàng)研究關(guān)注的是一個(gè)基礎(chǔ)問題,即如何系統(tǒng)地評(píng)估 3D 和 4D 世界模型的能力。論文指出,現(xiàn)有評(píng)測方法通常只關(guān)注單一方面,例如視覺質(zhì)量或簡單一致性,缺乏統(tǒng)一標(biāo)準(zhǔn),難以全面反映模型是否真正具備對(duì)空間和時(shí)間的建模能力。

為了解決這個(gè)問題,論文提出了一個(gè)統(tǒng)一評(píng)測框架 4DWorldBench。該框架從多個(gè)關(guān)鍵維度對(duì)模型進(jìn)行評(píng)價(jià),包括視覺感知質(zhì)量、條件與 4D 對(duì)齊能力、物理真實(shí)感以及時(shí)空一致性 。

同時(shí),它支持多種輸入形式,例如從文本、圖像或視頻生成 3D 或 4D 場景,并通過統(tǒng)一機(jī)制將不同模態(tài)的信息映射到同一個(gè)評(píng)測空間中,從而實(shí)現(xiàn)不同模型之間的直接比較。此外,評(píng)測過程中還引入了大語言模型和多模態(tài)模型參與判斷,使評(píng)價(jià)結(jié)果更加接近人類主觀判斷。

這篇論文的亮點(diǎn)在于,它建立了一套統(tǒng)一且系統(tǒng)的評(píng)測標(biāo)準(zhǔn),使不同世界模型可以在同一框架下進(jìn)行公平比較,同時(shí)通過多維度評(píng)價(jià)體系更全面地反映模型能力,而不僅僅局限于視覺效果。此外,引入大模型參與評(píng)估,使結(jié)果更加穩(wěn)定,也更貼近人類判斷。

總體來看,這項(xiàng)研究的核心貢獻(xiàn)是為 3D 和 4D 世界模型提供了一套完整的評(píng)測體系,使研究重點(diǎn)從單純的生成效果,進(jìn)一步轉(zhuǎn)向?qū)κ澜缃D芰Φ娜婧饬俊?/p>

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 團(tuán)隊(duì)提出。

論文關(guān)注的是自動(dòng)駕駛世界模型中的一個(gè)核心問題,即如何全面評(píng)估一個(gè)模型是否真正具備“理解和使用世界”的能力?,F(xiàn)有方法通常只評(píng)估單一方面,例如視覺生成質(zhì)量或簡單一致性,缺乏統(tǒng)一標(biāo)準(zhǔn)來衡量模型在真實(shí)駕駛場景中的綜合能力,包括是否符合物理規(guī)律以及是否能夠支持決策。

為了解決這一問題,論文提出了 WorldLens 框架,用于對(duì)世界模型進(jìn)行系統(tǒng)評(píng)估。該框架從多個(gè)維度進(jìn)行衡量,包括生成能力、重建能力、動(dòng)作跟隨能力以及在下游任務(wù)中的表現(xiàn),同時(shí)還結(jié)合人類偏好進(jìn)行評(píng)價(jià)。論文還構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,并引入自動(dòng)評(píng)估模型,使評(píng)測過程能夠規(guī)?;瑫r(shí)保持一定的可解釋性。

這篇論文的亮點(diǎn)在于,它提供了一套更全面的評(píng)測體系,使世界模型不再只從視覺效果進(jìn)行評(píng)價(jià),而是從生成、理解和行為能力多個(gè)角度進(jìn)行統(tǒng)一衡量。

同時(shí),通過結(jié)合人類標(biāo)注與自動(dòng)評(píng)估方法,使評(píng)測結(jié)果更加穩(wěn)定且更接近真實(shí)使用需求。此外,該研究也揭示了當(dāng)前模型在不同能力之間存在明顯權(quán)衡,為后續(xù)研究提供了方向。

總體來看,這篇論文的核心貢獻(xiàn)是建立了一套面向自動(dòng)駕駛世界模型的統(tǒng)一評(píng)測框架,使模型評(píng)價(jià)從單一指標(biāo)轉(zhuǎn)向?qū)φw世界建模能力的綜合衡量。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《GeoWorld:Geometric World Models 》是由 ANU 和 MBZUAI 團(tuán)隊(duì)共同提出。論文主要研究的是“世界模型”在規(guī)劃和預(yù)測中的一個(gè)核心問題。

現(xiàn)有很多方法雖然可以通過學(xué)習(xí)潛在空間來進(jìn)行多步預(yù)測,但通常是在歐幾里得空間中建模,這種方式無法很好表達(dá)狀態(tài)之間的層級(jí)結(jié)構(gòu)和復(fù)雜關(guān)系,同時(shí)在長時(shí)間預(yù)測時(shí)容易快速退化,導(dǎo)致結(jié)果不穩(wěn)定。

為了解決這個(gè)問題,論文提出了一個(gè)新的框架 GeoWorld,其核心思路是將世界模型從傳統(tǒng)的歐幾里得空間建模,擴(kuò)展到具有層級(jí)結(jié)構(gòu)的幾何空間中。

具體來說,它在潛在空間中構(gòu)建一個(gè)“能量模型”,并引入雙曲空間(hyperbolic space)來表示狀態(tài)之間的關(guān)系,使模型能夠更自然地表達(dá)層級(jí)結(jié)構(gòu)。同時(shí),在進(jìn)行預(yù)測或規(guī)劃時(shí),不再簡單地生成未來狀態(tài),而是通過在這個(gè)幾何能量空間中沿“測地線(geodesic)”進(jìn)行推理,從而實(shí)現(xiàn)更穩(wěn)定的多步預(yù)測。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它將世界模型的表示從普通向量空間提升到具有幾何結(jié)構(gòu)的空間,使模型能夠更好地刻畫復(fù)雜關(guān)系和層級(jí)結(jié)構(gòu)。

其次,它通過在能量空間中進(jìn)行路徑推理,而不是逐步生成狀態(tài),有效緩解了長時(shí)預(yù)測中誤差累積的問題,使模型在長時(shí)間規(guī)劃中更加穩(wěn)定。

最后,這種方法為“基于世界模型的決策與規(guī)劃”提供了一種新的思路,將幾何建模與能量模型結(jié)合起來,在機(jī)器人和視覺規(guī)劃任務(wù)中具有潛在應(yīng)用價(jià)值。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種基于幾何空間的世界模型建模方法,使世界模型從簡單的向量表示,發(fā)展為能夠刻畫結(jié)構(gòu)與層級(jí)關(guān)系的幾何表示,從而提升了長時(shí)預(yù)測和規(guī)劃的能力。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大學(xué)研究團(tuán)隊(duì)提出。

論文關(guān)注的問題是:當(dāng)前的視頻擴(kuò)散模型通常只在短視頻數(shù)據(jù)上訓(xùn)練,當(dāng)直接用于生成長視頻時(shí),會(huì)出現(xiàn)明顯的質(zhì)量下降,例如畫面模糊、結(jié)構(gòu)漂移以及時(shí)序不穩(wěn)定。論文指出,這種問題的本質(zhì)原因來自兩個(gè)“分布外問題(O.O.D)”:一是幀間相對(duì)位置超出訓(xùn)練分布,二是上下文長度超過模型訓(xùn)練范圍。

為了解決這一問題,論文提出了一個(gè)新的框架 FreeLOC,核心思路是在完全不需要重新訓(xùn)練模型的情況下,僅通過推理階段進(jìn)行修正。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

具體來說,該方法包含三個(gè)關(guān)鍵機(jī)制:首先,通過“視頻相對(duì)位置重編碼”方法,將長視頻中的時(shí)間位置重新映射回模型熟悉的范圍,從而解決位置分布外問題;

其次,通過“分層稀疏注意力機(jī)制”,在不同時(shí)間尺度上分配注意力,使模型既能保持局部細(xì)節(jié),又能捕捉長程依賴;最后,引入“層自適應(yīng)探測機(jī)制”,自動(dòng)識(shí)別模型中哪些層對(duì)這些問題最敏感,并只在關(guān)鍵層進(jìn)行修正,從而提高效率和效果。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它提出了一種完全無需訓(xùn)練的長視頻生成增強(qiáng)方法,可以直接作用在已有模型上,成本極低。其次,它從根本上分析了長視頻生成失敗的原因,并針對(duì)“位置”和“上下文長度”兩個(gè)關(guān)鍵問題提出針對(duì)性解決方案。

最后,通過“按層自適應(yīng)修正”的方式,使方法既高效又精確,在實(shí)驗(yàn)中同時(shí)提升了視頻的視覺質(zhì)量和時(shí)序一致性,并達(dá)到了當(dāng)前訓(xùn)練自由方法中的領(lǐng)先效果。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種針對(duì)分布外問題的層級(jí)自適應(yīng)修正框架,使短視頻訓(xùn)練得到的模型也能夠穩(wěn)定生成高質(zhì)量長視頻,從而顯著提升了視頻生成模型的實(shí)用性。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中國科學(xué)院自動(dòng)化研究所和 CreateAI 研究團(tuán)隊(duì)提出。

論文主要解決的是 4D 世界建模中的一個(gè)核心問題,即現(xiàn)有方法通常依賴昂貴的多視角數(shù)據(jù)或者復(fù)雜的離線預(yù)處理流程,導(dǎo)致模型難以擴(kuò)展到真實(shí)世界中大量隨手拍攝的單目視頻。 因此,這項(xiàng)工作提出的核心目標(biāo)是:讓 4D 世界模型能夠直接利用“野外單目視頻”進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)大規(guī)模擴(kuò)展和更強(qiáng)泛化能力。

為了解決這一問題,論文提出了 NeoVerse 框架,其核心思路是構(gòu)建一個(gè)可擴(kuò)展的重建 + 生成一體化模型。具體來說,模型首先通過一種“無位姿(pose-free)的前饋式 4D 重建方法”,直接從單目視頻中恢復(fù) 4D 高斯表示,然后利用這些幾何信息作為條件,引導(dǎo)視頻生成模型產(chǎn)生新視角視頻。

同時(shí),論文設(shè)計(jì)了“在線退化模擬機(jī)制”,在訓(xùn)練過程中模擬不同視角下的低質(zhì)量渲染,從而讓生成模型學(xué)會(huì)在復(fù)雜條件下恢復(fù)高質(zhì)量視頻。這一整套流程不依賴復(fù)雜預(yù)處理,可以直接在大規(guī)模單目視頻數(shù)據(jù)上訓(xùn)練。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先,它突破了對(duì)多視角數(shù)據(jù)和離線預(yù)處理的依賴,使 4D 世界模型可以利用大規(guī)模真實(shí)單目視頻,從而顯著提升可擴(kuò)展性。

其次,它提出了“前饋式 4D 重建 + 生成聯(lián)合訓(xùn)練”的框架,使模型既能恢復(fù)幾何結(jié)構(gòu),又能生成新視角視頻,實(shí)現(xiàn)統(tǒng)一建模。最后,該方法具有較強(qiáng)的通用性,不僅可以用于 4D 重建和視頻生成,還支持視頻編輯、穩(wěn)定、超分辨率等多種下游任務(wù),并在多個(gè)基準(zhǔn)上達(dá)到較好的效果。

總體來看,這篇論文的核心貢獻(xiàn)是提出了一種面向真實(shí)世界單目視頻的可擴(kuò)展 4D 世界模型框架,使 4D 建模從依賴昂貴數(shù)據(jù),轉(zhuǎn)向可以利用大規(guī)模真實(shí)視頻數(shù)據(jù),從而在泛化能力和實(shí)用性上都有明顯提升。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2026 世界模型論文全景梳理:從生成到建模的關(guān)鍵轉(zhuǎn)變

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說