日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給鄭佳美

發(fā)送

0

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

本文作者：鄭佳美

2026-04-30 10:28

專題：CVPR 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議

導(dǎo)語：世界模型：通過統(tǒng)一建?？臻g結(jié)構(gòu)、時(shí)間演化與物理規(guī)律，實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的理解與模擬。

在過去幾年中，視頻生成技術(shù)取得了令人矚目的進(jìn)展。從基于擴(kuò)散模型的方法到大規(guī)模視頻基礎(chǔ)模型，生成結(jié)果在視覺質(zhì)量上已經(jīng)逐漸逼近真實(shí)世界。然而，當(dāng)我們進(jìn)一步審視這些模型時(shí)，一個(gè)更本質(zhì)的問題開始顯現(xiàn)：它們究竟是在“理解世界”，還是僅僅在“擬合像素分布”？

傳統(tǒng)視頻生成方法大多建立在 2D 圖像空間之上，通過逐幀建模來合成動(dòng)態(tài)內(nèi)容。這種范式雖然在短時(shí)間尺度和視覺表現(xiàn)上表現(xiàn)出色，但也暴露出一系列根本性局限：相機(jī)運(yùn)動(dòng)難以精確控制，多物體交互缺乏一致性，長時(shí)間生成容易出現(xiàn)結(jié)構(gòu)漂移，甚至在復(fù)雜場景中違背基本物理規(guī)律。這些問題的共同根源在于模型缺乏對(duì)“世界本身”的建模能力。

正是在這一背景下，“世界模型（World Model）”逐漸成為視覺生成與智能系統(tǒng)中的核心研究方向。與傳統(tǒng)方法不同，世界模型試圖構(gòu)建一個(gè)能夠統(tǒng)一描述空間結(jié)構(gòu)、時(shí)間演化以及物理規(guī)律的內(nèi)部表示，使模型不僅能夠生成視覺內(nèi)容，還能夠進(jìn)行推理、預(yù)測，甚至支持決策。從某種意義上說，這一轉(zhuǎn)變標(biāo)志著研究目標(biāo)從“生成看起來真實(shí)的結(jié)果”，邁向“建模一個(gè)本質(zhì)上合理的世界”。

這一范式的演進(jìn)正在多個(gè)維度同時(shí)發(fā)生：在表示層面，從 2D 像素走向 3D/4D 幾何結(jié)構(gòu)；在建模目標(biāo)上，從單純生成擴(kuò)展到因果關(guān)系、物理一致性與可交互性；在學(xué)習(xí)方式上，從依賴標(biāo)注數(shù)據(jù)轉(zhuǎn)向從真實(shí)世界視頻中提取可遷移知識(shí)；而在評(píng)估體系上，也逐漸從單一視覺指標(biāo)轉(zhuǎn)向?qū)Α笆澜缃Ｄ芰Α钡亩嗑S度衡量。

CVPR 2026 中的一系列工作，正集中體現(xiàn)了這一趨勢(shì)。這些研究不僅在技術(shù)路徑上各有側(cè)重，有的強(qiáng)調(diào) 4D 幾何建模，有的關(guān)注物理對(duì)齊與因果建模，有的探索從真實(shí)視頻中學(xué)習(xí)世界知識(shí)，還有的致力于構(gòu)建統(tǒng)一評(píng)測體系，更重要的是，它們共同指向一個(gè)核心目標(biāo)：讓模型從“生成工具”演化為“世界模擬器”。

AI 科技評(píng)論對(duì)這些代表性工作進(jìn)行了系統(tǒng)梳理，從建模范式、控制能力、物理一致性、可擴(kuò)展性以及評(píng)測方法等多個(gè)角度，解析當(dāng)前世界模型研究的關(guān)鍵進(jìn)展與內(nèi)在邏輯，嘗試回答一個(gè)更深層的問題：當(dāng)我們談?wù)摗吧墒澜纭睍r(shí)，我們究竟在建模什么？

世界在模型里到底長什么樣？

論文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由復(fù)旦大學(xué)、香港大學(xué)聯(lián)合 Tencent ARC（騰訊應(yīng)用研究中心）研究團(tuán)隊(duì)提出的一項(xiàng)視頻生成研究成果。

它主要針對(duì)當(dāng)前視頻生成模型的一個(gè)核心問題：現(xiàn)有方法大多在 2D 圖像空間中建模，導(dǎo)致相機(jī)運(yùn)動(dòng)和多物體運(yùn)動(dòng)難以統(tǒng)一控制、且生成結(jié)果容易不穩(wěn)定。

為了解決這一問題，論文提出了一種新的 4D 幾何世界建模方法，將視頻表示為“3D 空間 + 時(shí)間”的統(tǒng)一世界狀態(tài)，而不是簡單的逐幀像素生成。

在具體方法上，作者提出了一個(gè)關(guān)鍵技術(shù)：4D Geometric Control 表示。這個(gè)表示用靜態(tài)背景點(diǎn)云來描述場景結(jié)構(gòu)，用帶時(shí)間信息的 3D 高斯軌跡來描述動(dòng)態(tài)物體，從而構(gòu)建一個(gè)統(tǒng)一的 4D 世界模型。

在這個(gè)世界模型基礎(chǔ)上，再將幾何信息轉(zhuǎn)化為控制信號(hào)，輸入到視頻擴(kuò)散模型中進(jìn)行生成，使最終視頻能夠嚴(yán)格遵循設(shè)定的相機(jī)路徑和物體運(yùn)動(dòng)。

這項(xiàng)工作的亮點(diǎn)主要體現(xiàn)在三個(gè)方面：首先，它實(shí)現(xiàn)了從傳統(tǒng) 2D 像素生成向 4D 幾何建模范式的轉(zhuǎn)變，使視頻生成更接近真實(shí)世界建模；

其次，它在同一框架下實(shí)現(xiàn)了對(duì)相機(jī)運(yùn)動(dòng)和多物體運(yùn)動(dòng)的統(tǒng)一、精確控制，相比以往依賴 2D 軌跡或邊界框的方法更加靈活且一致；

最后，由于引入了顯式的 3D 結(jié)構(gòu)和時(shí)間約束，模型在時(shí)序一致性和穩(wěn)定性方面顯著提升，生成的視頻在長時(shí)間范圍內(nèi)更加連貫、真實(shí) 。

總體來說，這篇論文的核心貢獻(xiàn)可以概括為：提出了一種基于 4D 幾何控制的世界模型框架，使視頻生成從“基于像素的合成”轉(zhuǎn)向“基于結(jié)構(gòu)的生成”，從而在可控性和穩(wěn)定性上取得了明顯提升。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中國科學(xué)院自動(dòng)化研究所和 CreateAI 共同提出。

這項(xiàng)研究主要圍繞 4D 世界模型的一個(gè)關(guān)鍵問題展開，即現(xiàn)有方法往往依賴多視角數(shù)據(jù)或復(fù)雜預(yù)處理，導(dǎo)致擴(kuò)展性差，很難直接利用真實(shí)世界中大量隨手拍攝的單目視頻。

為了解決這一問題，論文提出了一個(gè)新的框架 NeoVerse，其核心思路是利用“自然場景中的單目視頻”來構(gòu)建 4D 世界模型。具體來說，模型可以從普通視頻中恢復(fù)場景的 3D 結(jié)構(gòu)，并進(jìn)一步建模隨時(shí)間變化的動(dòng)態(tài)信息，從而實(shí)現(xiàn)完整的 4D 表示。

在此基礎(chǔ)上，該模型不僅能夠進(jìn)行 4D 重建，還可以生成新的相機(jī)軌跡視頻，并支持多種下游任務(wù)。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它突破了以往對(duì)多視角或?qū)Ｓ脭?shù)據(jù)的依賴，直接使用“野外采集”的單目視頻進(jìn)行訓(xùn)練，大幅提升了方法的可擴(kuò)展性和數(shù)據(jù)可獲得性。

其次，它在同一框架中統(tǒng)一了 4D 重建與視頻生成能力，使模型既可以理解場景結(jié)構(gòu)，又可以生成新的視角和動(dòng)態(tài)內(nèi)容。最后，通過這種方式，模型在真實(shí)場景中的泛化能力更強(qiáng)，能夠更好地適應(yīng)復(fù)雜環(huán)境，而不是局限于受控?cái)?shù)據(jù)集。

總體來看，這篇論文的核心貢獻(xiàn)在于提出了一種基于單目視頻構(gòu)建 4D 世界模型的方法，使 4D 建模從依賴昂貴數(shù)據(jù)采集，轉(zhuǎn)向可以利用大規(guī)模真實(shí)視頻，從而顯著提升了實(shí)用性與擴(kuò)展能力。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大學(xué)（廣州）、地平線機(jī)器人、浙江大學(xué)和中南大學(xué)等研究團(tuán)隊(duì)提出。

論文關(guān)注的是一個(gè)非常核心但長期沒有很好解決的問題：長序列 3D 重建。現(xiàn)有方法通常在短序列或離線場景下表現(xiàn)不錯(cuò)，但一旦處理上千幀的長視頻，就會(huì)出現(xiàn)明顯問題，例如注意力逐漸衰減、尺度不斷漂移，以及預(yù)測誤差累積，最終導(dǎo)致整體重建不穩(wěn)定甚至失效。

這些問題的根本原因在于，大多數(shù)自回歸模型都會(huì)把所有幀“錨定”到第一幀，從而在長時(shí)間推理中不斷放大誤差。

為了解決這一問題，論文提出了 LongStream 框架，核心思路是構(gòu)建一種流式的、規(guī)范解耦（gauge-decoupled）的視覺幾何模型。

具體來說，它不再把所有幀綁定到初始幀，而是通過“關(guān)鍵幀相對(duì)建?！钡姆绞剑屆恳欢尉植啃蛄歇?dú)立建模，同時(shí)再統(tǒng)一到全局結(jié)構(gòu)中。此外，模型將“尺度學(xué)習(xí)”和“幾何預(yù)測”進(jìn)行解耦，使尺度不會(huì)在長序列中逐漸漂移。同時(shí)，通過周期性刷新緩存和流式更新機(jī)制，模型可以在嚴(yán)格在線（看不到未來幀）的條件下穩(wěn)定處理上千幀數(shù)據(jù) 。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了一種真正面向長序列的流式 3D 重建框架，能夠在在線場景中處理上千幀甚至更長的視頻，這是以往方法難以實(shí)現(xiàn)的。

其次，它通過“規(guī)范解耦”的方式，從根本上解決了尺度漂移和誤差累積問題，使長時(shí)間建模更加穩(wěn)定。最后，該方法在效率和穩(wěn)定性之間取得了較好平衡，可以在現(xiàn)實(shí)應(yīng)用場景中落地，例如自動(dòng)駕駛、AR/VR 和具身智能中的持續(xù)環(huán)境建模。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種面向長時(shí)序視頻的穩(wěn)定 3D 世界建模方法，使模型能夠在嚴(yán)格在線條件下持續(xù)構(gòu)建一致的三維世界，從而推動(dòng)世界模型向真實(shí)應(yīng)用場景邁進(jìn)。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

模型有沒有學(xué)到可以遷移的世界規(guī)律？

論文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大學(xué)和字節(jié)研究團(tuán)隊(duì)共同提出。

這項(xiàng)研究關(guān)注的核心問題是，模型是否能夠像人一樣，僅通過觀看真實(shí)世界的視頻，就學(xué)習(xí)到可以遷移到新環(huán)境中的通用知識(shí)。論文指出，現(xiàn)有視頻模型大多側(cè)重生成視覺效果，雖然畫面逼真，但缺乏對(duì)物體運(yùn)動(dòng)規(guī)律、交互關(guān)系以及時(shí)序結(jié)構(gòu)的理解能力，因此難以在新場景中泛化。

為了解決這一問題，論文提出了 VideoWorld 2 框架，其核心思路是直接從大規(guī)模無標(biāo)注的真實(shí)視頻中學(xué)習(xí)世界知識(shí)。

模型不依賴人工標(biāo)注，而是通過觀察視頻中的動(dòng)態(tài)過程，自主學(xué)習(xí)物理規(guī)律、物體交互以及時(shí)間變化，并將這些信息編碼為一種可復(fù)用的表示，使其能夠遷移到不同任務(wù)和環(huán)境中。相比傳統(tǒng)視頻生成方法只關(guān)注圖像外觀，這種方法更強(qiáng)調(diào)從視頻中提取“可以用于理解和推理的知識(shí)”。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它將研究重點(diǎn)從生成逼真的視頻轉(zhuǎn)向從視頻中學(xué)習(xí)可遷移知識(shí)，使模型從“會(huì)生成”發(fā)展到“會(huì)理解”。

其次，它直接利用真實(shí)世界視頻進(jìn)行訓(xùn)練，減少對(duì)模擬環(huán)境或人工構(gòu)造數(shù)據(jù)的依賴，使方法更加貼近真實(shí)應(yīng)用場景。最后，這種方法在一定程度上兼顧了視覺生成能力與知識(shí)表達(dá)能力，使模型既能夠保持較好的生成效果，又具備更強(qiáng)的泛化能力。

總體來看，這篇論文的核心貢獻(xiàn)在于提出了一種從真實(shí)視頻中學(xué)習(xí)世界知識(shí)的框架，使視頻模型從單純的生成工具，發(fā)展為能夠理解并泛化現(xiàn)實(shí)世界規(guī)律的模型。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大學(xué)、鵬城實(shí)驗(yàn)室等科研團(tuán)隊(duì)共同提出。

論文關(guān)注的問題是當(dāng)前視頻生成模型雖然在視覺效果上已經(jīng)較好，但在物理一致性方面仍然存在明顯不足，例如物體運(yùn)動(dòng)不符合真實(shí)物理規(guī)律，或者復(fù)雜場景中的交互不合理。這一問題的根本原因在于現(xiàn)有方法缺乏對(duì)物理規(guī)律的顯式建模，同時(shí)無法將物理信息精確地對(duì)齊到視頻中的具體空間位置。

為了解決這一問題，論文提出了 ProPhy 框架，其核心思路是引入一種“漸進(jìn)式物理對(duì)齊機(jī)制”。模型通過一個(gè)兩階段的結(jié)構(gòu)來建模物理信息：首先在語義層面提取文本中的物理規(guī)律，例如運(yùn)動(dòng)類型或物理現(xiàn)象，然后在更細(xì)粒度的層面，將這些物理規(guī)律精確對(duì)齊到視頻中的具體區(qū)域和時(shí)間過程。

同時(shí)，模型采用“物理專家混合機(jī)制”，讓不同模塊分別學(xué)習(xí)不同類型的物理規(guī)律，從而形成更加細(xì)致的物理建模能力。此外，論文還將視覺語言模型的物理推理能力引入生成過程，使模型能夠更準(zhǔn)確地表達(dá)復(fù)雜動(dòng)態(tài)現(xiàn)象。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了顯式的物理建模機(jī)制，使視頻生成不再只是視覺逼真，而是能夠遵循真實(shí)物理規(guī)律。其次，它實(shí)現(xiàn)了從語義級(jí)到細(xì)粒度空間級(jí)的逐步對(duì)齊，使不同物理現(xiàn)象能夠準(zhǔn)確作用在對(duì)應(yīng)區(qū)域，而不是全局混合。

最后，通過引入“物理專家”結(jié)構(gòu)和視覺語言模型的推理能力，模型在復(fù)雜動(dòng)態(tài)場景中生成的視頻更加穩(wěn)定、合理，并在物理一致性方面明顯優(yōu)于已有方法。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種面向物理一致性的生成框架，使視頻生成模型從單純追求視覺真實(shí)，進(jìn)一步發(fā)展為能夠遵循真實(shí)物理規(guī)律的世界模型。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大學(xué)、香港理工大學(xué)、電子科技大學(xué)、阿德萊德大學(xué)研究團(tuán)隊(duì)共同提出。

論文關(guān)注的問題是當(dāng)前視頻生成模型在“物理一致性”上的不足。雖然現(xiàn)有視頻擴(kuò)散模型可以生成視覺上真實(shí)的畫面，但在描述復(fù)雜物理過程時(shí)，往往只能生成某一個(gè)瞬間，而無法正確表達(dá)事件之間的因果關(guān)系和連續(xù)變化，例如液體流動(dòng)、能量變化等動(dòng)態(tài)過程。

為了解決這一問題，論文提出了一種以“事件為中心”的生成框架，其核心思路是把一個(gè)物理現(xiàn)象看作一系列按因果順序發(fā)展的事件鏈，而不是一個(gè)靜態(tài)描述。

具體方法包括兩個(gè)關(guān)鍵模塊：首先是“物理驅(qū)動(dòng)的事件鏈推理”，將復(fù)雜物理過程拆解為多個(gè)有明確因果關(guān)系的子事件，并通過引入物理公式作為約束，使這些事件之間的關(guān)系具有確定性；其次是“跨模態(tài)過渡建?！保瑢⑦@些事件轉(zhuǎn)化為時(shí)間對(duì)齊的文本和視覺提示，例如關(guān)鍵幀和語義描述，從而引導(dǎo)視頻生成過程在不同事件之間平滑過渡。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了“事件鏈”這一新的建模方式，使視頻生成從描述單一畫面轉(zhuǎn)向描述完整的因果過程，從而更接近真實(shí)世界。

其次，它將物理公式引入推理過程，使生成內(nèi)容不僅在視覺上合理，也在物理規(guī)律上更加可信。最后，通過結(jié)合語義提示和關(guān)鍵幀的跨模態(tài)控制方式，模型能夠在不同事件之間保持連續(xù)性，從而生成具有時(shí)間一致性和因果一致性的動(dòng)態(tài)視頻。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種基于因果事件鏈的物理視頻生成框架，使視頻生成從“生成一個(gè)結(jié)果”發(fā)展為“生成一個(gè)符合物理規(guī)律的動(dòng)態(tài)過程”，在物理一致性和時(shí)序建模方面都有明顯提升。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

能不能精確控制生成的世界？

論文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大學(xué)和南陽理工大學(xué)的研究團(tuán)隊(duì)共同提出。

論文主要研究的是視頻擴(kuò)散模型在 3D 和 4D 場景生成中的一個(gè)核心問題，即雖然這些模型已經(jīng)具備很強(qiáng)的“世界先驗(yàn)”，但在實(shí)際使用中存在三個(gè)關(guān)鍵缺陷，包括難以精確控制相機(jī)運(yùn)動(dòng)、時(shí)空一致性差以及場景與相機(jī)運(yùn)動(dòng)耦合在一起，導(dǎo)致生成結(jié)果不穩(wěn)定或者不符合預(yù)期。

為了解決這一問題，論文提出了一個(gè)新的框架 WorldForge，其核心思路是在不重新訓(xùn)練模型的情況下，僅通過推理階段對(duì)已有視頻擴(kuò)散模型進(jìn)行控制增強(qiáng)。

具體來說，該方法由三個(gè)關(guān)鍵機(jī)制組成：首先是在擴(kuò)散去噪過程中加入遞歸優(yōu)化，使生成過程逐步貼合目標(biāo)相機(jī)軌跡；其次利用光流信息在潛空間中區(qū)分“運(yùn)動(dòng)”和“外觀”，從而只對(duì)運(yùn)動(dòng)相關(guān)部分進(jìn)行控制；最后通過雙路徑對(duì)比機(jī)制，將有控制與無控制的生成過程進(jìn)行比較，自動(dòng)修正偏差，從而避免軌跡漂移。

這篇論文的亮點(diǎn)主要體現(xiàn)在幾個(gè)方面。首先，它提出了一種完全不需要訓(xùn)練的控制方法，只在推理階段進(jìn)行修改，大幅降低了成本，同時(shí)避免破壞原有模型能力。

其次，它實(shí)現(xiàn)了對(duì)相機(jī)軌跡的精確控制，同時(shí)保持較高的視覺質(zhì)量，解決了以往方法中“控制和質(zhì)量難以兼顧”的問題。最后，該方法具有很強(qiáng)的通用性，是一個(gè)“即插即用”的框架，可以直接應(yīng)用在不同的視頻擴(kuò)散模型上，并支持多種任務(wù)，例如 3D 重建、4D 場景生成以及視頻編輯等。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種無需訓(xùn)練的控制框架，使視頻擴(kuò)散模型能夠在保持生成質(zhì)量的同時(shí)，實(shí)現(xiàn)精確的幾何和運(yùn)動(dòng)控制，從而推動(dòng)其在 3D 和 4D 世界建模任務(wù)中的應(yīng)用。雷峰網(wǎng)

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

模型不僅表示世界，還要「用世界做事」

論文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由華中科技大學(xué)和小米 EV 團(tuán)隊(duì)共同提出。

論文研究的是自動(dòng)駕駛中的一個(gè)關(guān)鍵問題，即如何讓“世界模型”不僅能夠預(yù)測未來場景，還能直接參與決策與規(guī)劃?，F(xiàn)有方法通常把兩個(gè)過程分開處理，一部分模型負(fù)責(zé)預(yù)測未來視頻或場景變化，另一部分模塊負(fù)責(zé)根據(jù)這些預(yù)測結(jié)果進(jìn)行路徑規(guī)劃，這種解耦方式會(huì)導(dǎo)致信息利用不充分，并且在復(fù)雜場景中容易出現(xiàn)誤差累積。

為了解決這一問題，論文提出了一個(gè)新的框架 DriveLaW，其核心思路是在一個(gè)統(tǒng)一的“潛在駕駛世界（latent driving world）”中，同時(shí)進(jìn)行視頻生成和運(yùn)動(dòng)規(guī)劃。

模型首先在潛在空間中學(xué)習(xí)駕駛場景的動(dòng)態(tài)演化規(guī)律，然后在這個(gè)空間中直接進(jìn)行決策推理，而不是先生成完整視頻再做規(guī)劃。這樣一來，預(yù)測和決策被整合到同一個(gè)過程之中，使模型能夠更高效地利用環(huán)境信息，同時(shí)減少中間誤差的傳播。

這篇論文的亮點(diǎn)主要體現(xiàn)在幾個(gè)方面。首先，它將視頻生成與路徑規(guī)劃統(tǒng)一在同一個(gè)框架中，打破了傳統(tǒng)方法中“預(yù)測”和“決策”分離的結(jié)構(gòu)，使世界模型真正參與到?jīng)Q策過程中。

其次，它通過在潛在空間中進(jìn)行建模和推理，避免了直接生成高維視頻帶來的計(jì)算開銷，同時(shí)提高了效率和穩(wěn)定性。最后，這種方法在長時(shí)間預(yù)測和復(fù)雜駕駛場景中表現(xiàn)出更好的魯棒性，因?yàn)槟Ｐ褪窃谝粋€(gè)結(jié)構(gòu)化的世界表示中進(jìn)行推理，而不是依賴逐幀生成。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種將視頻生成與自動(dòng)駕駛規(guī)劃統(tǒng)一起來的世界模型框架，使模型不僅能夠“看見未來”，還能夠基于未來進(jìn)行決策，從而推動(dòng)自動(dòng)駕駛系統(tǒng)向更一體化、更高效的方向發(fā)展。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究團(tuán)隊(duì)提出。

論文研究的是機(jī)器人操作場景中的世界模型問題。現(xiàn)有視頻世界模型雖然能夠生成視覺上真實(shí)的結(jié)果，但在涉及物體交互時(shí)，往往會(huì)出現(xiàn)明顯的物理錯(cuò)誤，例如物體穿透、違背重力等現(xiàn)象。這是因?yàn)檫@些模型大多基于視覺數(shù)據(jù)訓(xùn)練，優(yōu)化目標(biāo)只關(guān)注生成概率，而忽略了真實(shí)物理規(guī)律。

為了解決這一問題，論文提出了 ABot-PhysWorld 框架，其核心思路是構(gòu)建一個(gè)具備物理對(duì)齊能力的交互式世界模型。該模型基于一個(gè)大規(guī)模擴(kuò)散 Transformer 架構(gòu)，在生成視頻的同時(shí)引入物理約束，使生成的機(jī)器人操作過程既真實(shí)又符合物理規(guī)律。

同時(shí)，模型支持動(dòng)作可控生成，可以根據(jù)輸入的操作指令控制機(jī)器人與物體之間的交互過程。此外，論文還引入了物理感知訓(xùn)練機(jī)制和偏好優(yōu)化策略，使模型在學(xué)習(xí)過程中更關(guān)注“物理合理性”而不僅是視覺質(zhì)量。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它顯式引入物理約束，使世界模型在生成復(fù)雜交互場景時(shí)能夠避免常見的物理錯(cuò)誤，從而提升真實(shí)性。

其次，它實(shí)現(xiàn)了“動(dòng)作可控的視頻生成”，使模型不僅能預(yù)測世界，還能根據(jù)動(dòng)作進(jìn)行交互式模擬，更貼近機(jī)器人應(yīng)用。最后，該方法在大規(guī)模模型基礎(chǔ)上實(shí)現(xiàn)了視覺真實(shí)感與物理一致性的統(tǒng)一，使世界模型從單純的生成工具，發(fā)展為可以用于機(jī)器人決策和模擬的基礎(chǔ)模型。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種融合物理約束與動(dòng)作控制的世界模型框架，使視頻生成不僅具備視覺真實(shí)性，還具備物理合理性和交互能力，從而推動(dòng)世界模型在機(jī)器人操作中的應(yīng)用。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自動(dòng)化所 MAIS 實(shí)驗(yàn)室、香港大學(xué) OpenDriveLab 和小米 EV 團(tuán)隊(duì)共同提出。

論文關(guān)注的是自動(dòng)駕駛中的一個(gè)關(guān)鍵問題，即真實(shí)駕駛數(shù)據(jù)中“關(guān)鍵危險(xiǎn)場景”非常稀缺，導(dǎo)致模型雖然在常規(guī)場景中表現(xiàn)良好，但在極端或邊界情況下容易失敗?，F(xiàn)有方法主要依賴收集更多真實(shí)數(shù)據(jù)或構(gòu)建人工仿真環(huán)境，但前者成本高且難以覆蓋長尾情況，后者又往往與真實(shí)世界存在差距。

為了解決這一問題，論文提出了 SimScale 框架，其核心思路是利用真實(shí)世界數(shù)據(jù)構(gòu)建可擴(kuò)展的仿真環(huán)境，并在此基礎(chǔ)上自動(dòng)生成大量新的駕駛場景。

具體來說，模型首先從真實(shí)數(shù)據(jù)中提取場景結(jié)構(gòu)，然后在仿真環(huán)境中擴(kuò)展出未見過的狀態(tài)，并自動(dòng)生成對(duì)應(yīng)的駕駛軌跡作為監(jiān)督信號(hào)，最終將真實(shí)數(shù)據(jù)與仿真數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，從而提升模型在復(fù)雜場景下的表現(xiàn)能力。

這篇論文的亮點(diǎn)在于，它通過“真實(shí)數(shù)據(jù)驅(qū)動(dòng)仿真”的方式，有效縮小了仿真與現(xiàn)實(shí)之間的差距，同時(shí)能夠大規(guī)模生成關(guān)鍵長尾場景數(shù)據(jù)，彌補(bǔ)真實(shí)數(shù)據(jù)中的不足。

此外，該方法具有很強(qiáng)的可擴(kuò)展性，隨著仿真數(shù)據(jù)規(guī)模增加，模型性能可以持續(xù)提升，而不依賴額外真實(shí)數(shù)據(jù)。最后，這種結(jié)合真實(shí)與仿真的訓(xùn)練方式，使模型在安全性和泛化能力方面都有明顯增強(qiáng)。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種基于真實(shí)數(shù)據(jù)構(gòu)建仿真環(huán)境并進(jìn)行規(guī)?；?xùn)練的方法，從而有效解決自動(dòng)駕駛中長尾場景不足的問題，提升模型在復(fù)雜現(xiàn)實(shí)環(huán)境中的表現(xiàn)能力。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

如何知道一個(gè)模型真的在「建模世界」？

論文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中國科學(xué)技術(shù)大學(xué)、浙江大學(xué)和北京智源研究院等機(jī)構(gòu)合作完成。

這項(xiàng)研究關(guān)注的是一個(gè)基礎(chǔ)問題，即如何系統(tǒng)地評(píng)估 3D 和 4D 世界模型的能力。論文指出，現(xiàn)有評(píng)測方法通常只關(guān)注單一方面，例如視覺質(zhì)量或簡單一致性，缺乏統(tǒng)一標(biāo)準(zhǔn)，難以全面反映模型是否真正具備對(duì)空間和時(shí)間的建模能力。

為了解決這個(gè)問題，論文提出了一個(gè)統(tǒng)一評(píng)測框架 4DWorldBench。該框架從多個(gè)關(guān)鍵維度對(duì)模型進(jìn)行評(píng)價(jià)，包括視覺感知質(zhì)量、條件與 4D 對(duì)齊能力、物理真實(shí)感以及時(shí)空一致性。

同時(shí)，它支持多種輸入形式，例如從文本、圖像或視頻生成 3D 或 4D 場景，并通過統(tǒng)一機(jī)制將不同模態(tài)的信息映射到同一個(gè)評(píng)測空間中，從而實(shí)現(xiàn)不同模型之間的直接比較。此外，評(píng)測過程中還引入了大語言模型和多模態(tài)模型參與判斷，使評(píng)價(jià)結(jié)果更加接近人類主觀判斷。

這篇論文的亮點(diǎn)在于，它建立了一套統(tǒng)一且系統(tǒng)的評(píng)測標(biāo)準(zhǔn)，使不同世界模型可以在同一框架下進(jìn)行公平比較，同時(shí)通過多維度評(píng)價(jià)體系更全面地反映模型能力，而不僅僅局限于視覺效果。此外，引入大模型參與評(píng)估，使結(jié)果更加穩(wěn)定，也更貼近人類判斷。

總體來看，這項(xiàng)研究的核心貢獻(xiàn)是為 3D 和 4D 世界模型提供了一套完整的評(píng)測體系，使研究重點(diǎn)從單純的生成效果，進(jìn)一步轉(zhuǎn)向?qū)κ澜缃Ｄ芰Φ娜婧饬俊?/p>

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 團(tuán)隊(duì)提出。

論文關(guān)注的是自動(dòng)駕駛世界模型中的一個(gè)核心問題，即如何全面評(píng)估一個(gè)模型是否真正具備“理解和使用世界”的能力?，F(xiàn)有方法通常只評(píng)估單一方面，例如視覺生成質(zhì)量或簡單一致性，缺乏統(tǒng)一標(biāo)準(zhǔn)來衡量模型在真實(shí)駕駛場景中的綜合能力，包括是否符合物理規(guī)律以及是否能夠支持決策。

為了解決這一問題，論文提出了 WorldLens 框架，用于對(duì)世界模型進(jìn)行系統(tǒng)評(píng)估。該框架從多個(gè)維度進(jìn)行衡量，包括生成能力、重建能力、動(dòng)作跟隨能力以及在下游任務(wù)中的表現(xiàn)，同時(shí)還結(jié)合人類偏好進(jìn)行評(píng)價(jià)。論文還構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集，并引入自動(dòng)評(píng)估模型，使評(píng)測過程能夠規(guī)?；瑫r(shí)保持一定的可解釋性。

這篇論文的亮點(diǎn)在于，它提供了一套更全面的評(píng)測體系，使世界模型不再只從視覺效果進(jìn)行評(píng)價(jià)，而是從生成、理解和行為能力多個(gè)角度進(jìn)行統(tǒng)一衡量。

同時(shí)，通過結(jié)合人類標(biāo)注與自動(dòng)評(píng)估方法，使評(píng)測結(jié)果更加穩(wěn)定且更接近真實(shí)使用需求。此外，該研究也揭示了當(dāng)前模型在不同能力之間存在明顯權(quán)衡，為后續(xù)研究提供了方向。

總體來看，這篇論文的核心貢獻(xiàn)是建立了一套面向自動(dòng)駕駛世界模型的統(tǒng)一評(píng)測框架，使模型評(píng)價(jià)從單一指標(biāo)轉(zhuǎn)向?qū)φw世界建模能力的綜合衡量。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《GeoWorld：Geometric World Models 》是由 ANU 和 MBZUAI 團(tuán)隊(duì)共同提出。論文主要研究的是“世界模型”在規(guī)劃和預(yù)測中的一個(gè)核心問題。

現(xiàn)有很多方法雖然可以通過學(xué)習(xí)潛在空間來進(jìn)行多步預(yù)測，但通常是在歐幾里得空間中建模，這種方式無法很好表達(dá)狀態(tài)之間的層級(jí)結(jié)構(gòu)和復(fù)雜關(guān)系，同時(shí)在長時(shí)間預(yù)測時(shí)容易快速退化，導(dǎo)致結(jié)果不穩(wěn)定。

為了解決這個(gè)問題，論文提出了一個(gè)新的框架 GeoWorld，其核心思路是將世界模型從傳統(tǒng)的歐幾里得空間建模，擴(kuò)展到具有層級(jí)結(jié)構(gòu)的幾何空間中。

具體來說，它在潛在空間中構(gòu)建一個(gè)“能量模型”，并引入雙曲空間（hyperbolic space）來表示狀態(tài)之間的關(guān)系，使模型能夠更自然地表達(dá)層級(jí)結(jié)構(gòu)。同時(shí)，在進(jìn)行預(yù)測或規(guī)劃時(shí)，不再簡單地生成未來狀態(tài)，而是通過在這個(gè)幾何能量空間中沿“測地線（geodesic）”進(jìn)行推理，從而實(shí)現(xiàn)更穩(wěn)定的多步預(yù)測。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它將世界模型的表示從普通向量空間提升到具有幾何結(jié)構(gòu)的空間，使模型能夠更好地刻畫復(fù)雜關(guān)系和層級(jí)結(jié)構(gòu)。

其次，它通過在能量空間中進(jìn)行路徑推理，而不是逐步生成狀態(tài)，有效緩解了長時(shí)預(yù)測中誤差累積的問題，使模型在長時(shí)間規(guī)劃中更加穩(wěn)定。

最后，這種方法為“基于世界模型的決策與規(guī)劃”提供了一種新的思路，將幾何建模與能量模型結(jié)合起來，在機(jī)器人和視覺規(guī)劃任務(wù)中具有潛在應(yīng)用價(jià)值。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種基于幾何空間的世界模型建模方法，使世界模型從簡單的向量表示，發(fā)展為能夠刻畫結(jié)構(gòu)與層級(jí)關(guān)系的幾何表示，從而提升了長時(shí)預(yù)測和規(guī)劃的能力。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大學(xué)研究團(tuán)隊(duì)提出。

論文關(guān)注的問題是：當(dāng)前的視頻擴(kuò)散模型通常只在短視頻數(shù)據(jù)上訓(xùn)練，當(dāng)直接用于生成長視頻時(shí)，會(huì)出現(xiàn)明顯的質(zhì)量下降，例如畫面模糊、結(jié)構(gòu)漂移以及時(shí)序不穩(wěn)定。論文指出，這種問題的本質(zhì)原因來自兩個(gè)“分布外問題（O.O.D）”：一是幀間相對(duì)位置超出訓(xùn)練分布，二是上下文長度超過模型訓(xùn)練范圍。

為了解決這一問題，論文提出了一個(gè)新的框架 FreeLOC，核心思路是在完全不需要重新訓(xùn)練模型的情況下，僅通過推理階段進(jìn)行修正。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

具體來說，該方法包含三個(gè)關(guān)鍵機(jī)制：首先，通過“視頻相對(duì)位置重編碼”方法，將長視頻中的時(shí)間位置重新映射回模型熟悉的范圍，從而解決位置分布外問題；

其次，通過“分層稀疏注意力機(jī)制”，在不同時(shí)間尺度上分配注意力，使模型既能保持局部細(xì)節(jié)，又能捕捉長程依賴；最后，引入“層自適應(yīng)探測機(jī)制”，自動(dòng)識(shí)別模型中哪些層對(duì)這些問題最敏感，并只在關(guān)鍵層進(jìn)行修正，從而提高效率和效果。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它提出了一種完全無需訓(xùn)練的長視頻生成增強(qiáng)方法，可以直接作用在已有模型上，成本極低。其次，它從根本上分析了長視頻生成失敗的原因，并針對(duì)“位置”和“上下文長度”兩個(gè)關(guān)鍵問題提出針對(duì)性解決方案。

最后，通過“按層自適應(yīng)修正”的方式，使方法既高效又精確，在實(shí)驗(yàn)中同時(shí)提升了視頻的視覺質(zhì)量和時(shí)序一致性，并達(dá)到了當(dāng)前訓(xùn)練自由方法中的領(lǐng)先效果。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種針對(duì)分布外問題的層級(jí)自適應(yīng)修正框架，使短視頻訓(xùn)練得到的模型也能夠穩(wěn)定生成高質(zhì)量長視頻，從而顯著提升了視頻生成模型的實(shí)用性。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

論文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中國科學(xué)院自動(dòng)化研究所和 CreateAI 研究團(tuán)隊(duì)提出。

論文主要解決的是 4D 世界建模中的一個(gè)核心問題，即現(xiàn)有方法通常依賴昂貴的多視角數(shù)據(jù)或者復(fù)雜的離線預(yù)處理流程，導(dǎo)致模型難以擴(kuò)展到真實(shí)世界中大量隨手拍攝的單目視頻。因此，這項(xiàng)工作提出的核心目標(biāo)是：讓 4D 世界模型能夠直接利用“野外單目視頻”進(jìn)行訓(xùn)練，從而實(shí)現(xiàn)大規(guī)模擴(kuò)展和更強(qiáng)泛化能力。

為了解決這一問題，論文提出了 NeoVerse 框架，其核心思路是構(gòu)建一個(gè)可擴(kuò)展的重建 + 生成一體化模型。具體來說，模型首先通過一種“無位姿（pose-free）的前饋式 4D 重建方法”，直接從單目視頻中恢復(fù) 4D 高斯表示，然后利用這些幾何信息作為條件，引導(dǎo)視頻生成模型產(chǎn)生新視角視頻。

同時(shí)，論文設(shè)計(jì)了“在線退化模擬機(jī)制”，在訓(xùn)練過程中模擬不同視角下的低質(zhì)量渲染，從而讓生成模型學(xué)會(huì)在復(fù)雜條件下恢復(fù)高質(zhì)量視頻。這一整套流程不依賴復(fù)雜預(yù)處理，可以直接在大規(guī)模單目視頻數(shù)據(jù)上訓(xùn)練。

這篇論文的亮點(diǎn)主要體現(xiàn)在三個(gè)方面。首先，它突破了對(duì)多視角數(shù)據(jù)和離線預(yù)處理的依賴，使 4D 世界模型可以利用大規(guī)模真實(shí)單目視頻，從而顯著提升可擴(kuò)展性。

其次，它提出了“前饋式 4D 重建 + 生成聯(lián)合訓(xùn)練”的框架，使模型既能恢復(fù)幾何結(jié)構(gòu)，又能生成新視角視頻，實(shí)現(xiàn)統(tǒng)一建模。最后，該方法具有較強(qiáng)的通用性，不僅可以用于 4D 重建和視頻生成，還支持視頻編輯、穩(wěn)定、超分辨率等多種下游任務(wù)，并在多個(gè)基準(zhǔn)上達(dá)到較好的效果。

總體來看，這篇論文的核心貢獻(xiàn)是提出了一種面向真實(shí)世界單目視頻的可擴(kuò)展 4D 世界模型框架，使 4D 建模從依賴昂貴數(shù)據(jù)，轉(zhuǎn)向可以利用大規(guī)模真實(shí)視頻數(shù)據(jù)，從而在泛化能力和實(shí)用性上都有明顯提升。

CVPR 2026 世界模型論文全景梳理：從生成到建模的關(guān)鍵轉(zhuǎn)變

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

專題

CVPR 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議

本專題其他文章

more

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

阿里 app 運(yùn)營商傳感器 GPU 移動(dòng)廣告夏普數(shù)據(jù)科學(xué) 李飛飛開源硬件移動(dòng)電源

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說