日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

本文作者: 鄭佳美   2026-05-12 15:41
導(dǎo)語(yǔ):3D 視覺正從重建生成,走向空間理解、動(dòng)態(tài)模擬與工程化應(yīng)用。
CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界
3D 視覺正從重建生成,走向空間理解、動(dòng)態(tài)模擬與工程化應(yīng)用。

    作者丨鄭佳美

    編輯丨岑   峰

                                                                                                               CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

如果說(shuō)過(guò)去幾年的視覺 AI 主要是在回答“模型能不能看懂一張圖”,那么到 CVPR 2026,一個(gè)更清晰的趨勢(shì)正在浮現(xiàn):模型正在被要求理解圖像背后的三維世界。

二維圖像只是現(xiàn)實(shí)世界在某個(gè)視角下的投影,真正困難的地方不在于生成一張看起來(lái)合理的畫面,而在于模型能否理解物體的空間結(jié)構(gòu)、相機(jī)運(yùn)動(dòng)、材質(zhì)光照、物理變化,以及這些信息在不同視角和不同時(shí)間中的一致性。

從今年的一系列 3D 視覺相關(guān)工作可以看到,研究重點(diǎn)正在從“生成結(jié)果是否好看”,轉(zhuǎn)向“生成過(guò)程是否具備空間邏輯”。

有的工作試圖通過(guò)自監(jiān)督 3D 重建,讓模型在沒有顯式標(biāo)注的情況下學(xué)習(xí)幾何關(guān)系;有的工作繞過(guò)傳統(tǒng)重建流程,直接利用 3D-aware 特征實(shí)現(xiàn)實(shí)時(shí)新視角合成;也有工作進(jìn)一步把 3D 表示擴(kuò)展到 4D 動(dòng)態(tài)生成,讓物體不僅有形狀和外觀,還能表現(xiàn)出符合物理規(guī)律的運(yùn)動(dòng)。

同時(shí),單圖 3D 重建、真實(shí)感 3D 生成、關(guān)鍵點(diǎn)長(zhǎng)期追蹤、像素級(jí)預(yù)訓(xùn)練、真實(shí)世界數(shù)據(jù)集和自動(dòng)化代碼工具鏈,也都在從不同層面補(bǔ)齊 3D 視覺的基礎(chǔ)能力。

這些工作共同指向一個(gè)更深層的變化:3D 視覺不再只是計(jì)算機(jī)圖形學(xué)或三維重建中的一個(gè)技術(shù)分支,而是在成為通向空間智能的重要路徑。

模型要進(jìn)入真實(shí)世界,就不能只學(xué)習(xí)圖像表面的紋理和語(yǔ)義,而必須理解“物體在哪里、是什么形狀、如何運(yùn)動(dòng)、在不同條件下如何保持一致”。從某種意義上說(shuō),CVPR 2026 的這些工作進(jìn)一步加強(qiáng)了行業(yè)此前的認(rèn)知:視覺 AI 正在從二維感知走向三維理解,從圖像生成走向世界建模。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

01


從看懂 3D 到生成 4D

3D 視覺研究的一個(gè)核心問題,是如何讓模型真正理解空間結(jié)構(gòu),而不是只在圖像層面學(xué)習(xí)紋理和相似性。

由 CMU、Adobe 研究院和哈佛大學(xué)共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是從這個(gè)問題出發(fā),研究如何在沒有 3D 標(biāo)注、相機(jī)位姿或深度監(jiān)督的情況下,讓模型僅通過(guò)多視角圖像學(xué)習(xí) 3D 空間理解能力。

作者提出了 E-RayZer 這一自監(jiān)督 3D 視覺預(yù)訓(xùn)練方法:模型會(huì)輸入同一場(chǎng)景的多張圖片,自動(dòng)估計(jì)相機(jī)參數(shù),并構(gòu)建顯式的 3D Gaussians 場(chǎng)景表示,再通過(guò)可微渲染生成目標(biāo)視角圖像,最后利用渲染結(jié)果與真實(shí)圖像之間的差異來(lái)訓(xùn)練模型。這樣一來(lái),模型不只是學(xué)習(xí)圖像之間的相似性,而是需要真正理解相機(jī)、幾何結(jié)構(gòu)和多視角空間關(guān)系。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2512.10950

這篇論文的亮點(diǎn)在于,它把自監(jiān)督學(xué)習(xí)和顯式 3D 重建結(jié)合起來(lái),使模型能夠在不依賴 3D 標(biāo)注的情況下學(xué)習(xí)空間表征。相比一些只在隱式特征空間中做視角合成的方法,E-RayZer 使用 3D Gaussians 直接建模場(chǎng)景,因此幾何意義更強(qiáng),也更適合學(xué)習(xí)真實(shí)的 3D 結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果表明,這種預(yù)訓(xùn)練方式在相機(jī)位姿估計(jì)、深度估計(jì)和新視角合成等任務(wù)上都有較好的表現(xiàn),說(shuō)明模型通過(guò)“自己重建 3D 場(chǎng)景”的訓(xùn)練過(guò)程,確實(shí)學(xué)到了有用的空間視覺能力。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

E-RayZer 選擇用顯式 3D 重建來(lái)逼迫模型學(xué)習(xí)空間結(jié)構(gòu),但在實(shí)際的新視角合成任務(wù)中,顯式重建并不是唯一選擇。另一條思路是:如果模型已經(jīng)具備足夠強(qiáng)的 3D-aware 特征,是否可以跳過(guò)復(fù)雜的顯式建模過(guò)程,直接用神經(jīng)網(wǎng)絡(luò)生成目標(biāo)視角畫面。

而由牛津大學(xué)視覺幾何組、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了這個(gè)方向。

它關(guān)注的是 Novel View Synthesis(新視角合成),也就是給定一個(gè)場(chǎng)景的若干輸入圖像,讓模型生成從新相機(jī)視角看到的畫面。傳統(tǒng)方法通常需要先重建顯式 3D 場(chǎng)景,比如 NeRF 或 3D Gaussians,再進(jìn)行渲染;而這篇論文提出的 LagerNVS 選擇繞過(guò)顯式 3D 重建,直接用神經(jīng)網(wǎng)絡(luò)從輸入圖像和目標(biāo)相機(jī)視角生成新視角圖像。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2603.20176v2

它的核心想法是:雖然模型不直接輸出顯式 3D 結(jié)構(gòu),但仍然應(yīng)該引入強(qiáng) 3D 先驗(yàn)。具體來(lái)說(shuō),LagerNVS 使用一個(gè)從 3D 重建網(wǎng)絡(luò)初始化而來(lái)的編碼器來(lái)提取帶有 3D 感知能力的 latent features,再配合輕量級(jí)解碼器根據(jù)目標(biāo)相機(jī)視角生成圖像。

這樣既保留了 3D 結(jié)構(gòu)信息帶來(lái)的幾何理解能力,又避免了傳統(tǒng) 3D 重建和渲染流程的復(fù)雜性。這篇論文的亮點(diǎn)在于,它證明了即使是不顯式重建 3D 場(chǎng)景的新視角合成模型,也能明顯受益于 3D-aware 特征。

實(shí)驗(yàn)中,LagerNVS 在確定性 feed-forward 新視角合成上取得了很強(qiáng)的效果,例如在 RealEstate10K 上達(dá)到 31.4 PSNR,并且可以在有相機(jī)參數(shù)或無(wú)相機(jī)參數(shù)的情況下工作;模型還支持實(shí)時(shí)渲染,在單張 H100 GPU 上可達(dá)到 30 FPS 以上。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

如果說(shuō) E-RayZer 和 LagerNVS 主要處理的是靜態(tài)場(chǎng)景中的空間理解與視角生成,那么更進(jìn)一步的問題是:模型能否不僅生成 3D 外觀,還生成符合物理規(guī)律的動(dòng)態(tài)變化。

北京理工大學(xué)、理想汽車、哈爾濱工業(yè)大學(xué)和四川大學(xué)聯(lián)合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把關(guān)注點(diǎn)從靜態(tài) 3D 擴(kuò)展到動(dòng)態(tài) 4D。

它研究的是如何從單張圖像快速生成帶有物理規(guī)律的動(dòng)態(tài) 4D 場(chǎng)景,也就是不僅要重建物體的 3D 外觀,還要讓它在運(yùn)動(dòng)、變形、受力時(shí)表現(xiàn)得更符合真實(shí)物理?,F(xiàn)有很多方法通常需要先用多視角圖像重建 3D Gaussian Splatting,再手動(dòng)設(shè)置剛度、質(zhì)量等物理參數(shù),或者通過(guò)視頻模型進(jìn)行耗時(shí)的逐場(chǎng)景優(yōu)化。

而 PhysGM 希望用一次前向推理,直接預(yù)測(cè)物體的 3D Gaussian 表示和對(duì)應(yīng)的物理屬性,從而快速初始化物理模擬并生成高質(zhì)量動(dòng)態(tài)渲染結(jié)果。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2508.13911v4

這篇論文的亮點(diǎn)在于,它把 3D Gaussian 重建和物理屬性預(yù)測(cè)放到同一個(gè) feed-forward 框架中,不再把幾何重建和物理模擬分成兩個(gè)獨(dú)立步驟。模型會(huì)從輸入圖像中推斷物體的外觀、幾何以及材料屬性,例如剛度、密度等,再結(jié)合 MPM 物理模擬生成動(dòng)態(tài)序列。

作者還使用 DPO 對(duì)模型進(jìn)行偏好優(yōu)化,讓生成結(jié)果更接近物理合理的參考視頻,同時(shí)避免傳統(tǒng) SDS 方法中昂貴且不穩(wěn)定的逐場(chǎng)景優(yōu)化。整體來(lái)看,這篇論文的貢獻(xiàn)是:讓模型從單張圖像出發(fā),在較短時(shí)間內(nèi)生成既有真實(shí)外觀、又具備物理運(yùn)動(dòng)規(guī)律的 4D Gaussian 場(chǎng)景,提升了物理驅(qū)動(dòng) 4D 內(nèi)容生成的效率和實(shí)用性。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

動(dòng)態(tài)場(chǎng)景生成強(qiáng)調(diào)的是物體如何運(yùn)動(dòng)和變化,而在真實(shí)應(yīng)用中,另一個(gè)基礎(chǔ)需求是把普通自然圖像中的物體直接轉(zhuǎn)成可用的 3D 表示。Meta 超級(jí)智能實(shí)驗(yàn)室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是從單張自然圖像中進(jìn)行 3D 物體重建:

模型不僅要恢復(fù)物體的幾何形狀,還要預(yù)測(cè)紋理、姿態(tài)和在場(chǎng)景中的布局。相比只在干凈物體圖或合成數(shù)據(jù)上表現(xiàn)較好的方法,SAM 3D 更強(qiáng)調(diào)真實(shí)場(chǎng)景中的應(yīng)用,例如物體被遮擋、背景雜亂、尺寸較小或姿態(tài)異常時(shí),仍然能夠根據(jù)圖像上下文生成較完整的 3D 結(jié)果。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2511.16624

它把大規(guī)模數(shù)據(jù)引擎和生成式 3D 重建模型結(jié)合起來(lái)。作者通過(guò) human- and model-in-the-loop 的流程標(biāo)注物體形狀、紋理和姿態(tài),構(gòu)建了大規(guī)模視覺對(duì)齊的 3D 重建數(shù)據(jù),再用多階段訓(xùn)練方式把合成預(yù)訓(xùn)練和真實(shí)世界對(duì)齊結(jié)合起來(lái),試圖突破 3D 數(shù)據(jù)不足的問題。

實(shí)驗(yàn)中,SAM 3D 相比已有方法在真實(shí)物體和場(chǎng)景的人類偏好評(píng)測(cè)中取得了至少 5:1 的勝率,并且論文還計(jì)劃發(fā)布代碼、模型權(quán)重、在線 demo 和新的野外 3D 重建 benchmark。整體來(lái)看,這篇論文的貢獻(xiàn)是:把類似 SAM 的“開放世界視覺理解”能力推進(jìn)到 3D 重建中,讓模型可以從普通圖片中更穩(wěn)定地生成可用的 3D 物體表示。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

當(dāng) 3D 生成模型逐漸能從真實(shí)圖片中恢復(fù)物體結(jié)構(gòu)后,畫面是否足夠真實(shí)就變成了新的瓶頸。很多 3D 可控生成方法依賴合成數(shù)據(jù)來(lái)獲得幾何、視角和材質(zhì)控制能力,但合成數(shù)據(jù)本身也容易把模型帶向“合成感”的視覺風(fēng)格。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是針對(duì)這個(gè)問題,研究如何讓 3D 生成結(jié)果同時(shí)具備真實(shí)照片級(jí)外觀和穩(wěn)定的 3D 一致性。

很多方法會(huì)用帶有標(biāo)注的合成 3D 數(shù)據(jù)去微調(diào)圖像生成模型,從而獲得視角、幾何、材質(zhì)等控制能力,但這樣容易讓模型把“有控制信號(hào)”和“合成渲染風(fēng)格”錯(cuò)誤綁定在一起,導(dǎo)致生成結(jié)果雖然可控,卻不夠真實(shí)。

Realiz3D 的目標(biāo)就是解決這個(gè)真實(shí)圖像和合成數(shù)據(jù)之間的 domain gap,讓模型既能聽從 3D 控制,又能生成更像真實(shí)照片的結(jié)果。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://idosobol.github.io/realiz3d/

這篇論文的核心做法是引入 Domain Shifters,也就是一組輕量級(jí)殘差適配器,用來(lái)單獨(dú)學(xué)習(xí)“真實(shí) / 合成”這種視覺域信息,而不是把視覺風(fēng)格和 3D 控制信號(hào)混在一起。訓(xùn)練時(shí),模型先學(xué)習(xí)區(qū)分和切換真實(shí)域、合成域,再利用合成數(shù)據(jù)學(xué)習(xí)精確控制,同時(shí)通過(guò)真實(shí)數(shù)據(jù)幫助模型保持照片級(jí)外觀。

論文還結(jié)合了 layer-aware training 和 domain reassignment 等策略,讓控制能力更好地遷移到真實(shí)圖像域中。它的亮點(diǎn)在于,不是簡(jiǎn)單把真實(shí)數(shù)據(jù)和合成數(shù)據(jù)混在一起微調(diào),而是顯式拆分“視覺真實(shí)性”和“幾何控制能力”,從而減少模型生成合成感畫面的傾向。

實(shí)驗(yàn)展示中,Realiz3D 可以用于 text-to-multiview generation 和基于 3D 輸入的紋理生成,生成結(jié)果既保持多視角一致性,又比普通微調(diào)方式更加真實(shí)。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界
CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

02


不只拼生成,底層表征也在進(jìn)化

并不是所有 3D 視覺研究都直接以生成完整場(chǎng)景或物體為目標(biāo)。很多基礎(chǔ)工作更關(guān)心的是,模型能否學(xué)到可靠的空間表征、穩(wěn)定的局部結(jié)構(gòu),以及能否在后續(xù) 3D 任務(wù)中提供更強(qiáng)的底層視覺能力。

由武漢大學(xué)計(jì)算機(jī)學(xué)院和小米 EV 團(tuán)隊(duì)提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 視覺系統(tǒng)中的關(guān)鍵點(diǎn)檢測(cè)問題,尤其關(guān)注 SfM、SLAM 等任務(wù)里關(guān)鍵點(diǎn)能否在連續(xù)多幀圖像中長(zhǎng)期穩(wěn)定地被追蹤。

作者認(rèn)為,很多現(xiàn)有方法主要基于圖像對(duì)訓(xùn)練,只優(yōu)化兩張圖之間的匹配效果,但在真實(shí)序列任務(wù)中,更重要的是關(guān)鍵點(diǎn)能不能在多視角、光照變化和運(yùn)動(dòng)模糊下持續(xù)保持穩(wěn)定。這篇論文提出的方法叫 TraqPoint,核心是把關(guān)鍵點(diǎn)檢測(cè)看成一個(gè)序列決策問題,并用強(qiáng)化學(xué)習(xí)中的 policy gradient 來(lái)直接優(yōu)化關(guān)鍵點(diǎn)的長(zhǎng)期可追蹤性。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文鏈接:https://arxiv.org/pdf/2602.20630v3

它不再只判斷一個(gè)點(diǎn)在兩張圖里是否好匹配,而是把整段圖像序列作為環(huán)境,通過(guò) track-aware reward 獎(jiǎng)勵(lì)那些在多幀中既穩(wěn)定、又具有區(qū)分度的關(guān)鍵點(diǎn)。這樣訓(xùn)練出來(lái)的關(guān)鍵點(diǎn)更傾向于落在結(jié)構(gòu)明顯、跨視角一致性強(qiáng)的位置上。

這篇論文的亮點(diǎn)在于,它把關(guān)鍵點(diǎn)學(xué)習(xí)從“圖像對(duì)匹配”推進(jìn)到了“序列級(jí)追蹤”,更貼近 SLAM、視覺里程計(jì)和 3D 重建等實(shí)際應(yīng)用需求。實(shí)驗(yàn)結(jié)果也顯示,TraqPoint 在相對(duì)位姿估計(jì)、視覺定位、視覺里程計(jì)和 3D 重建等任務(wù)上都有較好表現(xiàn),尤其在序列任務(wù)中能帶來(lái)更長(zhǎng)的關(guān)鍵點(diǎn)跟蹤長(zhǎng)度和更穩(wěn)定的軌跡估計(jì)。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

關(guān)鍵點(diǎn)檢測(cè)強(qiáng)調(diào)的是局部結(jié)構(gòu)在多幀序列中的穩(wěn)定性,而視覺預(yù)訓(xùn)練則進(jìn)一步追問:模型要獲得通用視覺能力,究竟應(yīng)該依賴什么樣的監(jiān)督信號(hào)。FAIR 和香港大學(xué)共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身,研究的是視覺預(yù)訓(xùn)練中的一個(gè)核心問題:

模型到底應(yīng)該從哪里獲得監(jiān)督信號(hào)。相比現(xiàn)在很常見的 DINO、JEPA 等在 latent space 中學(xué)習(xí)表征的方法,這篇論文重新強(qiáng)調(diào) pixel supervision 的價(jià)值,認(rèn)為像素本身包含顏色、紋理、材質(zhì)、幾何和語(yǔ)義等多層次信息,因此直接讓模型預(yù)測(cè)被遮擋的像素,也可以學(xué)到很強(qiáng)的通用視覺表征。

這篇論文的亮點(diǎn)在于,它證明了基于像素重建的自監(jiān)督學(xué)習(xí)并沒有過(guò)時(shí),只要任務(wù)設(shè)計(jì)和數(shù)據(jù)規(guī)模足夠好,仍然可以和當(dāng)前強(qiáng)大的 latent-space 方法競(jìng)爭(zhēng)。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基礎(chǔ)上做了幾個(gè)關(guān)鍵改進(jìn),包括使用更大的 mask block 來(lái)增加預(yù)訓(xùn)練難度、更深的 decoder 來(lái)增強(qiáng)像素重建能力、更多的 CLS token 來(lái)捕捉不同層次的全局信息,并使用約 2B 張網(wǎng)絡(luò)圖片進(jìn)行訓(xùn)練,同時(shí)通過(guò)自篩選策略減少人工數(shù)據(jù)清洗依賴。

整體來(lái)看,這篇論文的貢獻(xiàn)是:重新驗(yàn)證了像素級(jí)自監(jiān)督預(yù)訓(xùn)練的潛力。實(shí)驗(yàn)顯示,Pixio 在單目深度估計(jì)、前饋式 3D 重建、語(yǔ)義分割和機(jī)器人學(xué)習(xí)等任務(wù)上,能夠達(dá)到或超過(guò)類似規(guī)模訓(xùn)練的 DINOv3 表現(xiàn)。

它說(shuō)明直接預(yù)測(cè)像素不僅能學(xué)習(xí)低層視覺細(xì)節(jié),也能幫助模型理解幾何、空間結(jié)構(gòu)和語(yǔ)義信息,因此可以作為 latent-space 預(yù)訓(xùn)練方法的有力替代和補(bǔ)充。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界
CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

03


從論文到代碼,從采集到數(shù)據(jù)

模型能力的提升不僅依賴新的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo),也依賴數(shù)據(jù)與工具鏈的完善。一方面,研究者需要更高效地復(fù)現(xiàn)已有方法并把論文轉(zhuǎn)化為可運(yùn)行代碼;另一方面,真實(shí)世界 3D 視覺任務(wù)也需要更高質(zhì)量、更可控的數(shù)據(jù)資源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》對(duì)應(yīng)的是前一個(gè)問題,研究的是如何讓大語(yǔ)言模型代理自動(dòng)把 NeRF 相關(guān)研究論文轉(zhuǎn)化成可以運(yùn)行、可以訓(xùn)練的 Nerfstudio 插件代碼。

作者指出,很多 NeRF 論文沒有公開代碼,研究者往往需要花費(fèi)很長(zhǎng)時(shí)間重新實(shí)現(xiàn),而通用的 paper-to-code 方法在這類任務(wù)上容易生成不能運(yùn)行或訓(xùn)練效果很差的代碼,因此他們提出了 NERFIFY 這個(gè)面向 NeRF 領(lǐng)域的多智能體代碼生成框架。

它的核心思路是把論文解析、依賴恢復(fù)、代碼生成和訓(xùn)練反饋串成一個(gè)自動(dòng)化流程。系統(tǒng)先將論文內(nèi)容整理成結(jié)構(gòu)化信息,再利用 Nerfstudio 的架構(gòu)約束形成類似 CFG 的生成規(guī)則,保證生成代碼符合基本模塊接口。

隨后通過(guò) Graph-of-Thought 多智能體方式按依賴順序生成多個(gè)文件,并自動(dòng)追蹤論文引用中隱藏的關(guān)鍵組件,例如采樣器、編碼器或 proposal network;最后還會(huì)根據(jù)訓(xùn)練結(jié)果和渲染圖像中的問題進(jìn)行視覺反饋和代碼修正。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2603.00805

它不是簡(jiǎn)單讓模型“讀論文寫代碼”,而是把 NeRF 領(lǐng)域知識(shí)、代碼結(jié)構(gòu)約束、引用依賴恢復(fù)和視覺質(zhì)量反饋結(jié)合起來(lái),讓生成的代碼更接近真實(shí)可用的研究實(shí)現(xiàn)。

實(shí)驗(yàn)中,NERFIFY 在 30 篇不同復(fù)雜度的 NeRF 論文上進(jìn)行評(píng)估,對(duì)于沒有公開實(shí)現(xiàn)的論文,它生成的結(jié)果可以接近專家手寫代碼的視覺質(zhì)量,同時(shí)把實(shí)現(xiàn)時(shí)間從幾周縮短到幾分鐘。

整體來(lái)看,這篇論文的貢獻(xiàn)是提出了一種面向復(fù)雜視覺論文的領(lǐng)域?qū)S?paper-to-code 框架,目標(biāo)是降低 NeRF 研究復(fù)現(xiàn)和二次開發(fā)的門檻。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

如果說(shuō) NERFIFY 試圖降低研究復(fù)現(xiàn)和二次開發(fā)的成本,那么 OLATverse 則是在數(shù)據(jù)層面為逆渲染、重光照和新視角合成等任務(wù)補(bǔ)足基礎(chǔ)設(shè)施。

由馬克斯?普朗克信息學(xué)研究所和南京大學(xué)共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新視角合成和法線估計(jì)的真實(shí)物體數(shù)據(jù)集構(gòu)建問題。

作者指出,現(xiàn)有很多方法仍然依賴合成數(shù)據(jù)訓(xùn)練,或者只能在小規(guī)模真實(shí)數(shù)據(jù)上評(píng)估,導(dǎo)致模型在真實(shí)場(chǎng)景中的材質(zhì)、光照和幾何泛化能力受限。為了解決這個(gè)問題,論文提出了 OLATverse,一個(gè)大規(guī)模真實(shí)物體數(shù)據(jù)集,包含 765 個(gè)真實(shí)物體,并在多視角和精確可控光照條件下采集圖像。

這篇論文的亮點(diǎn)在于,它同時(shí)兼顧了真實(shí)物體規(guī)模、光照控制精度和輔助標(biāo)注質(zhì)量。數(shù)據(jù)采集使用 lightstage 系統(tǒng),每個(gè)物體由 35 個(gè)校準(zhǔn)相機(jī)拍攝,并由 331 個(gè)可控光源照明,支持 OLAT、環(huán)境光、均勻光和梯度光等多種光照設(shè)置。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

論文地址:https://arxiv.org/pdf/2511.02483v3

同時(shí)數(shù)據(jù)集中還提供相機(jī)參數(shù)、物體 mask、表面法線和 diffuse albedo 等信息。相比以往很多數(shù)據(jù)集只強(qiáng)調(diào)物體數(shù)量,或者只在少量物體上做精細(xì)光照采集,OLATverse 的價(jià)值在于把“大規(guī)模真實(shí)物體”和“高精度可控光照”結(jié)合起來(lái)。雷峰網(wǎng)

整體來(lái)看,這篇論文的貢獻(xiàn)是:提供了一個(gè)更貼近真實(shí)世界的高質(zhì)量物體外觀數(shù)據(jù)資源,讓模型可以更可靠地學(xué)習(xí)材質(zhì)、幾何和光照之間的關(guān)系。它不僅可以用于訓(xùn)練重光照和生成式先驗(yàn),也可以作為逆渲染、新視角合成、法線估計(jì)等任務(wù)的綜合 benchmark。

論文也提到,目前數(shù)據(jù)中的法線和反照率還不是嚴(yán)格意義上的真實(shí) ground truth,且沒有提供真實(shí) mesh,但作為真實(shí)世界物體外觀和可控光照數(shù)據(jù)集,它對(duì)后續(xù) 3D 視覺和圖形學(xué)研究仍然很有價(jià)值。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2026 3D 視覺前沿梳理:模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)