CVPR 2026 3D 視覺前沿梳理：模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

本文作者：鄭佳美

2026-05-12 15:41

導(dǎo)語(yǔ)：3D 視覺正從重建生成，走向空間理解、動(dòng)態(tài)模擬與工程化應(yīng)用。

CVPR 2026 3D 視覺前沿梳理：模型正在學(xué)會(huì)理解、生成和構(gòu)建世界

3D 視覺正從重建生成，走向空間理解、動(dòng)態(tài)模擬與工程化應(yīng)用。

作者丨鄭佳美

編輯丨岑峰

如果說(shuō)過(guò)去幾年的視覺 AI 主要是在回答“模型能不能看懂一張圖”，那么到 CVPR 2026，一個(gè)更清晰的趨勢(shì)正在浮現(xiàn)：模型正在被要求理解圖像背后的三維世界。

二維圖像只是現(xiàn)實(shí)世界在某個(gè)視角下的投影，真正困難的地方不在于生成一張看起來(lái)合理的畫面，而在于模型能否理解物體的空間結(jié)構(gòu)、相機(jī)運(yùn)動(dòng)、材質(zhì)光照、物理變化，以及這些信息在不同視角和不同時(shí)間中的一致性。

從今年的一系列 3D 視覺相關(guān)工作可以看到，研究重點(diǎn)正在從“生成結(jié)果是否好看”，轉(zhuǎn)向“生成過(guò)程是否具備空間邏輯”。

有的工作試圖通過(guò)自監(jiān)督 3D 重建，讓模型在沒有顯式標(biāo)注的情況下學(xué)習(xí)幾何關(guān)系；有的工作繞過(guò)傳統(tǒng)重建流程，直接利用 3D-aware 特征實(shí)現(xiàn)實(shí)時(shí)新視角合成；也有工作進(jìn)一步把 3D 表示擴(kuò)展到 4D 動(dòng)態(tài)生成，讓物體不僅有形狀和外觀，還能表現(xiàn)出符合物理規(guī)律的運(yùn)動(dòng)。

同時(shí)，單圖 3D 重建、真實(shí)感 3D 生成、關(guān)鍵點(diǎn)長(zhǎng)期追蹤、像素級(jí)預(yù)訓(xùn)練、真實(shí)世界數(shù)據(jù)集和自動(dòng)化代碼工具鏈，也都在從不同層面補(bǔ)齊 3D 視覺的基礎(chǔ)能力。

這些工作共同指向一個(gè)更深層的變化：3D 視覺不再只是計(jì)算機(jī)圖形學(xué)或三維重建中的一個(gè)技術(shù)分支，而是在成為通向空間智能的重要路徑。

模型要進(jìn)入真實(shí)世界，就不能只學(xué)習(xí)圖像表面的紋理和語(yǔ)義，而必須理解“物體在哪里、是什么形狀、如何運(yùn)動(dòng)、在不同條件下如何保持一致”。從某種意義上說(shuō)，CVPR 2026 的這些工作進(jìn)一步加強(qiáng)了行業(yè)此前的認(rèn)知：視覺 AI 正在從二維感知走向三維理解，從圖像生成走向世界建模。

從看懂 3D 到生成 4D

3D 視覺研究的一個(gè)核心問題，是如何讓模型真正理解空間結(jié)構(gòu)，而不是只在圖像層面學(xué)習(xí)紋理和相似性。

由 CMU、Adobe 研究院和哈佛大學(xué)共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是從這個(gè)問題出發(fā)，研究如何在沒有 3D 標(biāo)注、相機(jī)位姿或深度監(jiān)督的情況下，讓模型僅通過(guò)多視角圖像學(xué)習(xí) 3D 空間理解能力。

作者提出了 E-RayZer 這一自監(jiān)督 3D 視覺預(yù)訓(xùn)練方法：模型會(huì)輸入同一場(chǎng)景的多張圖片，自動(dòng)估計(jì)相機(jī)參數(shù)，并構(gòu)建顯式的 3D Gaussians 場(chǎng)景表示，再通過(guò)可微渲染生成目標(biāo)視角圖像，最后利用渲染結(jié)果與真實(shí)圖像之間的差異來(lái)訓(xùn)練模型。這樣一來(lái)，模型不只是學(xué)習(xí)圖像之間的相似性，而是需要真正理解相機(jī)、幾何結(jié)構(gòu)和多視角空間關(guān)系。

論文地址：https://arxiv.org/pdf/2512.10950

這篇論文的亮點(diǎn)在于，它把自監(jiān)督學(xué)習(xí)和顯式 3D 重建結(jié)合起來(lái)，使模型能夠在不依賴 3D 標(biāo)注的情況下學(xué)習(xí)空間表征。相比一些只在隱式特征空間中做視角合成的方法，E-RayZer 使用 3D Gaussians 直接建模場(chǎng)景，因此幾何意義更強(qiáng)，也更適合學(xué)習(xí)真實(shí)的 3D 結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果表明，這種預(yù)訓(xùn)練方式在相機(jī)位姿估計(jì)、深度估計(jì)和新視角合成等任務(wù)上都有較好的表現(xiàn)，說(shuō)明模型通過(guò)“自己重建 3D 場(chǎng)景”的訓(xùn)練過(guò)程，確實(shí)學(xué)到了有用的空間視覺能力。

E-RayZer 選擇用顯式 3D 重建來(lái)逼迫模型學(xué)習(xí)空間結(jié)構(gòu)，但在實(shí)際的新視角合成任務(wù)中，顯式重建并不是唯一選擇。另一條思路是：如果模型已經(jīng)具備足夠強(qiáng)的 3D-aware 特征，是否可以跳過(guò)復(fù)雜的顯式建模過(guò)程，直接用神經(jīng)網(wǎng)絡(luò)生成目標(biāo)視角畫面。

而由牛津大學(xué)視覺幾何組、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了這個(gè)方向。

它關(guān)注的是 Novel View Synthesis（新視角合成），也就是給定一個(gè)場(chǎng)景的若干輸入圖像，讓模型生成從新相機(jī)視角看到的畫面。傳統(tǒng)方法通常需要先重建顯式 3D 場(chǎng)景，比如 NeRF 或 3D Gaussians，再進(jìn)行渲染；而這篇論文提出的 LagerNVS 選擇繞過(guò)顯式 3D 重建，直接用神經(jīng)網(wǎng)絡(luò)從輸入圖像和目標(biāo)相機(jī)視角生成新視角圖像。

論文地址：https://arxiv.org/pdf/2603.20176v2

它的核心想法是：雖然模型不直接輸出顯式 3D 結(jié)構(gòu)，但仍然應(yīng)該引入強(qiáng) 3D 先驗(yàn)。具體來(lái)說(shuō)，LagerNVS 使用一個(gè)從 3D 重建網(wǎng)絡(luò)初始化而來(lái)的編碼器來(lái)提取帶有 3D 感知能力的 latent features，再配合輕量級(jí)解碼器根據(jù)目標(biāo)相機(jī)視角生成圖像。

這樣既保留了 3D 結(jié)構(gòu)信息帶來(lái)的幾何理解能力，又避免了傳統(tǒng) 3D 重建和渲染流程的復(fù)雜性。這篇論文的亮點(diǎn)在于，它證明了即使是不顯式重建 3D 場(chǎng)景的新視角合成模型，也能明顯受益于 3D-aware 特征。

實(shí)驗(yàn)中，LagerNVS 在確定性 feed-forward 新視角合成上取得了很強(qiáng)的效果，例如在 RealEstate10K 上達(dá)到 31.4 PSNR，并且可以在有相機(jī)參數(shù)或無(wú)相機(jī)參數(shù)的情況下工作；模型還支持實(shí)時(shí)渲染，在單張 H100 GPU 上可達(dá)到 30 FPS 以上。

如果說(shuō) E-RayZer 和 LagerNVS 主要處理的是靜態(tài)場(chǎng)景中的空間理解與視角生成，那么更進(jìn)一步的問題是：模型能否不僅生成 3D 外觀，還生成符合物理規(guī)律的動(dòng)態(tài)變化。

北京理工大學(xué)、理想汽車、哈爾濱工業(yè)大學(xué)和四川大學(xué)聯(lián)合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把關(guān)注點(diǎn)從靜態(tài) 3D 擴(kuò)展到動(dòng)態(tài) 4D。

它研究的是如何從單張圖像快速生成帶有物理規(guī)律的動(dòng)態(tài) 4D 場(chǎng)景，也就是不僅要重建物體的 3D 外觀，還要讓它在運(yùn)動(dòng)、變形、受力時(shí)表現(xiàn)得更符合真實(shí)物理?，F(xiàn)有很多方法通常需要先用多視角圖像重建 3D Gaussian Splatting，再手動(dòng)設(shè)置剛度、質(zhì)量等物理參數(shù)，或者通過(guò)視頻模型進(jìn)行耗時(shí)的逐場(chǎng)景優(yōu)化。

而 PhysGM 希望用一次前向推理，直接預(yù)測(cè)物體的 3D Gaussian 表示和對(duì)應(yīng)的物理屬性，從而快速初始化物理模擬并生成高質(zhì)量動(dòng)態(tài)渲染結(jié)果。

論文地址：https://arxiv.org/pdf/2508.13911v4

這篇論文的亮點(diǎn)在于，它把 3D Gaussian 重建和物理屬性預(yù)測(cè)放到同一個(gè) feed-forward 框架中，不再把幾何重建和物理模擬分成兩個(gè)獨(dú)立步驟。模型會(huì)從輸入圖像中推斷物體的外觀、幾何以及材料屬性，例如剛度、密度等，再結(jié)合 MPM 物理模擬生成動(dòng)態(tài)序列。

作者還使用 DPO 對(duì)模型進(jìn)行偏好優(yōu)化，讓生成結(jié)果更接近物理合理的參考視頻，同時(shí)避免傳統(tǒng) SDS 方法中昂貴且不穩(wěn)定的逐場(chǎng)景優(yōu)化。整體來(lái)看，這篇論文的貢獻(xiàn)是：讓模型從單張圖像出發(fā)，在較短時(shí)間內(nèi)生成既有真實(shí)外觀、又具備物理運(yùn)動(dòng)規(guī)律的 4D Gaussian 場(chǎng)景，提升了物理驅(qū)動(dòng) 4D 內(nèi)容生成的效率和實(shí)用性。

動(dòng)態(tài)場(chǎng)景生成強(qiáng)調(diào)的是物體如何運(yùn)動(dòng)和變化，而在真實(shí)應(yīng)用中，另一個(gè)基礎(chǔ)需求是把普通自然圖像中的物體直接轉(zhuǎn)成可用的 3D 表示。Meta 超級(jí)智能實(shí)驗(yàn)室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是從單張自然圖像中進(jìn)行 3D 物體重建：

模型不僅要恢復(fù)物體的幾何形狀，還要預(yù)測(cè)紋理、姿態(tài)和在場(chǎng)景中的布局。相比只在干凈物體圖或合成數(shù)據(jù)上表現(xiàn)較好的方法，SAM 3D 更強(qiáng)調(diào)真實(shí)場(chǎng)景中的應(yīng)用，例如物體被遮擋、背景雜亂、尺寸較小或姿態(tài)異常時(shí)，仍然能夠根據(jù)圖像上下文生成較完整的 3D 結(jié)果。

論文地址：https://arxiv.org/pdf/2511.16624

它把大規(guī)模數(shù)據(jù)引擎和生成式 3D 重建模型結(jié)合起來(lái)。作者通過(guò) human- and model-in-the-loop 的流程標(biāo)注物體形狀、紋理和姿態(tài)，構(gòu)建了大規(guī)模視覺對(duì)齊的 3D 重建數(shù)據(jù)，再用多階段訓(xùn)練方式把合成預(yù)訓(xùn)練和真實(shí)世界對(duì)齊結(jié)合起來(lái)，試圖突破 3D 數(shù)據(jù)不足的問題。

實(shí)驗(yàn)中，SAM 3D 相比已有方法在真實(shí)物體和場(chǎng)景的人類偏好評(píng)測(cè)中取得了至少 5:1 的勝率，并且論文還計(jì)劃發(fā)布代碼、模型權(quán)重、在線 demo 和新的野外 3D 重建 benchmark。整體來(lái)看，這篇論文的貢獻(xiàn)是：把類似 SAM 的“開放世界視覺理解”能力推進(jìn)到 3D 重建中，讓模型可以從普通圖片中更穩(wěn)定地生成可用的 3D 物體表示。

當(dāng) 3D 生成模型逐漸能從真實(shí)圖片中恢復(fù)物體結(jié)構(gòu)后，畫面是否足夠真實(shí)就變成了新的瓶頸。很多 3D 可控生成方法依賴合成數(shù)據(jù)來(lái)獲得幾何、視角和材質(zhì)控制能力，但合成數(shù)據(jù)本身也容易把模型帶向“合成感”的視覺風(fēng)格。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是針對(duì)這個(gè)問題，研究如何讓 3D 生成結(jié)果同時(shí)具備真實(shí)照片級(jí)外觀和穩(wěn)定的 3D 一致性。

很多方法會(huì)用帶有標(biāo)注的合成 3D 數(shù)據(jù)去微調(diào)圖像生成模型，從而獲得視角、幾何、材質(zhì)等控制能力，但這樣容易讓模型把“有控制信號(hào)”和“合成渲染風(fēng)格”錯(cuò)誤綁定在一起，導(dǎo)致生成結(jié)果雖然可控，卻不夠真實(shí)。

Realiz3D 的目標(biāo)就是解決這個(gè)真實(shí)圖像和合成數(shù)據(jù)之間的 domain gap，讓模型既能聽從 3D 控制，又能生成更像真實(shí)照片的結(jié)果。

論文地址：https://idosobol.github.io/realiz3d/

這篇論文的核心做法是引入 Domain Shifters，也就是一組輕量級(jí)殘差適配器，用來(lái)單獨(dú)學(xué)習(xí)“真實(shí) / 合成”這種視覺域信息，而不是把視覺風(fēng)格和 3D 控制信號(hào)混在一起。訓(xùn)練時(shí)，模型先學(xué)習(xí)區(qū)分和切換真實(shí)域、合成域，再利用合成數(shù)據(jù)學(xué)習(xí)精確控制，同時(shí)通過(guò)真實(shí)數(shù)據(jù)幫助模型保持照片級(jí)外觀。

論文還結(jié)合了 layer-aware training 和 domain reassignment 等策略，讓控制能力更好地遷移到真實(shí)圖像域中。它的亮點(diǎn)在于，不是簡(jiǎn)單把真實(shí)數(shù)據(jù)和合成數(shù)據(jù)混在一起微調(diào)，而是顯式拆分“視覺真實(shí)性”和“幾何控制能力”，從而減少模型生成合成感畫面的傾向。

實(shí)驗(yàn)展示中，Realiz3D 可以用于 text-to-multiview generation 和基于 3D 輸入的紋理生成，生成結(jié)果既保持多視角一致性，又比普通微調(diào)方式更加真實(shí)。

不只拼生成，底層表征也在進(jìn)化

并不是所有 3D 視覺研究都直接以生成完整場(chǎng)景或物體為目標(biāo)。很多基礎(chǔ)工作更關(guān)心的是，模型能否學(xué)到可靠的空間表征、穩(wěn)定的局部結(jié)構(gòu)，以及能否在后續(xù) 3D 任務(wù)中提供更強(qiáng)的底層視覺能力。

由武漢大學(xué)計(jì)算機(jī)學(xué)院和小米 EV 團(tuán)隊(duì)提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 視覺系統(tǒng)中的關(guān)鍵點(diǎn)檢測(cè)問題，尤其關(guān)注 SfM、SLAM 等任務(wù)里關(guān)鍵點(diǎn)能否在連續(xù)多幀圖像中長(zhǎng)期穩(wěn)定地被追蹤。

作者認(rèn)為，很多現(xiàn)有方法主要基于圖像對(duì)訓(xùn)練，只優(yōu)化兩張圖之間的匹配效果，但在真實(shí)序列任務(wù)中，更重要的是關(guān)鍵點(diǎn)能不能在多視角、光照變化和運(yùn)動(dòng)模糊下持續(xù)保持穩(wěn)定。這篇論文提出的方法叫 TraqPoint，核心是把關(guān)鍵點(diǎn)檢測(cè)看成一個(gè)序列決策問題，并用強(qiáng)化學(xué)習(xí)中的 policy gradient 來(lái)直接優(yōu)化關(guān)鍵點(diǎn)的長(zhǎng)期可追蹤性。

論文鏈接：https://arxiv.org/pdf/2602.20630v3

它不再只判斷一個(gè)點(diǎn)在兩張圖里是否好匹配，而是把整段圖像序列作為環(huán)境，通過(guò) track-aware reward 獎(jiǎng)勵(lì)那些在多幀中既穩(wěn)定、又具有區(qū)分度的關(guān)鍵點(diǎn)。這樣訓(xùn)練出來(lái)的關(guān)鍵點(diǎn)更傾向于落在結(jié)構(gòu)明顯、跨視角一致性強(qiáng)的位置上。

這篇論文的亮點(diǎn)在于，它把關(guān)鍵點(diǎn)學(xué)習(xí)從“圖像對(duì)匹配”推進(jìn)到了“序列級(jí)追蹤”，更貼近 SLAM、視覺里程計(jì)和 3D 重建等實(shí)際應(yīng)用需求。實(shí)驗(yàn)結(jié)果也顯示，TraqPoint 在相對(duì)位姿估計(jì)、視覺定位、視覺里程計(jì)和 3D 重建等任務(wù)上都有較好表現(xiàn)，尤其在序列任務(wù)中能帶來(lái)更長(zhǎng)的關(guān)鍵點(diǎn)跟蹤長(zhǎng)度和更穩(wěn)定的軌跡估計(jì)。

關(guān)鍵點(diǎn)檢測(cè)強(qiáng)調(diào)的是局部結(jié)構(gòu)在多幀序列中的穩(wěn)定性，而視覺預(yù)訓(xùn)練則進(jìn)一步追問：模型要獲得通用視覺能力，究竟應(yīng)該依賴什么樣的監(jiān)督信號(hào)。FAIR 和香港大學(xué)共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身，研究的是視覺預(yù)訓(xùn)練中的一個(gè)核心問題：

模型到底應(yīng)該從哪里獲得監(jiān)督信號(hào)。相比現(xiàn)在很常見的 DINO、JEPA 等在 latent space 中學(xué)習(xí)表征的方法，這篇論文重新強(qiáng)調(diào) pixel supervision 的價(jià)值，認(rèn)為像素本身包含顏色、紋理、材質(zhì)、幾何和語(yǔ)義等多層次信息，因此直接讓模型預(yù)測(cè)被遮擋的像素，也可以學(xué)到很強(qiáng)的通用視覺表征。

這篇論文的亮點(diǎn)在于，它證明了基于像素重建的自監(jiān)督學(xué)習(xí)并沒有過(guò)時(shí)，只要任務(wù)設(shè)計(jì)和數(shù)據(jù)規(guī)模足夠好，仍然可以和當(dāng)前強(qiáng)大的 latent-space 方法競(jìng)爭(zhēng)。

論文地址：https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基礎(chǔ)上做了幾個(gè)關(guān)鍵改進(jìn)，包括使用更大的 mask block 來(lái)增加預(yù)訓(xùn)練難度、更深的 decoder 來(lái)增強(qiáng)像素重建能力、更多的 CLS token 來(lái)捕捉不同層次的全局信息，并使用約 2B 張網(wǎng)絡(luò)圖片進(jìn)行訓(xùn)練，同時(shí)通過(guò)自篩選策略減少人工數(shù)據(jù)清洗依賴。

整體來(lái)看，這篇論文的貢獻(xiàn)是：重新驗(yàn)證了像素級(jí)自監(jiān)督預(yù)訓(xùn)練的潛力。實(shí)驗(yàn)顯示，Pixio 在單目深度估計(jì)、前饋式 3D 重建、語(yǔ)義分割和機(jī)器人學(xué)習(xí)等任務(wù)上，能夠達(dá)到或超過(guò)類似規(guī)模訓(xùn)練的 DINOv3 表現(xiàn)。

它說(shuō)明直接預(yù)測(cè)像素不僅能學(xué)習(xí)低層視覺細(xì)節(jié)，也能幫助模型理解幾何、空間結(jié)構(gòu)和語(yǔ)義信息，因此可以作為 latent-space 預(yù)訓(xùn)練方法的有力替代和補(bǔ)充。

從論文到代碼，從采集到數(shù)據(jù)

模型能力的提升不僅依賴新的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo)，也依賴數(shù)據(jù)與工具鏈的完善。一方面，研究者需要更高效地復(fù)現(xiàn)已有方法并把論文轉(zhuǎn)化為可運(yùn)行代碼；另一方面，真實(shí)世界 3D 視覺任務(wù)也需要更高質(zhì)量、更可控的數(shù)據(jù)資源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》對(duì)應(yīng)的是前一個(gè)問題，研究的是如何讓大語(yǔ)言模型代理自動(dòng)把 NeRF 相關(guān)研究論文轉(zhuǎn)化成可以運(yùn)行、可以訓(xùn)練的 Nerfstudio 插件代碼。

作者指出，很多 NeRF 論文沒有公開代碼，研究者往往需要花費(fèi)很長(zhǎng)時(shí)間重新實(shí)現(xiàn)，而通用的 paper-to-code 方法在這類任務(wù)上容易生成不能運(yùn)行或訓(xùn)練效果很差的代碼，因此他們提出了 NERFIFY 這個(gè)面向 NeRF 領(lǐng)域的多智能體代碼生成框架。

它的核心思路是把論文解析、依賴恢復(fù)、代碼生成和訓(xùn)練反饋串成一個(gè)自動(dòng)化流程。系統(tǒng)先將論文內(nèi)容整理成結(jié)構(gòu)化信息，再利用 Nerfstudio 的架構(gòu)約束形成類似 CFG 的生成規(guī)則，保證生成代碼符合基本模塊接口。

隨后通過(guò) Graph-of-Thought 多智能體方式按依賴順序生成多個(gè)文件，并自動(dòng)追蹤論文引用中隱藏的關(guān)鍵組件，例如采樣器、編碼器或 proposal network；最后還會(huì)根據(jù)訓(xùn)練結(jié)果和渲染圖像中的問題進(jìn)行視覺反饋和代碼修正。

論文地址：https://arxiv.org/pdf/2603.00805

它不是簡(jiǎn)單讓模型“讀論文寫代碼”，而是把 NeRF 領(lǐng)域知識(shí)、代碼結(jié)構(gòu)約束、引用依賴恢復(fù)和視覺質(zhì)量反饋結(jié)合起來(lái)，讓生成的代碼更接近真實(shí)可用的研究實(shí)現(xiàn)。

實(shí)驗(yàn)中，NERFIFY 在 30 篇不同復(fù)雜度的 NeRF 論文上進(jìn)行評(píng)估，對(duì)于沒有公開實(shí)現(xiàn)的論文，它生成的結(jié)果可以接近專家手寫代碼的視覺質(zhì)量，同時(shí)把實(shí)現(xiàn)時(shí)間從幾周縮短到幾分鐘。

整體來(lái)看，這篇論文的貢獻(xiàn)是提出了一種面向復(fù)雜視覺論文的領(lǐng)域?qū)Ｓ?paper-to-code 框架，目標(biāo)是降低 NeRF 研究復(fù)現(xiàn)和二次開發(fā)的門檻。

如果說(shuō) NERFIFY 試圖降低研究復(fù)現(xiàn)和二次開發(fā)的成本，那么 OLATverse 則是在數(shù)據(jù)層面為逆渲染、重光照和新視角合成等任務(wù)補(bǔ)足基礎(chǔ)設(shè)施。

由馬克斯?普朗克信息學(xué)研究所和南京大學(xué)共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新視角合成和法線估計(jì)的真實(shí)物體數(shù)據(jù)集構(gòu)建問題。

作者指出，現(xiàn)有很多方法仍然依賴合成數(shù)據(jù)訓(xùn)練，或者只能在小規(guī)模真實(shí)數(shù)據(jù)上評(píng)估，導(dǎo)致模型在真實(shí)場(chǎng)景中的材質(zhì)、光照和幾何泛化能力受限。為了解決這個(gè)問題，論文提出了 OLATverse，一個(gè)大規(guī)模真實(shí)物體數(shù)據(jù)集，包含 765 個(gè)真實(shí)物體，并在多視角和精確可控光照條件下采集圖像。

這篇論文的亮點(diǎn)在于，它同時(shí)兼顧了真實(shí)物體規(guī)模、光照控制精度和輔助標(biāo)注質(zhì)量。數(shù)據(jù)采集使用 lightstage 系統(tǒng)，每個(gè)物體由 35 個(gè)校準(zhǔn)相機(jī)拍攝，并由 331 個(gè)可控光源照明，支持 OLAT、環(huán)境光、均勻光和梯度光等多種光照設(shè)置。

論文地址：https://arxiv.org/pdf/2511.02483v3

同時(shí)數(shù)據(jù)集中還提供相機(jī)參數(shù)、物體 mask、表面法線和 diffuse albedo 等信息。相比以往很多數(shù)據(jù)集只強(qiáng)調(diào)物體數(shù)量，或者只在少量物體上做精細(xì)光照采集，OLATverse 的價(jià)值在于把“大規(guī)模真實(shí)物體”和“高精度可控光照”結(jié)合起來(lái)。雷峰網(wǎng)

整體來(lái)看，這篇論文的貢獻(xiàn)是：提供了一個(gè)更貼近真實(shí)世界的高質(zhì)量物體外觀數(shù)據(jù)資源，讓模型可以更可靠地學(xué)習(xí)材質(zhì)、幾何和光照之間的關(guān)系。它不僅可以用于訓(xùn)練重光照和生成式先驗(yàn)，也可以作為逆渲染、新視角合成、法線估計(jì)等任務(wù)的綜合 benchmark。

論文也提到，目前數(shù)據(jù)中的法線和反照率還不是嚴(yán)格意義上的真實(shí) ground truth，且沒有提供真實(shí) mesh，但作為真實(shí)世界物體外觀和可控光照數(shù)據(jù)集，它對(duì)后續(xù) 3D 視覺和圖形學(xué)研究仍然很有價(jià)值。