港科廣陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內(nèi) 3D 空間丨CVPR 2026

本文作者：鄭佳美

2026-05-12 15:43

導語：LegoOcc：無需語義體素標注，也能識別開放類別。

港科廣陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內(nèi) 3D 空間丨CVPR 2026

LegoOcc：無需語義體素標注，也能識別開放類別。

作者丨鄭佳美

編輯丨岑峰

真正的室內(nèi)空間智能，并不只是讓機器認出畫面里有一張桌子，而是讓它理解真實三維物理空間內(nèi)：哪里可以通行、哪里存在遮擋、哪些物體能夠交互。

對于未來的家庭機器人和護理機器人來說，理解一個房間并不只是完成圖像分類。它意味著，機器人能夠根據(jù)一句自然語言找到玄關(guān)柜旁的雨傘，能夠在夜間識別走廊中的充電線是否可能絆倒老人，也能夠在廚房中理解臺面、水杯與邊緣之間的空間關(guān)系，并在陌生環(huán)境中快速建立可行動的三維空間認知。

但室內(nèi)環(huán)境，恰恰是 3D 感知最難落地的場景之一。相比之下，自動駕駛雖然復雜，卻仍然擁有相對穩(wěn)定的道路結(jié)構(gòu)與交通參與者，而室內(nèi)空間更像一個持續(xù)變化的開放世界。物體擺放隨時可能變化，遮擋關(guān)系更密集，許多目標并不屬于數(shù)據(jù)集中預定義的類別。如果希望模型真正理解三維空間，通常需要昂貴的 3D 語義標注，即在空間中逐點或逐體素標注每個位置屬于什么物體。這種高昂成本，很難支撐家庭、辦公與公共室內(nèi)場景的機器人大規(guī)模部署。

在這樣的背景下，香港科技大學（廣州）陳昶昊團隊提出了 LegoOcc，該成果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 接收，并入選大會口頭報告。

這項研究關(guān)注更接近真實應用的問題：僅使用一張普通室內(nèi) RGB 圖像，不依賴多視角圖像或激光雷達，也不使用 3D 語義標簽，依然能夠預測空間中的占用情況，并進一步支持基于自然語言的開放類別查詢。

換句話說，LegoOcc 解決的，不再是讓機器在固定類別中“做選擇”，而是讓機器真正開始“理解房間”，并把人的語言映射到三維空間中的具體目標。對于家庭機器人、輔助機器人以及 AR / VR 設(shè)備等應用，這意味著室內(nèi)感知正在從“看見物體”，邁向“理解空間”。

論文地址：https://arxiv.org/pdf/2602.22667

少標注，強理解

leu'feng'wa的核心思想是：在完全不使用 3D 語義體素標注、僅使用幾何占用標簽的情況下，模型依然能夠?qū)崿F(xiàn)高質(zhì)量的室內(nèi)單目開放詞匯 3D 占用預測。模型輸入只有一張普通 RGB 圖像，不依賴多視角圖像、深度圖或激光雷達點云；“3D 占用預測”關(guān)注的是室內(nèi)空間中每個小立方體（體素）是否被墻體、桌椅、地板等物體占據(jù)；而“開放詞匯”則進一步要求模型突破固定類別限制，不僅能識別椅子、桌子、墻等常見類別，還能夠根據(jù)自然語言查詢鞋子、紙、垃圾桶、包等更加自由的長尾物體。

該研究在 Occ-ScanNet 數(shù)據(jù)集驗證：每個樣本對應一個局部 3D 空間，模型需要同時預測空間占用與語義類別。LegoOcc 在開放詞匯設(shè)置下達到 59.50 IoU 與 21.05 mIoU，其中：IoU 體現(xiàn)幾何占用預測能力，即模型是否知道“哪里有東西”； mIoU 體現(xiàn)語義預測能力，即模型是否知道“這些位置是什么”。

相比開放詞匯基線方法，POP-3D的35.32 IoU / 5.96 mIoU 和LOcc：36.70 IoU / 9.25 mIoU。LegoOcc 同時提升幾何結(jié)構(gòu)預測和開放詞匯語義理解能力，尤其 mIoU 從 9.25 提升到 21.05，說明模型的語義識別能力獲得了較大突破。雷峰網(wǎng)

研究團隊還將 LegoOcc 與 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等閉集方法進行了比較。這些閉集方法使用完整語義體素標注訓練，其中表現(xiàn)較強的 RoboOcc 達到 56.48 IoU 與 47.76 mIoU。雖然 LegoOcc 的 mIoU 仍低于 RoboOcc，但它在完全不使用 3D 語義標簽的前提下，實現(xiàn)了超過所有閉集方法的 59.50 IoU。這說明，LegoOcc 在“空間哪里被占據(jù)”這一核心幾何問題上已經(jīng)非常強，而開放詞匯 3D 語義理解本身仍然是一個極具挑戰(zhàn)性的任務。

原因在于，室內(nèi)類別天然更加細碎且邊界模糊。椅子、沙發(fā)、其他家具等類別本身就容易混淆；開放詞匯模型依賴 3D 特征與文本特征對齊，其類別邊界不如閉集分類器穩(wěn)定，同時還會受到2D 開放詞匯分割質(zhì)量、遮擋關(guān)系、投影誤差和單目深度歧義等因素影響。

兩個關(guān)鍵設(shè)計

消融實驗進一步說明，LegoOcc 的性能提升主要來自兩個關(guān)鍵設(shè)計。

第一個關(guān)鍵設(shè)計，是高斯分布到體素占用（Poisson-based Gaussian-to-Occupancy）的轉(zhuǎn)換方法。GaussianFormer2 在開放詞匯訓練下幾乎直接失敗，結(jié)果為 0.00 的交并比與 0.00 的平均交并比。原因在于，它沒有充分利用高斯分布的透明度信息。伯努利方法雖然引入了透明度，性能提升至 46.65 的交并比與 17.25 的平均交并比，但在多個高斯分布重疊時，透明度仍然容易被平均化，導致語義特征對齊不穩(wěn)定。提出的基于泊松分布的高斯到占用轉(zhuǎn)換方法，最終達到 59.50 的交并比與 21.05 的平均交并比。將每個高斯分布視為空間中的一種占用證據(jù)，多個高斯分布的證據(jù)能夠自然累積，共同決定某個位置是否被占據(jù)。相比簡單疊加或平均，這種方式更穩(wěn)定地解決二值幾何監(jiān)督下的三維占用轉(zhuǎn)換問題。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

第二個關(guān)鍵設(shè)計，是漸進式溫度衰減策略（Progressive Temperature Decay）。問題來源于語義特征混合，在三維高斯分布渲染到二維圖像時，同一條視線上往往同時包含椅子邊緣、桌腿、墻面背景等多個結(jié)構(gòu)。如果直接進行加權(quán)融合，不同物體的語義會相互混雜。實驗表明，溫度始終較高時，訓練雖然穩(wěn)定，但語義混合嚴重；一開始就使用低溫會導致訓練直接崩潰；而訓練階段高溫、測試階段低溫，則會因為訓練與測試不一致導致性能下降。效果最好的是指數(shù)式溫度衰減，最終達到 59.50 的交并比與 21.05 的平均交并比。這意味著模型需要先穩(wěn)定學習場景結(jié)構(gòu)與語義對齊，再逐漸減少特征混合，讓每個高斯分布更加明確地對應具體物體或區(qū)域。

LegoOcc 的推理效率

在單張 RTX 4090 顯卡上，LegoOcc 達到每秒 22.47 幀，而 ISO 為每秒 3.81 幀，EmbodiedOcc 為每秒 11.48 幀，POP-3D 為每秒 10.21 幀，LOcc 為每秒 8.93 幀。

LegoOcc不僅依賴復雜后處理或多階段推理，而是借助緊湊的三維高斯表示，在速度與準確率之間取得了良好平衡?？梢暬Y(jié)果同樣支持這一點。相比 LOcc，LegoOcc 對墻體、地板、家具、桌椅等結(jié)構(gòu)的三維預測更加完整，空間結(jié)構(gòu)更加連續(xù)。

在開放詞匯查詢中，模型還能根據(jù)背包、自行車、窗簾、鞋子、紙張、垃圾桶等自然語言類別，在三維空間中定位對應物體，而這些類別并不一定屬于 Occ-ScanNet 固定定義的 11 個語義類別。因此，LegoOcc 不僅提升數(shù)據(jù)集指標，而是讓模型更接近自然語言驅(qū)動的三維場景理解。

傳統(tǒng)方法的兩個局限

第一個限制是“閉集類別”問題，也就是模型只能識別訓練數(shù)據(jù)中預先定義好的類別。例如，在 Occ-ScanNet 數(shù)據(jù)集中，主要評估的類別包括天花板、地板、墻壁、窗戶、椅子、床、沙發(fā)、桌子、電視、家具以及雜項物體等。但真實室內(nèi)環(huán)境遠比數(shù)據(jù)集復雜，還存在書包、鞋子、垃圾桶、紙張、遙控器、衣服、玩具等大量長尾物體，而這些目標往往并不在固定類別列表中。

第二個限制是對昂貴三維語義標注的依賴。傳統(tǒng)三維語義占用模型通常需要知道每一個三維體素具體屬于什么類別。然而，室內(nèi)環(huán)境中的物體往往高度密集、遮擋嚴重、類別繁多，如果采用人工逐點或逐體素標注，成本極高，也很難擴展到大規(guī)模真實場景。

因此，研究團隊采用更符合實際應用的訓練方式：訓練階段只使用二值占用標簽，僅告訴模型“這里是否有物體”，而不提供具體語義類別。模型的語義能力則通過開放詞匯二維分割模型與語言特征對齊來獲得。

雖然訓練階段不使用語義體素標簽，但在評估階段，仍然會利用語義標簽檢驗模型是否能夠正確識別空間中的物體類別。評估主要采用兩個指標：交并比用于衡量占用預測能力，即模型是否知道“哪里有東西”；平均交并比則用于衡量語義預測能力，即模型是否知道“這些位置分別屬于什么類別”。

帶語言特征的三維高斯表示

LegoOcc 的核心中間表示是帶語言特征的三維高斯表示，這里的三維高斯不僅是空間點或模糊橢球，而同時攜帶幾何信息與語言語義信息。

幾何信息包括它在三維空間中的位置、形狀、大小以及透明度，用于判斷空間中哪些區(qū)域被物體占據(jù)；語言語義信息則是一個能夠與文本特征對齊的向量，用于支持開放詞匯查詢。幾何與語義被統(tǒng)一綁定在同一個三維表示之中。模型不再是“先預測三維結(jié)構(gòu)、再額外貼語義標簽”，而是在每個三維高斯中同時保存“它在哪里”以及“它可能代表什么”。

傳統(tǒng)的“高斯到占用”方法容易出現(xiàn)兩個問題。首先，幾何分支沒有充分利用透明度，而語義渲染過程卻依賴透明度信息，導致幾何學習與語義學習之間存在不一致；其次，室內(nèi)場景中的物體十分密集，多個高斯可能同時影響同一個體素，如果簡單疊加貢獻，容易出現(xiàn)飽和或訓練不穩(wěn)定的問題。

為此，研究團隊提出基于泊松建模的高斯到占用轉(zhuǎn)換方法。該方法將每個高斯對空間位置的影響理解為一種“這里可能存在物體”的證據(jù)，一個位置是否被占據(jù)，由所有相關(guān)高斯的證據(jù)共同決定。這樣不僅能夠更自然地處理多個高斯重疊的問題，也能夠讓透明度真正參與幾何占用判斷。訓練過程中，幾何分支采用二值占用監(jiān)督，并結(jié)合占用損失與深度約束，使模型能夠?qū)W習穩(wěn)定的三維空間結(jié)構(gòu)。

不依賴三維語義標注的語義學習

語義分支的目標，是讓每個高斯的語言特征能夠與文本類別實現(xiàn)對齊。

研究團隊并沒有使用人工標注的三維語義標簽，而是借助已經(jīng)訓練好的開放詞匯二維分割模型，從圖像中提取語言對齊的語義特征。研究中采用了類似 Trident 的開放詞匯分割模型。

LegoOcc 先從輸入圖像預測帶語言特征的三維高斯，再將這些高斯的語義特征重新渲染回二維圖像平面，從而得到每個像素位置上的渲染語義特征。隨后，再利用開放詞匯二維分割模型從原始圖像中提取語言對齊的二維特征，并讓兩者盡可能保持一致。這樣，模型便能夠借助二維視覺語言模型獲得語義監(jiān)督，而無需人工為每個三維體素逐一標注類別。

漸進式溫度衰減

室內(nèi)場景中容易出現(xiàn)“特征混合”問題。比如，一張圖像中可能同時包含桌子、椅子、墻壁和地板。某個像素從二維圖像上看主要屬于椅子，但沿著視線進入三維空間后，可能會同時經(jīng)過椅子邊緣、桌腿以及背景墻面等多個結(jié)構(gòu)。在渲染過程中，多個高斯的語義特征會被加權(quán)融合到同一個像素中。如果直接利用這種混合特征去對齊二維開放詞匯特征，模型雖然能夠讓最終結(jié)果“看起來像椅子”，卻無法保證真正屬于椅子的那些高斯本身學到了清晰的椅子語義。最終映射回三維空間時，語義邊界就會變得模糊。

為了緩解特征混合問題，研究團隊提出漸進式溫度衰減的策略，用于控制高斯渲染時特征融合的軟硬程度。在訓練初期，模型尚未學好幾何結(jié)構(gòu)與語義特征。如果一開始就讓每個高斯的貢獻非常尖銳，訓練過程會變得不穩(wěn)定，梯度也可能難以優(yōu)化。因此，早期需要采用較平滑的特征融合方式，讓模型先學習整體場景結(jié)構(gòu)。而到了訓練后期，模型已經(jīng)具備較穩(wěn)定的幾何基礎(chǔ)。如果仍然保持過于平滑的融合，不同物體的語義就會持續(xù)混雜。因此，需要逐漸降低溫度，讓重要高斯的貢獻更加突出，不相關(guān)高斯的影響進一步減弱，從而讓每個高斯對應的語義更加清晰。

研究團隊比較了多種策略，包括不使用溫度衰減、固定低溫度、線性衰減以及指數(shù)衰減。實驗結(jié)果表明，指數(shù)式溫度衰減效果最好，因為它能夠讓模型在低溫階段停留更長時間，從而更充分地學習每個高斯對應的清晰語義。

從固定識別到自然交互

訓練完成后，LegoOcc 可以直接進行自然語言查詢。推理階段，模型首先從單張室內(nèi)圖像預測帶語言特征的三維高斯表示，再進一步生成三維占用空間。對于每一個被占據(jù)的位置，系統(tǒng)都會保留對應的語言對齊特征。當用戶輸入一個文本類別，例如“紙張”或“鞋子”時，系統(tǒng)會先將文本轉(zhuǎn)換成語言特征，再與三維空間中的特征進行匹配。匹配程度越高的位置，就越有可能屬于對應類別。開放詞匯的類別并不是固定寫死在模型最后一層分類器中的，而是通過文本特征動態(tài)查詢得到。因此，模型能夠處理訓練階段沒有明確出現(xiàn)在固定類別表中的物體。

LegoOcc 證明，室內(nèi)場景同樣能夠?qū)崿F(xiàn)開放詞匯三維占用預測。這對于服務機器人、家庭機器人、增強現(xiàn)實 / 虛擬現(xiàn)實以及室內(nèi)導航等方向，都具有重要意義。對于普通用戶而言，這意味著未來的機器人不再只是“識別固定類別”，而是真正能夠理解人的自然語言。它可以根據(jù)一句話找到地上的紙、桌子旁邊的背包、椅子后面的鞋子，也能夠在收納、找物、避障、陪護以及室內(nèi)導航等任務中更加實用。

這項研究顯著降低了三維語義理解的訓練成本。相比二維圖像標注，三維語義標注需要在空間中逐點或逐體素進行類別標注，工作量更大，而室內(nèi)物體類別又高度長尾，很難依靠人工窮盡。LegoOcc 通過“二值占用學習幾何 + 二維開放詞匯模型提供語義監(jiān)督”的方式，使未來構(gòu)建大規(guī)模三維語義理解系統(tǒng)的成本顯著降低。

當然，這項研究仍然存在一定局限。例如，其語義平均交并比仍低于使用完整語義監(jiān)督的閉集方法，說明開放詞匯三維語義對齊仍不夠精確。模型還依賴二維開放詞匯分割模型的質(zhì)量，而單目輸入本身也存在深度歧義。此外，不同文本提示詞，例如“椅子”“座椅”“辦公椅”等，可能影響最終查詢結(jié)果的穩(wěn)定性。

LegoOcc推動室內(nèi)三維理解從固定類別識別，進一步邁向更加靈活、更加自然的語言交互，為未來真正實用的家庭機器人、輔助設(shè)備以及增強現(xiàn)實 / 虛擬現(xiàn)實系統(tǒng)提供了重要基礎(chǔ)。

LegoOcc 背后的研究者

第一作者：周常青，香港科技大學（廣州）博士生，致力于高效且穩(wěn)定的三維場景理解方法研究，當前重點關(guān)注端到端軌跡生成模型，以及面向?qū)Ш饺蝿盏母咝澜缒Ｐ蜆?gòu)建。

通訊作者：陳昶昊，香港科技大學（廣州）智能交通學域和人工智能學域助理教授，副研究員，博士生導師，擔任香港科技大學（清水灣校區(qū)）跨學科學院聯(lián)署助理教授。

獲英國牛津大學計算機科學博士學位，并在英國工程和自然科學研究委員會（EPSRC）資助下從事博士后研究。擔任香港科技大學（廣州）具身智能PEAK實驗室獨立PI.

其研究聚焦具身智能和自主無人系統(tǒng)前沿探索，致力于構(gòu)建開放環(huán)境交互的具身智能體，服務低空經(jīng)濟、智能交通和智慧城市。

先后入選全球前2%頂尖科學家榜單、中國科協(xié)青年人才托舉工程和國際機器人科學與系統(tǒng)大會先鋒者，主持國家自然科學基金面上、青年以及省教育廳重點等縱向項目7項。

在NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L等人工智能、機器人和智能交通領(lǐng)域高水平期刊和頂級會議上發(fā)表論文50余篇，谷歌學術(shù)引用超過3800次。

國際機器人與自動化會議（ICRA）和IEEE機器人與自動化快報（RA-L）副編輯（Associate Editor），中國自動化學會機器人專委會和具身智能專委會委員。已授權(quán)國家發(fā)明專利、國際PCT專利、美國、歐洲、澳大利亞專利共14項，包含1項在英國成功成果轉(zhuǎn)化。

港科廣陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內(nèi) 3D 空間丨CVPR 2026

參考鏈接：https://changhao-chen.github.io/ 港科廣陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內(nèi) 3D 空間丨CVPR 2026

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當月熱門文章

港科廣陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內(nèi) 3D 空間丨CVPR 2026

少標注，強理解

兩個關(guān)鍵設(shè)計

LegoOcc 的推理效率

傳統(tǒng)方法的兩個局限

帶語言特征的三維高斯表示

不依賴三維語義標注的語義學習

漸進式溫度衰減

從固定識別到自然交互

LegoOcc 背后的研究者

少標注，強理解