Goal-VLA——圖像生成式VLM化身「世界模型」，實現(xiàn)零樣本機器人操作 | ICRA 2026

本文作者：陳淑瑜

2026-04-24 15:41

導(dǎo)語：新加坡國立大學(xué)邵林團(tuán)隊提出了Goal-VLA，創(chuàng)新性地將圖像生成式VLM（視覺語言模型）作為「以物體為中心的世界模型」，實現(xiàn)零樣本機器人操作

一、研究背景

視覺-語言-動作（VLA）模型是當(dāng)前具身智能的主流架構(gòu)，但主要分為兩大范式，各自面臨根本性局限：端到端VLA模型（如RT-2、OpenVLA）嚴(yán)重依賴海量的「指令-視覺-動作」成對數(shù)據(jù)進(jìn)行訓(xùn)練，數(shù)據(jù)獲取成本極高且泛化能力有限；分層模型雖通過中間目標(biāo)表示連接高層語義與底層動作，但中間目標(biāo)通常需要3D點云等精確幾何輸入，在開放環(huán)境中難以獲取。

如何在不依賴任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下，讓機器人理解語言指令并執(zhí)行復(fù)雜的操控任務(wù)，成為具身智能領(lǐng)域亟待突破的核心挑戰(zhàn)。

新加坡國立大學(xué)邵林團(tuán)隊提出了Goal-VLA，創(chuàng)新性地將圖像生成式VLM（視覺語言模型）作為「以物體為中心的世界模型」，通過物體目標(biāo)狀態(tài)表示來連接高層語義推理與底層動作控制，僅需自然語言指令和單視角RGB-D圖像即可實現(xiàn)零樣本機器人操作。

二、核心方法

Goal-VLA的核心設(shè)計是一個解耦式分層框架，將機器人操作分解為目標(biāo)推理和動作執(zhí)行兩個獨立階段。

第一階段：目標(biāo)狀態(tài)推理（Goal State Inference）

利用文本VLM（如GPT-4V）對自然語言指令進(jìn)行語義豐富和場景理解，構(gòu)建詳細(xì)的物體目標(biāo)狀態(tài)描述。隨后調(diào)用圖像生成式VLM（如DALL-E 3、Stable Diffusion）根據(jù)豐富的提示詞生成目標(biāo)場景圖像。生成的圖像直觀地展示了任務(wù)完成后物體應(yīng)處的狀態(tài)，作為「以物體為中心的世界模型」的輸出，無需任何3D幾何信息。

第二階段：空間基準(zhǔn)計算（Spatial Grounding）

將生成的目標(biāo)圖像與當(dāng)前觀測圖像進(jìn)行像素級語義特征匹配，結(jié)合深度圖信息，通過特征對應(yīng)關(guān)系求解從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的3D變換矩陣（位姿增量）。這一步驟將2D視覺推理轉(zhuǎn)化為3D空間操作指令。

第三階段：底層策略執(zhí)行（Low-level Policy）

根據(jù)計算出的目標(biāo)位姿，生成無碰撞的運動軌跡并驅(qū)動機械臂執(zhí)行。底層策略可復(fù)用現(xiàn)有的運動規(guī)劃算法，無需額外訓(xùn)練。

核心創(chuàng)新：合成-反思迭代機制

將生成的虛擬目標(biāo)圖像疊加到真實場景中進(jìn)行視覺審查——檢查目標(biāo)位姿是否物理可行（如是否超出桌面范圍、是否與其他物體碰撞）。若不可行，則自動修正描述并重新生成，形成「合成-反思」的閉環(huán)迭代。消融實驗顯示該機制將基礎(chǔ)成功率從40.0%大幅提升至88.8%。 Goal-VLA——圖像生成式VLM化身「世界模型」，實現(xiàn)零樣本機器人操作 | ICRA 2026

三、亮點總結(jié)

亮點一：無需任何任務(wù)特定微調(diào)，真正的零樣本泛化

Goal-VLA在無需針對特定任務(wù)進(jìn)行任何微調(diào)、無需任何成對動作數(shù)據(jù)的情況下，實現(xiàn)了強大的機器人操控能力。在RLBench仿真環(huán)境的59個任務(wù)上，平均成功率達(dá)59.9%，顯著優(yōu)于OpenVLA（37.6%）、Pi0（48.9%）、MOKA（37.5%）等需要大量數(shù)據(jù)訓(xùn)練的基線方法。

亮點二：真實機器人上的卓越表現(xiàn)

在真實的UFACTORY X-ARM 7機械臂上，Goal-VLA實現(xiàn)了60%的平均成功率，展示了從仿真到真實的良好遷移能力。跨物體、跨環(huán)境、跨任務(wù)的泛化測試均表現(xiàn)優(yōu)異，證明了其作為通用機器人操作框架的潛力。

亮點三：圖像生成VLM作為世界模型的新范式

Goal-VLA首次系統(tǒng)性地驗證了圖像生成式VLM可以作為機器人操作中的「世界模型」——通過生成目標(biāo)場景圖像來預(yù)測任務(wù)完成后的狀態(tài)，替代了傳統(tǒng)方法中昂貴的3D目標(biāo)表示。這一范式創(chuàng)新大幅降低了VLA模型的數(shù)據(jù)需求，為具身智能的普惠化發(fā)展開辟了新路徑。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成，更詳細(xì)信息參見兩個鏈接

原文鏈接：https://arxiv.org/abs/2506.23919

解讀來源：https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2

【封面圖片來源：網(wǎng)站名WXRedian，所有者：具身智能之心】

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章