日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機器人 正文
發(fā)私信給陳淑瑜
發(fā)送

0

Goal-VLA——圖像生成式VLM化身「世界模型」,實現(xiàn)零樣本機器人操作 | ICRA 2026

本文作者: 陳淑瑜   2026-04-24 15:41 專題:ICRA 國際機器人與自動化會議
導(dǎo)語:新加坡國立大學(xué)邵林團(tuán)隊提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,實現(xiàn)零樣本機器人操作

一、研究背景  

視覺-語言-動作(VLA)模型是當(dāng)前具身智能的主流架構(gòu),但主要分為兩大范式,各自面臨根本性局限:端到端VLA模型(如RT-2、OpenVLA)嚴(yán)重依賴海量的「指令-視覺-動作」成對數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)獲取成本極高且泛化能力有限;分層模型雖通過中間目標(biāo)表示連接高層語義與底層動作,但中間目標(biāo)通常需要3D點云等精確幾何輸入,在開放環(huán)境中難以獲取。

如何在不依賴任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下,讓機器人理解語言指令并執(zhí)行復(fù)雜的操控任務(wù),成為具身智能領(lǐng)域亟待突破的核心挑戰(zhàn)。

新加坡國立大學(xué)邵林團(tuán)隊提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,通過物體目標(biāo)狀態(tài)表示來連接高層語義推理與底層動作控制,僅需自然語言指令和單視角RGB-D圖像即可實現(xiàn)零樣本機器人操作。

Goal-VLA——圖像生成式VLM化身「世界模型」,實現(xiàn)零樣本機器人操作 | ICRA 2026 二、核心方法

  Goal-VLA的核心設(shè)計是一個解耦式分層框架,將機器人操作分解為目標(biāo)推理和動作執(zhí)行兩個獨立階段。

第一階段:目標(biāo)狀態(tài)推理(Goal State Inference)

利用文本VLM(如GPT-4V)對自然語言指令進(jìn)行語義豐富和場景理解,構(gòu)建詳細(xì)的物體目標(biāo)狀態(tài)描述。隨后調(diào)用圖像生成式VLM(如DALL-E 3、Stable Diffusion)根據(jù)豐富的提示詞生成目標(biāo)場景圖像。生成的圖像直觀地展示了任務(wù)完成后物體應(yīng)處的狀態(tài),作為「以物體為中心的世界模型」的輸出,無需任何3D幾何信息。

第二階段:空間基準(zhǔn)計算(Spatial Grounding)

將生成的目標(biāo)圖像與當(dāng)前觀測圖像進(jìn)行像素級語義特征匹配,結(jié)合深度圖信息,通過特征對應(yīng)關(guān)系求解從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的3D變換矩陣(位姿增量)。這一步驟將2D視覺推理轉(zhuǎn)化為3D空間操作指令。

第三階段:底層策略執(zhí)行(Low-level Policy)

根據(jù)計算出的目標(biāo)位姿,生成無碰撞的運動軌跡并驅(qū)動機械臂執(zhí)行。底層策略可復(fù)用現(xiàn)有的運動規(guī)劃算法,無需額外訓(xùn)練。

核心創(chuàng)新:合成-反思迭代機制

將生成的虛擬目標(biāo)圖像疊加到真實場景中進(jìn)行視覺審查——檢查目標(biāo)位姿是否物理可行(如是否超出桌面范圍、是否與其他物體碰撞)。若不可行,則自動修正描述并重新生成,形成「合成-反思」的閉環(huán)迭代。消融實驗顯示該機制將基礎(chǔ)成功率從40.0%大幅提升至88.8%。Goal-VLA——圖像生成式VLM化身「世界模型」,實現(xiàn)零樣本機器人操作 | ICRA 2026 

三、亮點總結(jié)

  亮點一:無需任何任務(wù)特定微調(diào),真正的零樣本泛化

 Goal-VLA在無需針對特定任務(wù)進(jìn)行任何微調(diào)、無需任何成對動作數(shù)據(jù)的情況下,實現(xiàn)了強大的機器人操控能力。在RLBench仿真環(huán)境的59個任務(wù)上,平均成功率達(dá)59.9%,顯著優(yōu)于OpenVLA(37.6%)、Pi0(48.9%)、MOKA(37.5%)等需要大量數(shù)據(jù)訓(xùn)練的基線方法。

亮點二:真實機器人上的卓越表現(xiàn) 

在真實的UFACTORY X-ARM 7機械臂上,Goal-VLA實現(xiàn)了60%的平均成功率,展示了從仿真到真實的良好遷移能力。跨物體、跨環(huán)境、跨任務(wù)的泛化測試均表現(xiàn)優(yōu)異,證明了其作為通用機器人操作框架的潛力。

亮點三:圖像生成VLM作為世界模型的新范式

 Goal-VLA首次系統(tǒng)性地驗證了圖像生成式VLM可以作為機器人操作中的「世界模型」——通過生成目標(biāo)場景圖像來預(yù)測任務(wù)完成后的狀態(tài),替代了傳統(tǒng)方法中昂貴的3D目標(biāo)表示。這一范式創(chuàng)新大幅降低了VLA模型的數(shù)據(jù)需求,為具身智能的普惠化發(fā)展開辟了新路徑。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成,更詳細(xì)信息參見兩個鏈接

原文鏈接:https://arxiv.org/abs/2506.23919

解讀來源:https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2


【封面圖片來源:網(wǎng)站名WXRedian,所有者:具身智能之心】

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說