LLaVA-VLA——極簡設(shè)計的高效視覺-語言-動作機器人操控基線 | ICRA 2026

本文作者：陳淑瑜

2026-04-24 15:57

專題：ICRA 2017：創(chuàng)新、創(chuàng)業(yè)和解決方法

導語：LLaVA-VLA正是針對這一需求提出的極簡VLA基線，基于廣泛使用的LLaVA生態(tài)構(gòu)建，無任何性能作弊組件，力求用最簡潔的設(shè)計達到有競爭力的性能

一、研究背景

視覺-語言-動作（VLA）模型是具身智能的核心架構(gòu)，旨在讓機器人通過視覺感知和語言理解直接輸出動作指令。然而，當前主流VLA模型（如RT-2、OpenVLA）通常架構(gòu)復雜、訓練流程冗長，缺乏一個設(shè)計簡潔、易于理解和復現(xiàn)的基準模型，阻礙了社區(qū)對VLA核心設(shè)計決策的系統(tǒng)性研究。

此外，現(xiàn)有VLA模型在訓練效率上存在顯著差異——有些需要大規(guī)模預訓練數(shù)據(jù)，有些依賴復雜的跨模態(tài)對齊策略，使得研究者難以區(qū)分哪些性能提升來自架構(gòu)創(chuàng)新，哪些來自工程技巧。社區(qū)急需一個「少即是多」的純凈基線來推動VLA研究的健康發(fā)展。

二、核心方法

LLaVA-VLA基于LLaVA架構(gòu)構(gòu)建，通過三個關(guān)鍵設(shè)計選擇實現(xiàn)了簡潔與性能的平衡。

多視角圖像拼接（Concatenated Multi-view Images）

將第一人稱視角和第三人稱視角的觀測圖像垂直拼接為單一復合圖像，輸入視覺編碼器。這一設(shè)計保留了完整的空間信息，同時避免了多圖像獨立編碼帶來的token數(shù)量膨脹和信息丟失問題，在信息完整性與計算效率之間取得了優(yōu)雅的平衡。

本體感覺作為文本輸入（Proprioception as Input）

將機器人的本體感覺信息（如關(guān)節(jié)角度、夾爪狀態(tài)）通過動作分詞器編碼到與動作token相同的嵌入空間中。這一設(shè)計使VLM的語言建模能力能夠自然地理解和生成連貫的動作序列，而非將本體感覺作為獨立模態(tài)處理，簡化了多模態(tài)融合的復雜度。

動作分塊（Action Chunking）

設(shè)置動作分塊大小為5，即模型每次輸出連續(xù)5步的動作指令。這一隱式規(guī)劃機制提高了生成動作的時序一致性和執(zhí)行穩(wěn)定性，有效減少了單步?jīng)Q策帶來的抖動和累積誤差。

高效訓練流程

無需大規(guī)模預訓練數(shù)據(jù)，直接從LLaVA-v1.5-7b檢查點出發(fā)，僅需7小時微調(diào)即可獲得具備競爭力的VLA模型。同時提供了0.5B參數(shù)的小模型版本，可在消費級GPU（如24GB RTX 4090）上部署。

LLaVA-VLA——極簡設(shè)計的高效視覺-語言-動作機器人操控基線 | ICRA 2026

三、亮點總結(jié)

亮點一：極簡設(shè)計，7小時微調(diào)即可超越OpenVLA

在CALVIN ABC→D基準測試中，LLaVA-VLA達到3.68平均成功步數(shù)，優(yōu)于最流行的基線OpenVLA。而達成這一性能僅需從LLaVA-v1.5-7b檢查點微調(diào)7小時，無需任何大規(guī)模預訓練或復雜數(shù)據(jù)管線，展示了VLA架構(gòu)本身的巨大潛力。

亮點二：0.5B小模型可部署在消費級GPU

LLaVA-VLA-0.5b版本僅需24GB顯存即可運行（如RTX 4090），在RoboTwin基準測試中，困難任務(wù)成功率達28.6%。這一成果使VLA模型從實驗室走向普通開發(fā)者的桌面成為可能，極大降低了具身智能研究的硬件門檻。

亮點三：開源生態(tài)推動社區(qū)發(fā)展

LLaVA-VLA完全開源（MIT許可證），提供了訓練代碼、測試代碼和預訓練檢查點，并持續(xù)更新新功能和環(huán)境支持。作為純凈基線，它幫助社區(qū)厘清了VLA架構(gòu)中哪些設(shè)計真正重要，推動了VLA研究從「堆砌技巧」走向「理解本質(zhì)」的健康發(fā)展方向。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成，更詳細信息參見兩個鏈接