自變量機(jī)器人發(fā)布全球首個(gè)世界統(tǒng)一模型，35天后新一代機(jī)器人入駐真實(shí)家庭

本文作者：二維馬曉寧

2026-04-22 01:49

導(dǎo)語(yǔ)：這是全球首個(gè)基于世界統(tǒng)一模型架構(gòu)（World Unified Model，WUM）的具身智能基礎(chǔ)模型。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))消息，4月21日自變量機(jī)器人舉行發(fā)布會(huì)，推出新一代機(jī)器人進(jìn)家庭計(jì)劃。一個(gè)月后的機(jī)器人，將搭載新一代自研具身智能基礎(chǔ)模型WALL-B。這是全球首個(gè)基于世界統(tǒng)一模型架構(gòu)（World Unified Model，WUM）的具身智能基礎(chǔ)模型，標(biāo)志著具身基礎(chǔ)模型從VLA架構(gòu)向原生多模態(tài)融合架構(gòu)的重大跨越。

自變量創(chuàng)始人兼CEO王潛、聯(lián)合創(chuàng)始人兼CTO王昊全面解讀了WALL-B的技術(shù)架構(gòu)、數(shù)據(jù)策略和訓(xùn)練機(jī)制等，并宣布35天后搭載WALL-B的新一代機(jī)器人將首批入駐真實(shí)家庭，開(kāi)啟機(jī)器人服務(wù)家庭生活的成長(zhǎng)之旅。

家庭場(chǎng)景是具身智能真正的“考場(chǎng)”

“早上七點(diǎn)，鬧鐘響了。你從床上爬起來(lái)，走到客廳。拖鞋不知踢到哪里，廚房的碗還沒(méi)洗，孩子的書包扔在地上，貓打翻了一杯水?！?王潛以這一日常描述開(kāi)場(chǎng)，直觀揭示了家庭環(huán)境的本質(zhì)——隨機(jī)、碎片、不斷變化。目前全球沒(méi)有任何一臺(tái)機(jī)器人可以在無(wú)遙控操作的情況下獨(dú)立完成上述場(chǎng)景中的綜合整理任務(wù)。

這一現(xiàn)狀與公眾的普遍認(rèn)知形成反差。舞臺(tái)上的后空翻、跳街舞、寫毛筆字等機(jī)器人演示雖然視覺(jué)沖擊力強(qiáng)，但這些動(dòng)作本質(zhì)是預(yù)設(shè)軌跡的“命令行機(jī)器人”，每一個(gè)動(dòng)作都經(jīng)過(guò)預(yù)先編程或遙控操作。工廠中已經(jīng)部署的工業(yè)機(jī)器人同樣不構(gòu)成可比案例：工廠環(huán)境下，一個(gè)動(dòng)作可以重復(fù)一萬(wàn)次且每次條件相同；而在家庭中，一萬(wàn)個(gè)動(dòng)作每個(gè)可能只做一次，每次的環(huán)境條件都不一樣。

“硬件已經(jīng)到位了——雙足、靈巧手、力控關(guān)節(jié)都很好。但大腦沒(méi)有跟上。當(dāng)前機(jī)器人的核心瓶頸不在本體，而在智能。家庭環(huán)境中的每一秒都可能出現(xiàn)全新事件：貓何時(shí)跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力與實(shí)驗(yàn)室地板完全不同?，F(xiàn)有技術(shù)無(wú)法處理這種隨機(jī)性和碎片化，機(jī)器人進(jìn)入家庭也被視為“這個(gè)時(shí)代最難的技術(shù)問(wèn)題之一”。

從 WALL-A 到 WALL-B：VLA 架構(gòu)的局限與突破

自變量機(jī)器人從成立之初便聚焦于為機(jī)器人構(gòu)建“大腦”，即端到端的具身智能基礎(chǔ)模型。2024 年底，公司發(fā)布基于 VLA（視覺(jué)-語(yǔ)言-動(dòng)作）架構(gòu)的第一代具身基礎(chǔ)模型 WALL-A，25年9月，將同樣思路架構(gòu)下的輕量化模型版本W(wǎng)ALL-OSS開(kāi)源。

應(yīng)用方面，自變量與 58 同城合作，將搭載 WALL-AS 模型的機(jī)器人送入真實(shí)家庭，與保潔阿姨協(xié)同作業(yè)，實(shí)現(xiàn)全球首次機(jī)器人進(jìn)入家庭，并服務(wù)人類復(fù)雜的家居生活，這個(gè)也是首次機(jī)器人在C端復(fù)雜環(huán)境的大規(guī)模落地。

正是這些真實(shí)家庭的部署，讓團(tuán)隊(duì)看到了 VLA 架構(gòu)的“天花板”。王昊解釋道，VLA 架構(gòu)本質(zhì)上是三個(gè)獨(dú)立模塊的拼接：視覺(jué)模塊負(fù)責(zé)識(shí)別物體，語(yǔ)言模塊理解指令，動(dòng)作模塊生成軌跡。

數(shù)據(jù)在這三個(gè)模塊之間逐級(jí)傳遞，每經(jīng)過(guò)一次模塊邊界就會(huì)發(fā)生信息損耗和延遲。更根本的問(wèn)題在于，VLA 模型只能模仿訓(xùn)練數(shù)據(jù)中的軌跡，無(wú)法真正理解物理世界的規(guī)律?！八焕斫獗訛槭裁磿?huì)掉，不理解為什么盤子懸在桌邊需要推回去。它只是在重復(fù)見(jiàn)過(guò)的東西。”

WALL-B 正是對(duì)這一困局的回應(yīng)。它不是 WALL-A 的下一個(gè)版本，而是一次從底層架構(gòu)到訓(xùn)練范式的全面重寫。

世界統(tǒng)一模型（WUM）：從“VLA”到“統(tǒng)一整體”

WALL-B真正區(qū)別于行業(yè)其他方案的核心，是其從VLA到WUM的架構(gòu)革命。

該架構(gòu)的設(shè)計(jì)思路類似于 Apple Silicon 的統(tǒng)一內(nèi)存架構(gòu)：在蘋果 M1 芯片之前的 Mac 上，CPU、GPU、內(nèi)存各自獨(dú)立，數(shù)據(jù)搬運(yùn)產(chǎn)生的延遲和損耗成為性能瓶頸；蘋果通過(guò)統(tǒng)一內(nèi)存架構(gòu)讓所有處理單元共享同一塊內(nèi)存，性能由此大幅提升。

在機(jī)器人領(lǐng)域，VLA就類似于M1之前的筆記本電腦架構(gòu)——視覺(jué)模塊、語(yǔ)言模塊、動(dòng)作模塊各自為政，數(shù)據(jù)在模塊之間搬來(lái)搬去，每搬一次就丟一次信息。視覺(jué)學(xué)到的豐富信息，傳到動(dòng)作模塊時(shí)只剩一個(gè)模糊的摘要。

WALL-B采用的WUM 的核心理念與之相同——將視覺(jué)、語(yǔ)言、動(dòng)作、物理預(yù)測(cè)等所有能力，放在同一個(gè)網(wǎng)絡(luò)中從零開(kāi)始聯(lián)合訓(xùn)練、融為一體，消除模塊間的邊界和數(shù)據(jù)搬運(yùn)損耗。

基于這一架構(gòu)，WALL-B 實(shí)現(xiàn)了三項(xiàng)區(qū)別于行業(yè)現(xiàn)有模型的核心技術(shù)特征：

第一，原生多模態(tài)。 WALL-B 從訓(xùn)練第一天起，即對(duì)視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言、觸覺(jué)、動(dòng)作等多模態(tài)數(shù)據(jù)進(jìn)行同步標(biāo)注與聯(lián)合訓(xùn)練，實(shí)現(xiàn)“多模態(tài)進(jìn)、多模態(tài)出”。這意味著模型不需要通過(guò)“傳話”的方式在不同模塊間轉(zhuǎn)譯信息——它看到杯子的同時(shí)就已經(jīng)在準(zhǔn)備伸手，感覺(jué)到重量的同時(shí)就已經(jīng)在調(diào)整力度。

這種架構(gòu)還首次賦予了模型一種被稱為“原生本體感”的能力：WALL-B 無(wú)需持續(xù)觀察自身全身或依賴大量外部傳感器，即可內(nèi)在地感知自身的空間尺寸，如高度、寬度、手臂伸展范圍，并判斷能否通過(guò)某個(gè)空間或觸及某個(gè)物體。這是一種內(nèi)生的空間感知能力，而非通過(guò)外部測(cè)量或建模獲得。王昊指出，這一點(diǎn)甚至許多動(dòng)物都不具備。

第二，物理世界的“世界觀”。 WALL-B 能夠感知并預(yù)測(cè)重力、慣性、摩擦力、速度等基本物理規(guī)律。在從未見(jiàn)過(guò)的場(chǎng)景中——例如一個(gè)盤子一半懸空在桌沿外——模型可以推斷出盤子掉落摔碎，從而采取預(yù)防動(dòng)作。

這種對(duì)物理規(guī)律的理解為零樣本泛化提供了基礎(chǔ)。日常生活中，物理規(guī)律在不同環(huán)境中均保持一致，WALL-B 在任何一個(gè)它從未去過(guò)的家庭中，都能利用對(duì)基本物理常識(shí)的理解來(lái)應(yīng)對(duì)新場(chǎng)景，不需要針對(duì)每個(gè)家庭重新訓(xùn)練。

第三，與世界交互并自我進(jìn)化。這是 WUM 架構(gòu)區(qū)別于所有現(xiàn)有 VLA 模型的最根本特征。目前主流機(jī)器人在任務(wù)失敗后通常直接停止，返回錯(cuò)誤信息，無(wú)法從失敗中學(xué)習(xí)。WALL-B 的行為模式則完全不同：它在失敗后會(huì)調(diào)整策略再次嘗試，如果成功，則將這次成功的經(jīng)驗(yàn)直接更新到模型參數(shù)中。

這種機(jī)制使模型在真實(shí)環(huán)境中完成自我迭代，無(wú)需工程師重新訓(xùn)練、無(wú)需人工注入新數(shù)據(jù)、無(wú)需返回實(shí)驗(yàn)室。王昊將其類比為人類學(xué)習(xí)使用筷子的過(guò)程——筷子掉了無(wú)數(shù)次，但每一次失敗都在調(diào)整手上的控制，最終形成穩(wěn)定的技能。WALL-B 克服了 Transformer 架構(gòu)難以進(jìn)行長(zhǎng)期內(nèi)化記憶的問(wèn)題，所有經(jīng)驗(yàn)以原生多模態(tài)記憶的方式，通過(guò)類似人腦記憶的機(jī)制實(shí)現(xiàn)自我更新。

數(shù)據(jù)策略：從“糖水”到“牛奶”

目前，行業(yè)內(nèi)大多數(shù)訓(xùn)練模型的數(shù)據(jù)來(lái)自實(shí)驗(yàn)室：實(shí)驗(yàn)室中的固定光照、固定物體位置、無(wú)干擾環(huán)境。王昊將這類實(shí)驗(yàn)室數(shù)據(jù)比喻為“糖水?dāng)?shù)據(jù)”——干凈、可控、量大，但與真實(shí)世界差距顯著，尤其與家庭中隨時(shí)變化的自然光、隨意擺放的物品、孩子和寵物的隨機(jī)動(dòng)作完全不同。用這類數(shù)據(jù)訓(xùn)練出的模型，在真實(shí)環(huán)境中會(huì)迅速失效。

與之相對(duì)的，王昊比喻為“牛奶數(shù)據(jù)”，即真實(shí)家庭環(huán)境中采集的嘈雜、多變、充滿隨機(jī)性的數(shù)據(jù)，也是自變量選擇的數(shù)據(jù)道路。

為了獲取這類數(shù)據(jù)，自變量團(tuán)隊(duì)進(jìn)入了數(shù)百個(gè)志愿者的真實(shí)家庭進(jìn)行模型訓(xùn)練。每一戶家庭的布局、燈光、物品擺放和混亂程度各不相同。有的家庭地面散落著拖鞋、快遞箱、玩具和襪子；有的家庭中貓會(huì)突然跳上桌子；有的家庭廚房燈光偏暖色而客廳偏冷色。這些變量在實(shí)驗(yàn)室中無(wú)法模擬，但卻是家庭環(huán)境中的日常，這些恰恰是模型必須學(xué)會(huì)應(yīng)對(duì)的真實(shí)條件。

綜合來(lái)看，自變量的數(shù)據(jù)策略可總結(jié)為：實(shí)驗(yàn)數(shù)據(jù)打底，真實(shí)場(chǎng)景提質(zhì)。實(shí)驗(yàn)室數(shù)據(jù)用于建立基本能力——識(shí)別常見(jiàn)物體、執(zhí)行基礎(chǔ)動(dòng)作；真實(shí)家庭數(shù)據(jù)用于讓模型學(xué)會(huì)在不確定環(huán)境中生存。真實(shí)隨機(jī)、不可預(yù)測(cè)的現(xiàn)實(shí)數(shù)據(jù)所驅(qū)動(dòng)的數(shù)據(jù)飛輪，才是真正的壁壘。

35天后新一代機(jī)器人入駐真實(shí)家庭

機(jī)器人進(jìn)入家庭的同時(shí)，隱私問(wèn)題不容回避。王潛對(duì)此給出了自變量團(tuán)隊(duì)明確的解決方案：

視覺(jué)脫敏——機(jī)器人在設(shè)備端對(duì)原始圖像進(jìn)行實(shí)時(shí)打碼處理，原始圖像不離開(kāi)設(shè)備，機(jī)器人看到的已經(jīng)是去除個(gè)人特征的場(chǎng)景數(shù)據(jù)；

透明授權(quán)——用戶主動(dòng)按下同意鍵后方可開(kāi)機(jī)，不存在“默認(rèn)同意”，用戶不同意則不開(kāi)機(jī)；

用途限定——絕不共享第三方，機(jī)器人只認(rèn)一個(gè)主人，發(fā)現(xiàn)可疑指令立即鎖定。

“承諾是便宜的，用戶信任才是最貴的。”王潛明確表示。

在商業(yè)化落地方面，自變量的時(shí)間表也已經(jīng)明確：35 天后，新一代搭載WALL-B，并根據(jù)家居環(huán)境進(jìn)行硬件升級(jí)的新一代機(jī)器人將入駐首批用戶的家庭。

王潛指出，當(dāng)前模型仍處于“實(shí)習(xí)生”階段，會(huì)犯錯(cuò)，需要遠(yuǎn)程協(xié)助，有時(shí)可能把拖鞋放到廚房、擦桌子擦到一半停下來(lái)“思考”。但其能夠?qū)崿F(xiàn) 24 小時(shí)不間斷工作，且每工作一天都會(huì)因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。

從即日起，自變量開(kāi)始招募首進(jìn)家庭機(jī)器人的家長(zhǎng)，用戶可通過(guò)官方渠道提交申請(qǐng)。

結(jié)尾

具身基礎(chǔ)模型的持續(xù)進(jìn)步，是自變量成立以來(lái)一直追求的目標(biāo)。為機(jī)器人打造一個(gè)能夠真正理解世界、并在真實(shí)世界中持續(xù)學(xué)習(xí)的機(jī)器人大腦，進(jìn)入家庭服務(wù)人類每一天是自變量機(jī)器人的長(zhǎng)久愿景。

“盡管進(jìn)入家庭的機(jī)器人現(xiàn)在還很笨，走得很慢，經(jīng)常犯錯(cuò)。人類從嬰兒時(shí)期邁出的第一步也是如此。每一個(gè)偉大的旅程，都是從踉踉蹌蹌的第一步開(kāi)始的。如今，機(jī)器人已經(jīng)在最復(fù)雜的地方開(kāi)始了它學(xué)習(xí)和進(jìn)化的征程?！?/p>

模型一直在迭代，WALL-B的具體細(xì)節(jié)及生態(tài)基座，將于4月27日在深圳舉辦的首屆廣東省人工智能應(yīng)用對(duì)接大會(huì)上全面亮相。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

二維馬曉寧

編輯

發(fā)私信

當(dāng)月熱門文章

自變量機(jī)器人發(fā)布全球首個(gè)世界統(tǒng)一模型，35天后新一代機(jī)器人入駐真實(shí)家庭

自變量機(jī)器人發(fā)布全球首個(gè)世界統(tǒng)一模型，35天后新一代機(jī)器人入駐真實(shí)家庭