0
| 本文作者: 二維馬曉寧 | 2026-04-22 01:49 |

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息,4月21日自變量機(jī)器人舉行發(fā)布會(huì),推出新一代機(jī)器人進(jìn)家庭計(jì)劃。一個(gè)月后的機(jī)器人,將搭載新一代自研具身智能基礎(chǔ)模型WALL-B。這是全球首個(gè)基于世界統(tǒng)一模型架構(gòu)(World Unified Model,WUM) 的具身智能基礎(chǔ)模型,標(biāo)志著具身基礎(chǔ)模型從VLA架構(gòu)向原生多模態(tài)融合架構(gòu)的重大跨越。
自變量創(chuàng)始人兼CEO王潛、聯(lián)合創(chuàng)始人兼CTO王昊全面解讀了WALL-B的技術(shù)架構(gòu)、數(shù)據(jù)策略和訓(xùn)練機(jī)制等,并宣布35天后搭載WALL-B的新一代機(jī)器人將首批入駐真實(shí)家庭,開(kāi)啟機(jī)器人服務(wù)家庭生活的成長(zhǎng)之旅。
家庭場(chǎng)景是具身智能真正的“考場(chǎng)”
“早上七點(diǎn),鬧鐘響了。你從床上爬起來(lái),走到客廳。拖鞋不知踢到哪里,廚房的碗還沒(méi)洗,孩子的書包扔在地上,貓打翻了一杯水?!?王潛以這一日常描述開(kāi)場(chǎng),直觀揭示了家庭環(huán)境的本質(zhì)——隨機(jī)、碎片、不斷變化。目前全球沒(méi)有任何一臺(tái)機(jī)器人可以在無(wú)遙控操作的情況下獨(dú)立完成上述場(chǎng)景中的綜合整理任務(wù)。
這一現(xiàn)狀與公眾的普遍認(rèn)知形成反差。舞臺(tái)上的后空翻、跳街舞、寫毛筆字等機(jī)器人演示雖然視覺(jué)沖擊力強(qiáng),但這些動(dòng)作本質(zhì)是預(yù)設(shè)軌跡的“命令行機(jī)器人”,每一個(gè)動(dòng)作都經(jīng)過(guò)預(yù)先編程或遙控操作。工廠中已經(jīng)部署的工業(yè)機(jī)器人同樣不構(gòu)成可比案例:工廠環(huán)境下,一個(gè)動(dòng)作可以重復(fù)一萬(wàn)次且每次條件相同;而在家庭中,一萬(wàn)個(gè)動(dòng)作每個(gè)可能只做一次,每次的環(huán)境條件都不一樣。
“硬件已經(jīng)到位了——雙足、靈巧手、力控關(guān)節(jié)都很好。但大腦沒(méi)有跟上。當(dāng)前機(jī)器人的核心瓶頸不在本體,而在智能。家庭環(huán)境中的每一秒都可能出現(xiàn)全新事件:貓何時(shí)跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力與實(shí)驗(yàn)室地板完全不同?,F(xiàn)有技術(shù)無(wú)法處理這種隨機(jī)性和碎片化,機(jī)器人進(jìn)入家庭也被視為“這個(gè)時(shí)代最難的技術(shù)問(wèn)題之一”。
從 WALL-A 到 WALL-B:VLA 架構(gòu)的局限與突破
自變量機(jī)器人從成立之初便聚焦于為機(jī)器人構(gòu)建“大腦”,即端到端的具身智能基礎(chǔ)模型。2024 年底,公司發(fā)布基于 VLA(視覺(jué)-語(yǔ)言-動(dòng)作)架構(gòu)的第一代具身基礎(chǔ)模型 WALL-A,25年9月,將同樣思路架構(gòu)下的輕量化模型版本W(wǎng)ALL-OSS開(kāi)源。
應(yīng)用方面,自變量與 58 同城合作,將搭載 WALL-AS 模型的機(jī)器人送入真實(shí)家庭,與保潔阿姨協(xié)同作業(yè),實(shí)現(xiàn)全球首次機(jī)器人進(jìn)入家庭,并服務(wù)人類復(fù)雜的家居生活,這個(gè)也是首次機(jī)器人在C端復(fù)雜環(huán)境的大規(guī)模落地。
正是這些真實(shí)家庭的部署,讓團(tuán)隊(duì)看到了 VLA 架構(gòu)的“天花板”。王昊解釋道,VLA 架構(gòu)本質(zhì)上是三個(gè)獨(dú)立模塊的拼接:視覺(jué)模塊負(fù)責(zé)識(shí)別物體,語(yǔ)言模塊理解指令,動(dòng)作模塊生成軌跡。
數(shù)據(jù)在這三個(gè)模塊之間逐級(jí)傳遞,每經(jīng)過(guò)一次模塊邊界就會(huì)發(fā)生信息損耗和延遲。更根本的問(wèn)題在于,VLA 模型只能模仿訓(xùn)練數(shù)據(jù)中的軌跡,無(wú)法真正理解物理世界的規(guī)律?!八焕斫獗訛槭裁磿?huì)掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復(fù)見(jiàn)過(guò)的東西。”
WALL-B 正是對(duì)這一困局的回應(yīng)。它不是 WALL-A 的下一個(gè)版本,而是一次從底層架構(gòu)到訓(xùn)練范式的全面重寫。
世界統(tǒng)一模型(WUM):從“VLA”到“統(tǒng)一整體”
WALL-B真正區(qū)別于行業(yè)其他方案的核心,是其從VLA到WUM的架構(gòu)革命。
該架構(gòu)的設(shè)計(jì)思路類似于 Apple Silicon 的統(tǒng)一內(nèi)存架構(gòu):在蘋果 M1 芯片之前的 Mac 上,CPU、GPU、內(nèi)存各自獨(dú)立,數(shù)據(jù)搬運(yùn)產(chǎn)生的延遲和損耗成為性能瓶頸;蘋果通過(guò)統(tǒng)一內(nèi)存架構(gòu)讓所有處理單元共享同一塊內(nèi)存,性能由此大幅提升。
在機(jī)器人領(lǐng)域,VLA就類似于M1之前的筆記本電腦架構(gòu)——視覺(jué)模塊、語(yǔ)言模塊、動(dòng)作模塊各自為政,數(shù)據(jù)在模塊之間搬來(lái)搬去,每搬一次就丟一次信息。視覺(jué)學(xué)到的豐富信息,傳到動(dòng)作模塊時(shí)只剩一個(gè)模糊的摘要。
WALL-B采用的WUM 的核心理念與之相同——將視覺(jué)、語(yǔ)言、動(dòng)作、物理預(yù)測(cè)等所有能力,放在同一個(gè)網(wǎng)絡(luò)中從零開(kāi)始聯(lián)合訓(xùn)練、融為一體,消除模塊間的邊界和數(shù)據(jù)搬運(yùn)損耗。
基于這一架構(gòu),WALL-B 實(shí)現(xiàn)了三項(xiàng)區(qū)別于行業(yè)現(xiàn)有模型的核心技術(shù)特征:
第一,原生多模態(tài)。 WALL-B 從訓(xùn)練第一天起,即對(duì)視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言、觸覺(jué)、動(dòng)作等多模態(tài)數(shù)據(jù)進(jìn)行同步標(biāo)注與聯(lián)合訓(xùn)練,實(shí)現(xiàn)“多模態(tài)進(jìn)、多模態(tài)出”。這意味著模型不需要通過(guò)“傳話”的方式在不同模塊間轉(zhuǎn)譯信息——它看到杯子的同時(shí)就已經(jīng)在準(zhǔn)備伸手,感覺(jué)到重量的同時(shí)就已經(jīng)在調(diào)整力度。
這種架構(gòu)還首次賦予了模型一種被稱為“原生本體感”的能力:WALL-B 無(wú)需持續(xù)觀察自身全身或依賴大量外部傳感器,即可內(nèi)在地感知自身的空間尺寸,如高度、寬度、手臂伸展范圍,并判斷能否通過(guò)某個(gè)空間或觸及某個(gè)物體。這是一種內(nèi)生的空間感知能力,而非通過(guò)外部測(cè)量或建模獲得。王昊指出,這一點(diǎn)甚至許多動(dòng)物都不具備。
第二,物理世界的“世界觀”。 WALL-B 能夠感知并預(yù)測(cè)重力、慣性、摩擦力、速度等基本物理規(guī)律。在從未見(jiàn)過(guò)的場(chǎng)景中——例如一個(gè)盤子一半懸空在桌沿外——模型可以推斷出盤子掉落摔碎,從而采取預(yù)防動(dòng)作。
這種對(duì)物理規(guī)律的理解為零樣本泛化提供了基礎(chǔ)。日常生活中,物理規(guī)律在不同環(huán)境中均保持一致,WALL-B 在任何一個(gè)它從未去過(guò)的家庭中,都能利用對(duì)基本物理常識(shí)的理解來(lái)應(yīng)對(duì)新場(chǎng)景,不需要針對(duì)每個(gè)家庭重新訓(xùn)練。
第三,與世界交互并自我進(jìn)化。 這是 WUM 架構(gòu)區(qū)別于所有現(xiàn)有 VLA 模型的最根本特征。目前主流機(jī)器人在任務(wù)失敗后通常直接停止,返回錯(cuò)誤信息,無(wú)法從失敗中學(xué)習(xí)。WALL-B 的行為模式則完全不同:它在失敗后會(huì)調(diào)整策略再次嘗試,如果成功,則將這次成功的經(jīng)驗(yàn)直接更新到模型參數(shù)中。
這種機(jī)制使模型在真實(shí)環(huán)境中完成自我迭代,無(wú)需工程師重新訓(xùn)練、無(wú)需人工注入新數(shù)據(jù)、無(wú)需返回實(shí)驗(yàn)室。王昊將其類比為人類學(xué)習(xí)使用筷子的過(guò)程——筷子掉了無(wú)數(shù)次,但每一次失敗都在調(diào)整手上的控制,最終形成穩(wěn)定的技能。WALL-B 克服了 Transformer 架構(gòu)難以進(jìn)行長(zhǎng)期內(nèi)化記憶的問(wèn)題,所有經(jīng)驗(yàn)以原生多模態(tài)記憶的方式,通過(guò)類似人腦記憶的機(jī)制實(shí)現(xiàn)自我更新。
數(shù)據(jù)策略:從“糖水”到“牛奶”
目前,行業(yè)內(nèi)大多數(shù)訓(xùn)練模型的數(shù)據(jù)來(lái)自實(shí)驗(yàn)室:實(shí)驗(yàn)室中的固定光照、固定物體位置、無(wú)干擾環(huán)境。王昊將這類實(shí)驗(yàn)室數(shù)據(jù)比喻為“糖水?dāng)?shù)據(jù)”——干凈、可控、量大,但與真實(shí)世界差距顯著,尤其與家庭中隨時(shí)變化的自然光、隨意擺放的物品、孩子和寵物的隨機(jī)動(dòng)作完全不同。用這類數(shù)據(jù)訓(xùn)練出的模型,在真實(shí)環(huán)境中會(huì)迅速失效。
與之相對(duì)的,王昊比喻為“牛奶數(shù)據(jù)”,即真實(shí)家庭環(huán)境中采集的嘈雜、多變、充滿隨機(jī)性的數(shù)據(jù),也是自變量選擇的數(shù)據(jù)道路。
為了獲取這類數(shù)據(jù),自變量團(tuán)隊(duì)進(jìn)入了數(shù)百個(gè)志愿者的真實(shí)家庭進(jìn)行模型訓(xùn)練。每一戶家庭的布局、燈光、物品擺放和混亂程度各不相同。有的家庭地面散落著拖鞋、快遞箱、玩具和襪子;有的家庭中貓會(huì)突然跳上桌子;有的家庭廚房燈光偏暖色而客廳偏冷色。這些變量在實(shí)驗(yàn)室中無(wú)法模擬,但卻是家庭環(huán)境中的日常,這些恰恰是模型必須學(xué)會(huì)應(yīng)對(duì)的真實(shí)條件。
綜合來(lái)看,自變量的數(shù)據(jù)策略可總結(jié)為:實(shí)驗(yàn)數(shù)據(jù)打底,真實(shí)場(chǎng)景提質(zhì)。實(shí)驗(yàn)室數(shù)據(jù)用于建立基本能力——識(shí)別常見(jiàn)物體、執(zhí)行基礎(chǔ)動(dòng)作;真實(shí)家庭數(shù)據(jù)用于讓模型學(xué)會(huì)在不確定環(huán)境中生存。真實(shí)隨機(jī)、不可預(yù)測(cè)的現(xiàn)實(shí)數(shù)據(jù)所驅(qū)動(dòng)的數(shù)據(jù)飛輪,才是真正的壁壘。
35天后新一代機(jī)器人入駐真實(shí)家庭
機(jī)器人進(jìn)入家庭的同時(shí),隱私問(wèn)題不容回避。王潛對(duì)此給出了自變量團(tuán)隊(duì)明確的解決方案:
視覺(jué)脫敏——機(jī)器人在設(shè)備端對(duì)原始圖像進(jìn)行實(shí)時(shí)打碼處理,原始圖像不離開(kāi)設(shè)備,機(jī)器人看到的已經(jīng)是去除個(gè)人特征的場(chǎng)景數(shù)據(jù);
透明授權(quán)——用戶主動(dòng)按下同意鍵后方可開(kāi)機(jī),不存在“默認(rèn)同意”,用戶不同意則不開(kāi)機(jī);
用途限定——絕不共享第三方,機(jī)器人只認(rèn)一個(gè)主人,發(fā)現(xiàn)可疑指令立即鎖定。
“承諾是便宜的,用戶信任才是最貴的。”王潛明確表示。
在商業(yè)化落地方面,自變量的時(shí)間表也已經(jīng)明確:35 天后,新一代搭載WALL-B,并根據(jù)家居環(huán)境進(jìn)行硬件升級(jí)的新一代機(jī)器人將入駐首批用戶的家庭。
王潛指出,當(dāng)前模型仍處于“實(shí)習(xí)生”階段,會(huì)犯錯(cuò),需要遠(yuǎn)程協(xié)助,有時(shí)可能把拖鞋放到廚房、擦桌子擦到一半停下來(lái)“思考”。但其能夠?qū)崿F(xiàn) 24 小時(shí)不間斷工作,且每工作一天都會(huì)因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。
從即日起,自變量開(kāi)始招募首進(jìn)家庭機(jī)器人的家長(zhǎng),用戶可通過(guò)官方渠道提交申請(qǐng)。
結(jié)尾
具身基礎(chǔ)模型的持續(xù)進(jìn)步,是自變量成立以來(lái)一直追求的目標(biāo)。為機(jī)器人打造一個(gè)能夠真正理解世界、并在真實(shí)世界中持續(xù)學(xué)習(xí)的機(jī)器人大腦,進(jìn)入家庭服務(wù)人類每一天是自變量機(jī)器人的長(zhǎng)久愿景。
“盡管進(jìn)入家庭的機(jī)器人現(xiàn)在還很笨,走得很慢,經(jīng)常犯錯(cuò)。人類從嬰兒時(shí)期邁出的第一步也是如此。每一個(gè)偉大的旅程,都是從踉踉蹌蹌的第一步開(kāi)始的。如今,機(jī)器人已經(jīng)在最復(fù)雜的地方開(kāi)始了它學(xué)習(xí)和進(jìn)化的征程?!?/p>
模型一直在迭代,WALL-B的具體細(xì)節(jié)及生態(tài)基座,將于4月27日在深圳舉辦的首屆廣東省人工智能應(yīng)用對(duì)接大會(huì)上全面亮相。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。