日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機器人 正文
發(fā)私信給高景輝
發(fā)送

0

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

本文作者: 高景輝   2026-05-07 21:02
導(dǎo)語:VLA沒有終結(jié),反而在持續(xù)變強。
看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了
VLA沒有終結(jié),反而在持續(xù)變強。

    作者丨高景輝

    編輯丨馬曉寧

                                                                                                       

2026 年的具身智能賽道,正陷入一場關(guān)于技術(shù)路線的激烈爭論。

先是宇樹科技創(chuàng)始人王興興公開表示,世界模型是更有希望的技術(shù)路線;再是英偉達在 GTC 大會上發(fā)布 GR00T N1,將世界模型作為通用人形機器人基礎(chǔ)模型的核心架構(gòu)。一時間,世界模型成為行業(yè)最熱的關(guān)鍵詞。

與之相對的,是 “VLA 時代已經(jīng)終結(jié)” 的論調(diào)在行業(yè)內(nèi)快速擴散。大量從業(yè)者開始質(zhì)疑,曾經(jīng)被視為具身智能核心范式的 VLA模型,是否已經(jīng)被新的技術(shù)浪潮拋下。

VLA 的時代真的過去了嗎?在 2026 年 4 月的 FAIR plus 大會主論壇上,智平方創(chuàng)始人郭彥東用一場演講直接回應(yīng)了這場爭論,他的判斷很明確:VLA的時代遠(yuǎn)未終結(jié),世界模型正在匯入 VLA 的河流,其中下一個關(guān)鍵變量則是類腦架構(gòu)。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

隨著逐漸理解這一判斷背后的內(nèi)在邏輯,我對 VLA 路線的信心又一點一點地重建了起來。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

01

世界模型,終結(jié)不了 VLA

要判斷一個技術(shù)范式是否過時,首先需要回到第一性原理:它解決的核心問題是什么?這些問題的解決方式是否已被根本性地顛覆?

VLA 即 Vision-Language-Action,視覺、語言、動作三個詞定義了一個完整的閉環(huán):機器人通過視覺感知環(huán)境,通過語言理解指令并進行推理,通過動作輸出完成物理交互。從感知到理解到執(zhí)行,這是一條不可拆解的鏈條。

郭彥東也在演講中強調(diào):“不管是Vision、Language、Action怎么組織,它的組織方式會有變化,但是需要三個核心的要素,這個范式是永遠(yuǎn)不會有變化的?!?/span>

這個判斷有充分的技術(shù)邏輯支撐。具身智能完成一項任務(wù),必須先知道環(huán)境里有什么(視覺感知),理解任務(wù)是什么(語言推理),再調(diào)動身體去執(zhí)行(動作控制),這三個環(huán)節(jié)缺一不可。

你可以優(yōu)化感知模塊的分辨率,可以提升語言模型的推理能力,可以改進動作控制的精度——這些都屬于“怎么組織”的問題。但你不能去掉感知模塊,讓機器人在黑暗中摸索;不能去掉推理模塊,讓機器人機械地重復(fù)固定程序;更不能去掉動作模塊,因為不與物理世界交互,就不存在具身智能。

當(dāng)前所謂“VLA時代終結(jié)”的論調(diào),混淆了兩個層面的問題:一是 VLA 作為一個技術(shù)范式的存續(xù),二是具體架構(gòu)形式的迭代。前者關(guān)乎具身智能的本質(zhì)需求,后者只是實現(xiàn)路徑的選擇問題。

Gartner技術(shù)成熟度曲線告訴我們,一項技術(shù)從過高期望的峰值滑落后,往往被輿論判定為“失敗”,但這個階段恰恰是技術(shù)與實際場景深度磨合的關(guān)鍵期,真正的生產(chǎn)力突破往往在此發(fā)生。

VLA 便處于這一階段,其當(dāng)前面臨的爭議,更像是在從實驗室原型邁向工業(yè)級落地的過程中,技術(shù)邊界被清晰認(rèn)知后的必要調(diào)整。

實際上,VLA 從來不是一個固化的技術(shù)方案。它從誕生之初就在不斷吸納新的方法論。從最早的對齊式VLA,到快慢學(xué)習(xí)VLA,再到當(dāng)前將世界模型融入 VLA 的探索,技術(shù)架構(gòu)一直在演進。把 VLA 等同于某一個歷史版本的實現(xiàn)方式,是對這個范式的誤讀。

那么,世界模型在這場演進中扮演什么角色?

郭彥東在演講中做了一個關(guān)鍵區(qū)分:“把世界模型用來增強 VLA,和把世界模型融入 VLA,是不同的兩個范式。我們認(rèn)為把世界模型融入到VLA里面,讓 VLA 具備更強的泛化能力,是VLA變得更強的必由之路?!?/span>

這個區(qū)分的實質(zhì)在于:世界模型是作為一種外部工具來輔助 VLA,還是成為 VLA 架構(gòu)內(nèi)部的一個有機組成部分?前者是松耦合,可以隨時替換;后者是緊耦合,改變了 VLA 的感知與推理方式。

世界模型的核心價值在于讓機器人生成對物理世界的預(yù)測能力。傳統(tǒng) VLA 的瓶頸之一是:模型雖然能理解“把杯子放到桌子上”這條指令,但對“杯子被碰倒后會滾動”“松手后物體會下落”這類物理常識缺乏內(nèi)在判斷。當(dāng)環(huán)境出現(xiàn)預(yù)期之外的變化時,模型容易做出錯誤動作。

融入世界模型后,VLA 可以內(nèi)生地形成對物理規(guī)律的理解。它不再被動地映射“感知→動作”的對應(yīng)關(guān)系,而是能夠預(yù)測動作的后果,在行動之前進行模擬推演。這補齊了傳統(tǒng) VLA 在物理預(yù)測和泛化適配上的短板。

這塊短板恰恰是制約VLA從實驗室走向真實場景的關(guān)鍵障礙。真實物理世界充滿不確定性——光照變化、物體位置偏移、外力干擾——模型如果只靠大量標(biāo)注數(shù)據(jù)來覆蓋所有情況,泛化天花板很快就會觸達。世界模型提供了另一種路徑:讓模型理解底層物理規(guī)律,從而在未見過的場景中也能做出合理動作。

從這個角度看,世界模型是VLA架構(gòu)的重要升級模塊,而非獨立于 VLA 之外的新賽道。所謂“世界模型取代VLA”的說法,在技術(shù)邏輯上說不通——世界模型解決的是預(yù)測和泛化問題,它本身并不直接輸出動作,也不直接處理視覺輸入,它需要嵌入到端到端的感知-推理-執(zhí)行閉環(huán)中才能發(fā)揮作用。

總而言之,每一代迭代,VLA都在解決上一代在真實物理世界中暴露的核心痛點:泛化能力不足、動作穩(wěn)定性差、時空感知魯棒性弱。它從來不是一個固化的技術(shù)方案,而是一個持續(xù)吸收新技術(shù)、不斷進化的開放范式。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

02

能為 VLA 代言的,為什么是智平方?

捋清 VLA 與世界模型的關(guān)系是一回事,拿出有說服力的技術(shù)成果又是另一回事。智平方之所以能在爭論中為 VLA 發(fā)聲,離不開長期的技術(shù)積累和獨特的架構(gòu)創(chuàng)新。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

時間線拉回到2023年。彼時具身智能的概念剛剛升溫,多數(shù)團隊還處于觀望或單點技術(shù)探索階段,而智平方剛成立就明確了方向:物理世界大模型。同年,他們發(fā)布了中國創(chuàng)業(yè)公司中的首個端到端 VLA 具身大模型。

一步卡位,決定了此后的技術(shù)慣性。與那些從計算機視覺或自然語言處理轉(zhuǎn)投具身智能的團隊不同,智平方從第一天就將機器人動作控制作為模型輸出的核心環(huán)節(jié)來設(shè)計,而非事后嫁接。這種底層的差異,使得他們在后續(xù)技術(shù)迭代中更容易突破感知與控制之間的隔閡。

不過,先發(fā)優(yōu)勢本身不足以構(gòu)成護城河,智平方真正的技術(shù)壁壘來自對 VLA 架構(gòu)底層邏輯的重新理解,典型的例子就是2025年6月推出的快慢學(xué)習(xí)VLA架構(gòu)(FiS-VLA)。

雖然此前也有人將“雙系統(tǒng)”設(shè)計引入VLA大模型,但由于兩個系統(tǒng)相互獨立,使得快系統(tǒng)無法充分利用慢系統(tǒng)的豐富預(yù)訓(xùn)練知識,導(dǎo)致執(zhí)行能力大打折扣。

而智平方首創(chuàng)的快慢學(xué)習(xí) VLA 架構(gòu),將動作模型從語言模型中分離出來,形成“慢系統(tǒng)”和“快系統(tǒng)”的雙軌制,其中慢系統(tǒng)負(fù)責(zé)情境理解與任務(wù)規(guī)劃,快系統(tǒng)負(fù)責(zé)運動執(zhí)行與實時反饋。這套架構(gòu)為后續(xù)的技術(shù)迭代奠定了底層邏輯。

有了架構(gòu)基礎(chǔ),下一個問題是:快系統(tǒng)能快到什么程度?放在實戰(zhàn)中效果究竟怎么樣?

智平方攜手港科大最新發(fā)布的NeuroVLA給出了答案。這套全球首個類腦架構(gòu)的VLA大模型,將仿生分層設(shè)計推到了新的技術(shù)高度。

傳統(tǒng) VLA 的設(shè)計思路,是讓一個統(tǒng)一的大模型同時處理感知、推理和控制。這種集中式架構(gòu)的問題在于:高層級的語義理解和低層級的運動控制被混在一起處理。結(jié)果是兩頭不討好,運動控制延遲高、抖動大,而推理過程又被高頻控制任務(wù)搶占計算資源。

在此背景下,智平方創(chuàng)造性地提出將“小腦”和“脊柱”模塊融入機器人操作環(huán)節(jié)。這個思路的獨到之處在于,它改變了具身智能領(lǐng)域長期以來的一個默認(rèn)設(shè)定:小腦和軀干只負(fù)責(zé)運動,而操作任務(wù)由大腦統(tǒng)一指揮。

正如郭彥東在演講中所言:“我們也在行業(yè)當(dāng)中最早提出了要把小腦和脊柱的部分也融入操作當(dāng)中,這樣對于整個操作來講,它可以有毫秒級安全的自適應(yīng),這個是機器人進入到真實環(huán)境最核心的要素。”

雷峰網(wǎng)認(rèn)為,郭彥東做出這一判斷的背后,是對生物智能的深入理解。人類在執(zhí)行精細(xì)操作時,大腦皮層只負(fù)責(zé)發(fā)出高層指令——“擰開那個瓶蓋”,而手指如何協(xié)調(diào)、力度如何調(diào)整、遇到意外阻力如何應(yīng)對,這些都由小腦和脊髓層面的神經(jīng)回路自動完成。這套分層架構(gòu)是億萬年進化的產(chǎn)物,它的核心優(yōu)勢在于:將高頻、低延遲的反饋控制下沉到低層級處理,解放高層級進行復(fù)雜的語義推理。

具體來說,NeuroVLA 將機器人的計算架構(gòu)明確分為三層。最上層是運行在GPU上的“大腦”層(皮質(zhì)模塊),專注于理解視覺和語言指令,生成抽象的任務(wù)目標(biāo)。中間是“小腦”層(小腦模塊),作為一個自適應(yīng)濾波器,以每秒數(shù)百次的頻率讀取機器人本體的關(guān)節(jié)、力度等傳感器數(shù)據(jù),實時平滑大腦發(fā)出的指令,消除抖動,并根據(jù)外力干擾即時調(diào)整運動軌跡。最底層是“脊髓”層(脈沖脊髓模塊),部署在專用的神經(jīng)形態(tài)芯片上,以脈沖神經(jīng)網(wǎng)絡(luò)的方式驅(qū)動電機。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

這套架構(gòu)的技術(shù)突破集中在底層。脈沖神經(jīng)網(wǎng)絡(luò)的核心特點是事件驅(qū)動,即只有需要動作時神經(jīng)元才“放電”,靜止時幾乎不耗能。這與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)需要持續(xù)進行矩陣運算的模式形成了根本性差異。根據(jù)智平方公布的數(shù)據(jù),NeuroVLA 在實體機器人執(zhí)行任務(wù)時,“脊髓”層平均功耗僅為0.4W。

0.4W是什么概念?一部手機進行視頻播放時功耗都要達到1-3W,NeuroVLA 能耗之低可見一斑。對于依賴電池供電的移動機器人而言,這種能效比是決定能否實現(xiàn)全天候自主作業(yè)的關(guān)鍵指標(biāo)。

此外,NeuroVLA 在“脊髓”層內(nèi)置了快速安全反射通路,一旦檢測到突然的碰撞力,可在20毫秒內(nèi)直接觸發(fā)撤退動作,完全繞過較慢的大腦回路。傳統(tǒng) VLA 系統(tǒng)的反應(yīng)延遲通常在200毫秒以上,這10倍的差距,在真實人機協(xié)作場景中意義重大,畢竟20毫秒足夠讓機器人在碰觸到人手的瞬間收回機械臂,避免造成傷害。

實驗數(shù)據(jù)證明了這套架構(gòu)的實戰(zhàn)效果。在碰撞干擾測試中,NeuroVLA 的傳統(tǒng)對照模型在遭遇外力碰撞后全部任務(wù)失敗,成功率為0%。而 NeuroVLA 不僅能在20毫秒內(nèi)觸發(fā)保護性撤回,還能在之后自主調(diào)整路徑繞開障礙,任務(wù)恢復(fù)成功率達到54.8%。機械臂的動作抖動被抑制了75%以上。這些數(shù)據(jù)指向一個實質(zhì)性的突破:機器人首次表現(xiàn)出了類似生物“本能反應(yīng)”的生存能力。

無論是從快慢學(xué)習(xí) VLA 到 NeuroVLA 的技術(shù)迭代脈絡(luò),還是可以量化驗證的性能指標(biāo),都給了智平方敢于在爭議聲中為 VLA 代言的技術(shù)底氣。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

03

比起路線之爭,

更重要的是讓模型被用起來

路線爭論天然具有傳播屬性,畢竟“制造對立”本就是傳播學(xué)上的流量密碼;技術(shù)路線的標(biāo)簽,也是各大公司在資本市場上博弈的重要籌碼。

但回到具身智能落地的現(xiàn)實,一個更緊迫的問題被忽視了:當(dāng)前行業(yè)內(nèi)能夠真正將VLA模型部署到真實機器人上、完成實用任務(wù)的團隊,依然集中在少數(shù)幾家公司手中。

這無關(guān)路線選擇,本質(zhì)上是一個工程化門檻問題。

高端VLA模型的訓(xùn)練需要大規(guī)模、高質(zhì)量的具身數(shù)據(jù),需要從感知到控制的完整工具鏈,需要在真實環(huán)境中反復(fù)調(diào)試的工程能力。雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,對于多數(shù)希望引入具身智能技術(shù)的企業(yè)和開發(fā)者而言,從零搭建這套能力體系的成本高到不切實際。模型的開源與復(fù)用、場景適配的便捷性、評測標(biāo)準(zhǔn)的統(tǒng)一性……這些決定著技術(shù)能否走出實驗室的關(guān)鍵環(huán)節(jié),長期處于缺位狀態(tài)。

恰好郭彥東在演講中介紹了一個一站式、開箱即用的具身智能模型開源社區(qū)「AlphaBrain Platform」。從其定位來看,這個開源平臺試圖解決的核心問題是,讓VLA模型不再是少數(shù)團隊的專屬能力。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

進入開源社區(qū)主頁可以看到,AlphaBrain Platform 整合了三類能力。第一是模型匯聚。平臺收錄了智平方自2023年以來研發(fā)的系列大模型,包括最新發(fā)布的類腦VLA大模型,同時也在MIT許可證允許的前提下,將行業(yè)內(nèi)表現(xiàn)優(yōu)異的模型通過數(shù)據(jù)適配納入平臺。目標(biāo)是將多方模型聚合到一個統(tǒng)一的生態(tài)中。

第二是標(biāo)準(zhǔn)化測評。不同模型在不同環(huán)境、不同任務(wù)上的表現(xiàn),缺乏公開透明的對比基準(zhǔn),這導(dǎo)致開發(fā)者選型困難。AlphaBrain Platform 提供了測試平臺和測試環(huán)境,可以一鍵式調(diào)用模型,查看其在特定測評體系下的真實表現(xiàn)。

第三是場景化訓(xùn)練工具。通用模型要適配具體場景,需要專業(yè)知識和反復(fù)調(diào)試。平臺提供了一套面向場景的RL TOKEN訓(xùn)練框架,讓開發(fā)者能夠以較低門檻讓通用模型學(xué)習(xí)特定任務(wù)的專業(yè)技能。

從商業(yè)邏輯來看,這是一次降低行業(yè)準(zhǔn)入門檻的嘗試。模型、測評、訓(xùn)練的三合一平臺,如果運轉(zhuǎn)順暢,確實可以將原本需要頂尖團隊才能駕馭的復(fù)雜系統(tǒng)能力,轉(zhuǎn)化為更廣泛的開發(fā)者群體可以獲取的公共技術(shù)資源。

這也回到了郭彥東在演講末尾的一句話:“通過這樣一個全家桶式的貼心服務(wù),希望能夠把本來可能是屬于少數(shù)團隊的一個復(fù)雜系統(tǒng)能力,轉(zhuǎn)化為整個行業(yè)都能夠共享的公共能力。”

從 VLA 路線之爭到開源平臺建設(shè),智平方在做的事實際上是同一件事:證明 VLA 不僅是一個有生命力的技術(shù)范式,更是一個可以被工程化、可以被廣泛獲取的基礎(chǔ)能力。

與之相比,孰優(yōu)孰劣的路線之爭顯得無足輕重。

看完智平方創(chuàng)始人郭彥東的這場演講,我對 VLA 又有信心了

04

結(jié)語

回到行業(yè)最初的那個問題,VLA 的時代過去了嗎?答案顯然是否定的。

VLA 始終是通往物理世界智能的最強主航道。它的核心生命力,在于它是一個持續(xù)吸納前沿技術(shù)、不斷迭代升級的開放范式,而非一套固步自封的固定架構(gòu)。從世界模型的融入,到類腦智能的加持,VLA 正在不斷吸收行業(yè)內(nèi)的前沿技術(shù)成果,持續(xù)突破自身的能力邊界。

智平方的技術(shù)路徑,恰恰印證了這一點。從國內(nèi)首個端到端 VLA 模型的發(fā)布,到世界模型的深度融合,再到類腦 VLA 架構(gòu)的創(chuàng)新,智平方始終沿著 VLA 的技術(shù)主線持續(xù)深耕,同時不斷將前沿技術(shù)融入其中,實現(xiàn)了模型能力的持續(xù)躍升。而開源生態(tài)的搭建,更是讓 VLA 技術(shù)走出了少數(shù)團隊的實驗室,成為全行業(yè)可以共享、可以落地的公共技術(shù)能力。

隨著 VLA 架構(gòu)的持續(xù)創(chuàng)新,以及開源生態(tài)的不斷完善,具身智能技術(shù)將逐步突破實驗室的邊界,進入更多真實的生產(chǎn)生活場景。通用智能機器人,也將逐步完成從演示 demo 到規(guī)?;瘜嵱卯a(chǎn)品的跨越,成為繼 PC、手機、智能汽車之后,改變?nèi)祟惿a(chǎn)生活方式的第四代智能終端。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說