日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

<tbody id="iuowo"><td id="iuowo"></td></tbody>

<tr id="iuowo"><button id="iuowo"></button></tr><dfn id="iuowo"><dd id="iuowo"></dd></dfn>

<tr id="iuowo"><fieldset id="iuowo"></fieldset></tr>

<td id="iuowo"></td>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

機器人正文

發(fā)私信給高景輝

發(fā)送

0

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

本文作者：高景輝

2026-05-07 21:02

導(dǎo)語：VLA沒有終結(jié)，反而在持續(xù)變強。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

VLA沒有終結(jié)，反而在持續(xù)變強。

作者丨高景輝

編輯丨馬曉寧

2026 年的具身智能賽道，正陷入一場關(guān)于技術(shù)路線的激烈爭論。

先是宇樹科技創(chuàng)始人王興興公開表示，世界模型是更有希望的技術(shù)路線；再是英偉達在 GTC 大會上發(fā)布 GR00T N1，將世界模型作為通用人形機器人基礎(chǔ)模型的核心架構(gòu)。一時間，世界模型成為行業(yè)最熱的關(guān)鍵詞。

與之相對的，是 “VLA 時代已經(jīng)終結(jié)” 的論調(diào)在行業(yè)內(nèi)快速擴散。大量從業(yè)者開始質(zhì)疑，曾經(jīng)被視為具身智能核心范式的 VLA模型，是否已經(jīng)被新的技術(shù)浪潮拋下。

VLA 的時代真的過去了嗎？在 2026 年 4 月的 FAIR plus 大會主論壇上，智平方創(chuàng)始人郭彥東用一場演講直接回應(yīng)了這場爭論，他的判斷很明確：VLA的時代遠(yuǎn)未終結(jié)，世界模型正在匯入 VLA 的河流，其中下一個關(guān)鍵變量則是類腦架構(gòu)。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

隨著逐漸理解這一判斷背后的內(nèi)在邏輯，我對 VLA 路線的信心又一點一點地重建了起來。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

01

世界模型，終結(jié)不了 VLA

要判斷一個技術(shù)范式是否過時，首先需要回到第一性原理：它解決的核心問題是什么？這些問題的解決方式是否已被根本性地顛覆？

VLA 即 Vision-Language-Action，視覺、語言、動作三個詞定義了一個完整的閉環(huán)：機器人通過視覺感知環(huán)境，通過語言理解指令并進行推理，通過動作輸出完成物理交互。從感知到理解到執(zhí)行，這是一條不可拆解的鏈條。

郭彥東也在演講中強調(diào)：“不管是Vision、Language、Action怎么組織，它的組織方式會有變化，但是需要三個核心的要素，這個范式是永遠(yuǎn)不會有變化的?！?/span>

這個判斷有充分的技術(shù)邏輯支撐。具身智能完成一項任務(wù)，必須先知道環(huán)境里有什么（視覺感知），理解任務(wù)是什么（語言推理），再調(diào)動身體去執(zhí)行（動作控制），這三個環(huán)節(jié)缺一不可。

你可以優(yōu)化感知模塊的分辨率，可以提升語言模型的推理能力，可以改進動作控制的精度——這些都屬于“怎么組織”的問題。但你不能去掉感知模塊，讓機器人在黑暗中摸索；不能去掉推理模塊，讓機器人機械地重復(fù)固定程序；更不能去掉動作模塊，因為不與物理世界交互，就不存在具身智能。

當(dāng)前所謂“VLA時代終結(jié)”的論調(diào)，混淆了兩個層面的問題：一是 VLA 作為一個技術(shù)范式的存續(xù)，二是具體架構(gòu)形式的迭代。前者關(guān)乎具身智能的本質(zhì)需求，后者只是實現(xiàn)路徑的選擇問題。

Gartner技術(shù)成熟度曲線告訴我們，一項技術(shù)從過高期望的峰值滑落后，往往被輿論判定為“失敗”，但這個階段恰恰是技術(shù)與實際場景深度磨合的關(guān)鍵期，真正的生產(chǎn)力突破往往在此發(fā)生。

VLA 便處于這一階段，其當(dāng)前面臨的爭議，更像是在從實驗室原型邁向工業(yè)級落地的過程中，技術(shù)邊界被清晰認(rèn)知后的必要調(diào)整。

實際上，VLA 從來不是一個固化的技術(shù)方案。它從誕生之初就在不斷吸納新的方法論。從最早的對齊式VLA，到快慢學(xué)習(xí)VLA，再到當(dāng)前將世界模型融入 VLA 的探索，技術(shù)架構(gòu)一直在演進。把 VLA 等同于某一個歷史版本的實現(xiàn)方式，是對這個范式的誤讀。

那么，世界模型在這場演進中扮演什么角色？

郭彥東在演講中做了一個關(guān)鍵區(qū)分：“把世界模型用來增強 VLA，和把世界模型融入 VLA，是不同的兩個范式。我們認(rèn)為把世界模型融入到VLA里面，讓 VLA 具備更強的泛化能力，是VLA變得更強的必由之路?！?/span>

這個區(qū)分的實質(zhì)在于：世界模型是作為一種外部工具來輔助 VLA，還是成為 VLA 架構(gòu)內(nèi)部的一個有機組成部分？前者是松耦合，可以隨時替換；后者是緊耦合，改變了 VLA 的感知與推理方式。

世界模型的核心價值在于讓機器人生成對物理世界的預(yù)測能力。傳統(tǒng) VLA 的瓶頸之一是：模型雖然能理解“把杯子放到桌子上”這條指令，但對“杯子被碰倒后會滾動”“松手后物體會下落”這類物理常識缺乏內(nèi)在判斷。當(dāng)環(huán)境出現(xiàn)預(yù)期之外的變化時，模型容易做出錯誤動作。

融入世界模型后，VLA 可以內(nèi)生地形成對物理規(guī)律的理解。它不再被動地映射“感知→動作”的對應(yīng)關(guān)系，而是能夠預(yù)測動作的后果，在行動之前進行模擬推演。這補齊了傳統(tǒng) VLA 在物理預(yù)測和泛化適配上的短板。

這塊短板恰恰是制約VLA從實驗室走向真實場景的關(guān)鍵障礙。真實物理世界充滿不確定性——光照變化、物體位置偏移、外力干擾——模型如果只靠大量標(biāo)注數(shù)據(jù)來覆蓋所有情況，泛化天花板很快就會觸達。世界模型提供了另一種路徑：讓模型理解底層物理規(guī)律，從而在未見過的場景中也能做出合理動作。

從這個角度看，世界模型是VLA架構(gòu)的重要升級模塊，而非獨立于 VLA 之外的新賽道。所謂“世界模型取代VLA”的說法，在技術(shù)邏輯上說不通——世界模型解決的是預(yù)測和泛化問題，它本身并不直接輸出動作，也不直接處理視覺輸入，它需要嵌入到端到端的感知-推理-執(zhí)行閉環(huán)中才能發(fā)揮作用。

總而言之，每一代迭代，VLA都在解決上一代在真實物理世界中暴露的核心痛點：泛化能力不足、動作穩(wěn)定性差、時空感知魯棒性弱。它從來不是一個固化的技術(shù)方案，而是一個持續(xù)吸收新技術(shù)、不斷進化的開放范式。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

02

能為 VLA 代言的，為什么是智平方？

捋清 VLA 與世界模型的關(guān)系是一回事，拿出有說服力的技術(shù)成果又是另一回事。智平方之所以能在爭論中為 VLA 發(fā)聲，離不開長期的技術(shù)積累和獨特的架構(gòu)創(chuàng)新。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

時間線拉回到2023年。彼時具身智能的概念剛剛升溫，多數(shù)團隊還處于觀望或單點技術(shù)探索階段，而智平方剛成立就明確了方向：物理世界大模型。同年，他們發(fā)布了中國創(chuàng)業(yè)公司中的首個端到端 VLA 具身大模型。

一步卡位，決定了此后的技術(shù)慣性。與那些從計算機視覺或自然語言處理轉(zhuǎn)投具身智能的團隊不同，智平方從第一天就將機器人動作控制作為模型輸出的核心環(huán)節(jié)來設(shè)計，而非事后嫁接。這種底層的差異，使得他們在后續(xù)技術(shù)迭代中更容易突破感知與控制之間的隔閡。

不過，先發(fā)優(yōu)勢本身不足以構(gòu)成護城河，智平方真正的技術(shù)壁壘來自對 VLA 架構(gòu)底層邏輯的重新理解，典型的例子就是2025年6月推出的快慢學(xué)習(xí)VLA架構(gòu)（FiS-VLA）。

雖然此前也有人將“雙系統(tǒng)”設(shè)計引入VLA大模型，但由于兩個系統(tǒng)相互獨立，使得快系統(tǒng)無法充分利用慢系統(tǒng)的豐富預(yù)訓(xùn)練知識，導(dǎo)致執(zhí)行能力大打折扣。

而智平方首創(chuàng)的快慢學(xué)習(xí) VLA 架構(gòu)，將動作模型從語言模型中分離出來，形成“慢系統(tǒng)”和“快系統(tǒng)”的雙軌制，其中慢系統(tǒng)負(fù)責(zé)情境理解與任務(wù)規(guī)劃，快系統(tǒng)負(fù)責(zé)運動執(zhí)行與實時反饋。這套架構(gòu)為后續(xù)的技術(shù)迭代奠定了底層邏輯。

有了架構(gòu)基礎(chǔ)，下一個問題是：快系統(tǒng)能快到什么程度？放在實戰(zhàn)中效果究竟怎么樣？

智平方攜手港科大最新發(fā)布的NeuroVLA給出了答案。這套全球首個類腦架構(gòu)的VLA大模型，將仿生分層設(shè)計推到了新的技術(shù)高度。

傳統(tǒng) VLA 的設(shè)計思路，是讓一個統(tǒng)一的大模型同時處理感知、推理和控制。這種集中式架構(gòu)的問題在于：高層級的語義理解和低層級的運動控制被混在一起處理。結(jié)果是兩頭不討好，運動控制延遲高、抖動大，而推理過程又被高頻控制任務(wù)搶占計算資源。

在此背景下，智平方創(chuàng)造性地提出將“小腦”和“脊柱”模塊融入機器人操作環(huán)節(jié)。這個思路的獨到之處在于，它改變了具身智能領(lǐng)域長期以來的一個默認(rèn)設(shè)定：小腦和軀干只負(fù)責(zé)運動，而操作任務(wù)由大腦統(tǒng)一指揮。

正如郭彥東在演講中所言：“我們也在行業(yè)當(dāng)中最早提出了要把小腦和脊柱的部分也融入操作當(dāng)中，這樣對于整個操作來講，它可以有毫秒級安全的自適應(yīng)，這個是機器人進入到真實環(huán)境最核心的要素。”

雷峰網(wǎng)認(rèn)為，郭彥東做出這一判斷的背后，是對生物智能的深入理解。人類在執(zhí)行精細(xì)操作時，大腦皮層只負(fù)責(zé)發(fā)出高層指令——“擰開那個瓶蓋”，而手指如何協(xié)調(diào)、力度如何調(diào)整、遇到意外阻力如何應(yīng)對，這些都由小腦和脊髓層面的神經(jīng)回路自動完成。這套分層架構(gòu)是億萬年進化的產(chǎn)物，它的核心優(yōu)勢在于：將高頻、低延遲的反饋控制下沉到低層級處理，解放高層級進行復(fù)雜的語義推理。

具體來說，NeuroVLA 將機器人的計算架構(gòu)明確分為三層。最上層是運行在GPU上的“大腦”層（皮質(zhì)模塊），專注于理解視覺和語言指令，生成抽象的任務(wù)目標(biāo)。中間是“小腦”層（小腦模塊），作為一個自適應(yīng)濾波器，以每秒數(shù)百次的頻率讀取機器人本體的關(guān)節(jié)、力度等傳感器數(shù)據(jù)，實時平滑大腦發(fā)出的指令，消除抖動，并根據(jù)外力干擾即時調(diào)整運動軌跡。最底層是“脊髓”層（脈沖脊髓模塊），部署在專用的神經(jīng)形態(tài)芯片上，以脈沖神經(jīng)網(wǎng)絡(luò)的方式驅(qū)動電機。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

這套架構(gòu)的技術(shù)突破集中在底層。脈沖神經(jīng)網(wǎng)絡(luò)的核心特點是事件驅(qū)動，即只有需要動作時神經(jīng)元才“放電”，靜止時幾乎不耗能。這與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)需要持續(xù)進行矩陣運算的模式形成了根本性差異。根據(jù)智平方公布的數(shù)據(jù)，NeuroVLA 在實體機器人執(zhí)行任務(wù)時，“脊髓”層平均功耗僅為0.4W。

0.4W是什么概念？一部手機進行視頻播放時功耗都要達到1-3W，NeuroVLA 能耗之低可見一斑。對于依賴電池供電的移動機器人而言，這種能效比是決定能否實現(xiàn)全天候自主作業(yè)的關(guān)鍵指標(biāo)。

此外，NeuroVLA 在“脊髓”層內(nèi)置了快速安全反射通路，一旦檢測到突然的碰撞力，可在20毫秒內(nèi)直接觸發(fā)撤退動作，完全繞過較慢的大腦回路。傳統(tǒng) VLA 系統(tǒng)的反應(yīng)延遲通常在200毫秒以上，這10倍的差距，在真實人機協(xié)作場景中意義重大，畢竟20毫秒足夠讓機器人在碰觸到人手的瞬間收回機械臂，避免造成傷害。

實驗數(shù)據(jù)證明了這套架構(gòu)的實戰(zhàn)效果。在碰撞干擾測試中，NeuroVLA 的傳統(tǒng)對照模型在遭遇外力碰撞后全部任務(wù)失敗，成功率為0%。而 NeuroVLA 不僅能在20毫秒內(nèi)觸發(fā)保護性撤回，還能在之后自主調(diào)整路徑繞開障礙，任務(wù)恢復(fù)成功率達到54.8%。機械臂的動作抖動被抑制了75%以上。這些數(shù)據(jù)指向一個實質(zhì)性的突破：機器人首次表現(xiàn)出了類似生物“本能反應(yīng)”的生存能力。

無論是從快慢學(xué)習(xí) VLA 到 NeuroVLA 的技術(shù)迭代脈絡(luò)，還是可以量化驗證的性能指標(biāo)，都給了智平方敢于在爭議聲中為 VLA 代言的技術(shù)底氣。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

03

比起路線之爭，

更重要的是讓模型被用起來

路線爭論天然具有傳播屬性，畢竟“制造對立”本就是傳播學(xué)上的流量密碼；技術(shù)路線的標(biāo)簽，也是各大公司在資本市場上博弈的重要籌碼。

但回到具身智能落地的現(xiàn)實，一個更緊迫的問題被忽視了：當(dāng)前行業(yè)內(nèi)能夠真正將VLA模型部署到真實機器人上、完成實用任務(wù)的團隊，依然集中在少數(shù)幾家公司手中。

這無關(guān)路線選擇，本質(zhì)上是一個工程化門檻問題。

高端VLA模型的訓(xùn)練需要大規(guī)模、高質(zhì)量的具身數(shù)據(jù)，需要從感知到控制的完整工具鏈，需要在真實環(huán)境中反復(fù)調(diào)試的工程能力。雷峰網(wǎng)(公眾號：雷峰網(wǎng))了解到，對于多數(shù)希望引入具身智能技術(shù)的企業(yè)和開發(fā)者而言，從零搭建這套能力體系的成本高到不切實際。模型的開源與復(fù)用、場景適配的便捷性、評測標(biāo)準(zhǔn)的統(tǒng)一性……這些決定著技術(shù)能否走出實驗室的關(guān)鍵環(huán)節(jié)，長期處于缺位狀態(tài)。

恰好郭彥東在演講中介紹了一個一站式、開箱即用的具身智能模型開源社區(qū)「AlphaBrain Platform」。從其定位來看，這個開源平臺試圖解決的核心問題是，讓VLA模型不再是少數(shù)團隊的專屬能力。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

進入開源社區(qū)主頁可以看到，AlphaBrain Platform 整合了三類能力。第一是模型匯聚。平臺收錄了智平方自2023年以來研發(fā)的系列大模型，包括最新發(fā)布的類腦VLA大模型，同時也在MIT許可證允許的前提下，將行業(yè)內(nèi)表現(xiàn)優(yōu)異的模型通過數(shù)據(jù)適配納入平臺。目標(biāo)是將多方模型聚合到一個統(tǒng)一的生態(tài)中。

第二是標(biāo)準(zhǔn)化測評。不同模型在不同環(huán)境、不同任務(wù)上的表現(xiàn)，缺乏公開透明的對比基準(zhǔn)，這導(dǎo)致開發(fā)者選型困難。AlphaBrain Platform 提供了測試平臺和測試環(huán)境，可以一鍵式調(diào)用模型，查看其在特定測評體系下的真實表現(xiàn)。

第三是場景化訓(xùn)練工具。通用模型要適配具體場景，需要專業(yè)知識和反復(fù)調(diào)試。平臺提供了一套面向場景的RL TOKEN訓(xùn)練框架，讓開發(fā)者能夠以較低門檻讓通用模型學(xué)習(xí)特定任務(wù)的專業(yè)技能。

從商業(yè)邏輯來看，這是一次降低行業(yè)準(zhǔn)入門檻的嘗試。模型、測評、訓(xùn)練的三合一平臺，如果運轉(zhuǎn)順暢，確實可以將原本需要頂尖團隊才能駕馭的復(fù)雜系統(tǒng)能力，轉(zhuǎn)化為更廣泛的開發(fā)者群體可以獲取的公共技術(shù)資源。

這也回到了郭彥東在演講末尾的一句話：“通過這樣一個全家桶式的貼心服務(wù)，希望能夠把本來可能是屬于少數(shù)團隊的一個復(fù)雜系統(tǒng)能力，轉(zhuǎn)化為整個行業(yè)都能夠共享的公共能力。”

從 VLA 路線之爭到開源平臺建設(shè)，智平方在做的事實際上是同一件事：證明 VLA 不僅是一個有生命力的技術(shù)范式，更是一個可以被工程化、可以被廣泛獲取的基礎(chǔ)能力。

與之相比，孰優(yōu)孰劣的路線之爭顯得無足輕重。

看完智平方創(chuàng)始人郭彥東的這場演講，我對 VLA 又有信心了

04

結(jié)語

回到行業(yè)最初的那個問題，VLA 的時代過去了嗎？答案顯然是否定的。

VLA 始終是通往物理世界智能的最強主航道。它的核心生命力，在于它是一個持續(xù)吸納前沿技術(shù)、不斷迭代升級的開放范式，而非一套固步自封的固定架構(gòu)。從世界模型的融入，到類腦智能的加持，VLA 正在不斷吸收行業(yè)內(nèi)的前沿技術(shù)成果，持續(xù)突破自身的能力邊界。

智平方的技術(shù)路徑，恰恰印證了這一點。從國內(nèi)首個端到端 VLA 模型的發(fā)布，到世界模型的深度融合，再到類腦 VLA 架構(gòu)的創(chuàng)新，智平方始終沿著 VLA 的技術(shù)主線持續(xù)深耕，同時不斷將前沿技術(shù)融入其中，實現(xiàn)了模型能力的持續(xù)躍升。而開源生態(tài)的搭建，更是讓 VLA 技術(shù)走出了少數(shù)團隊的實驗室，成為全行業(yè)可以共享、可以落地的公共技術(shù)能力。

隨著 VLA 架構(gòu)的持續(xù)創(chuàng)新，以及開源生態(tài)的不斷完善，具身智能技術(shù)將逐步突破實驗室的邊界，進入更多真實的生產(chǎn)生活場景。通用智能機器人，也將逐步完成從演示 demo 到規(guī)?；瘜嵱卯a(chǎn)品的跨越，成為繼 PC、手機、智能汽車之后，改變?nèi)祟惿a(chǎn)生活方式的第四代智能終端。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

高景輝

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

機器人 iOS應(yīng)用寶馬搜狗迅雷云存儲快手語音助手餓了么 Lyft 高德地圖

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<option id="6imas"><strong id="6imas"></strong></option>