第一視角效率超過真機(jī)，深度機(jī)智發(fā)布全球首個以人類學(xué)習(xí)范式構(gòu)建的具身基座模型

本文作者：齊鋮湧

2026-04-07 15:04

導(dǎo)語：喧囂之下，一個尷尬的共識正在形成：沒有人知道正確的技術(shù)路線究竟是什么。遙操作、仿真合成、互聯(lián)網(wǎng)視頻、人類第一視角……

2026年，具身智能的泡沫與烈火同時燃燒。

宇樹科技遞交招股書，估值沖擊百億；Figure AI、Physical Intelligence等美國公司融資額屢創(chuàng)新高，將行業(yè)熱度推向頂點(diǎn)。國內(nèi)創(chuàng)業(yè)公司緊急跟進(jìn)——堆數(shù)據(jù)、搶場景、拼本體，十萬小時真機(jī)數(shù)據(jù)成為新的軍備競賽標(biāo)的。

但喧囂之下，一個尷尬的共識正在形成：沒有人知道正確的技術(shù)路線究竟是什么。遙操作、仿真合成、互聯(lián)網(wǎng)視頻、人類第一視角……數(shù)據(jù)類型的選擇尚未收斂；行星減速、諧波力控、電驅(qū)液壓……本體結(jié)構(gòu)的爭論也還沒落地。行業(yè)在"大力出奇跡"的信仰下狂奔，卻鮮有人追問：這些海量數(shù)據(jù)，究竟在教機(jī)器人什么？

最近，AI科技評論觀察到，越來越多具身智能公司開始探索一條新的數(shù)據(jù)路徑："人類第一視角數(shù)據(jù)"。

2026年以來，小米、螞蟻、章魚動力等公司在紛紛組建新團(tuán)隊跟進(jìn)這一路線。其中，以微軟亞洲研究院前首席研究員陳凱的觀點(diǎn)，引發(fā)了行業(yè)的熱烈討論。

3月27號，作為深度機(jī)智的創(chuàng)始人，陳凱在中關(guān)村論壇上代表深度機(jī)智，發(fā)布了首個具身智能基座模型PhysBrain 1.0，并公布了他們的研究成果。

這個模型僅使用1000小時人類第一視角數(shù)據(jù)、零真機(jī)數(shù)據(jù)，在多個國際權(quán)威榜單上超越了用數(shù)萬小時真機(jī)數(shù)據(jù)的競爭對手，在多個國際 Benchmark 上取得 SOTA，比 Physical Intelligence 和英偉達(dá)等頭部巨頭表現(xiàn)更好。

某種程度上，一場具身智能領(lǐng)域關(guān)于"物理常識"的革命，正在悄然開啟。

模型缺乏物理常識，是具身領(lǐng)域的巨大痛點(diǎn)

"目前不管是VLM（視覺語言模型）還是世界模型，始終會卡在一個點(diǎn)上：它們?nèi)狈ξ锢沓ＷR。"深度機(jī)智創(chuàng)始人陳凱在中關(guān)村論壇上直接指出了這一行業(yè)痛點(diǎn)。

這個判斷直指當(dāng)前具身智能的核心困境。和很多學(xué)者遇到的情況一樣，陳凱提到 VLM 模型不理解空間、時序，"桌子上面放了幾個杯子，它數(shù)不清有幾個"；視頻生成模型"視覺上足以亂真，但運(yùn)動的真實(shí)性和物理真實(shí)性比較差"。這些看似基礎(chǔ)的能力缺失，讓機(jī)器人在面對真實(shí)世界的復(fù)雜性時屢屢碰壁。

問題的根源在于數(shù)據(jù)與學(xué)習(xí)的錯位。當(dāng)前行業(yè)主流的做法——遙操作采集真機(jī)數(shù)據(jù)、仿真合成虛擬數(shù)據(jù)、或是模仿人類手部軌跡，本質(zhì)上都是在教機(jī)器人"模仿動作"，而非"理解世界"。

"現(xiàn)在非常多的做法——背動作、背軌跡——其實(shí)是手把手地教猴子干活。"陳凱用了一個形象的比喻，"而我們正在嘗試的是：請菩提祖師把猴子變成孫悟空，讓它先理解世界，再去學(xué)習(xí)技能。"

這種"理解優(yōu)先"的方法論，正在獲得越來越多證據(jù)的支持。深度機(jī)智近期發(fā)布的PhysBrain 1.0模型正式針對這樣的思路，做出的階段性成果。

這一結(jié)果挑戰(zhàn)了一個行業(yè)默認(rèn)假設(shè)：更多的數(shù)據(jù)，是否必然帶來更好的智能？

人類第一視角：被重新發(fā)現(xiàn)的數(shù)據(jù)富礦

"人類第一視角數(shù)據(jù)，因為它是人看過去的第一視角的世界，收集的是真實(shí)物理世界的數(shù)據(jù)，天然就蘊(yùn)含著各種各樣的物理常識。"陳凱解釋道自己為什么要押注這一路線。

無獨(dú)有偶，這種數(shù)據(jù)類型的價值，在2024-2025年間逐漸被重新發(fā)現(xiàn)。2025年5月，特斯拉宣布放棄遙操作，轉(zhuǎn)向人類第一視角；6月，F(xiàn)igure AI發(fā)布"扔積木"的擬人行為Demo；10月，Generalist AI驗證Scaling Law；12月，Physical Intelligence確認(rèn)人類數(shù)據(jù)價值；2026年2-3月，英偉達(dá)發(fā)表論文交叉驗證。

行業(yè)共識迅速形成：人類第一視角數(shù)據(jù)不是遙操作的替代品，而是通往"物理常識"的關(guān)鍵路徑。

但分歧依然存在。英偉達(dá)的論文仍專注手部軌跡預(yù)訓(xùn)練，而深度機(jī)智選擇"直接上來就要增強(qiáng)VLM本身——讓它依據(jù)人看到的這個世界去理解世界"。陳凱認(rèn)為，這種差異讓深度機(jī)智"在整個流程上應(yīng)該比英偉達(dá)略有領(lǐng)先"。

更深層的差異在于數(shù)據(jù)的"多樣性"。遙操作數(shù)據(jù)記錄機(jī)器人視角，任務(wù)和場景由人工設(shè)計；UMI（通用操作接口）數(shù)據(jù)需要人手持夾爪，"很難想象工廠主要求員工不能用手干活"。

而人類第一視角數(shù)據(jù)捕捉的是真實(shí)生活，"哪怕你是靜靜地發(fā)呆，你看到外面車水馬龍，這些數(shù)據(jù)對我們都有價值"。

這種多樣性帶來的不僅是數(shù)據(jù)量的節(jié)省，更是學(xué)習(xí)質(zhì)量的躍遷。

從"軌跡擬合"到"物理常識"：方法論的范式轉(zhuǎn)移

"智能涌現(xiàn)"現(xiàn)象為這場革命提供了最直觀的證據(jù)。

深度機(jī)智的測試中，訓(xùn)練數(shù)據(jù)全是"夾起胡蘿卜放盤子里"，但機(jī)械臂碰到胡蘿卜沒夾到時，竟"自發(fā)選擇推"——推一次沒推進(jìn)去，換角度加大力度再推，最后才轉(zhuǎn)變策略夾起來。另一個案例中，機(jī)械爪夾方塊太靠后掉落，它主動回來撿，第一次沒撿起，第二次"做了一個非常輕微的旋轉(zhuǎn)"成功夾起。

"這種靈活性，甚至你都沒有辦法預(yù)編程把它搞出來。"陳凱描述這一現(xiàn)象時強(qiáng)調(diào)，"千小時人類數(shù)據(jù)增強(qiáng)物理常識，自發(fā)地把人類靈活變通的能力遷移到了機(jī)器人身上。"

這種"涌現(xiàn)"能力揭示了一個深層規(guī)律：當(dāng)模型具備足夠的物理常識，它不再依賴精確的軌跡模仿，而是能夠像人類一樣"理解情境、靈活應(yīng)對"。這正是"物理常識"革命的核心，從"教動作"到"教理解"的范式轉(zhuǎn)移。

Physical Intelligence創(chuàng)始人將這種能力稱為"智能的暗物質(zhì)"（Physical common sense is the dark matter of intelligence）。DeepMind的哈薩比斯則認(rèn)為，原生多模態(tài)模型對物理世界的更好理解，可成為機(jī)器人的大腦。（雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

"所有的這些點(diǎn)都?xì)w結(jié)到一個：要先去理解這個世界，然后再到這個世界里面去行動。"陳凱總結(jié)道。

跨本體能力：物理常識的遷移效應(yīng)

"物理常識"革命的另一個重要成果，是"跨本體能力"的涌現(xiàn)。

傳統(tǒng)方法需要"把不同形態(tài)的機(jī)器人的數(shù)據(jù)做聯(lián)合訓(xùn)練"才能實(shí)現(xiàn)技能遷移。但深度機(jī)智觀察到："有了一個理解物理常識的大腦，自然而然知道適配什么樣的身體。"

這一發(fā)現(xiàn)顛覆了"一個機(jī)器人一套數(shù)據(jù)"的行業(yè)慣例。用LoRA預(yù)訓(xùn)練action expert，再用Franka機(jī)械臂微調(diào)，數(shù)據(jù)需求大幅下降——"不同形態(tài)機(jī)器人背后的物理規(guī)律一模一樣"。

"跨本體是物理智能增強(qiáng)自然而然會出現(xiàn)的結(jié)果，并不是刻意地把多種機(jī)器人數(shù)據(jù)放在一起訓(xùn)練出來的結(jié)果。"陳凱解釋道。

這意味著，物理常識具有跨平臺、跨形態(tài)的通用性。一旦模型掌握了"物體受力會移動""抓取需要摩擦力"等基礎(chǔ)規(guī)律，它就能將這些知識遷移到新的硬件平臺上，而無需從頭學(xué)習(xí)。

這種通用性，正是通往"具身通用智能"的關(guān)鍵階梯。

"人類學(xué)習(xí)路線"正在國內(nèi)悄然崛起

在全球具身智能競賽中，中國與美國呈現(xiàn)出不同的側(cè)重。

過去，中國和美國在具身智能領(lǐng)域內(nèi)，其實(shí)是各有側(cè)重，中國聚焦本體，美國是聚焦在大腦上。比較典型的是宇樹科技等公司在硬件迭代上取得顯著成績，但"具身大腦上的團(tuán)隊其實(shí)并沒有那么多"。

這一格局正在改變。2025-2026年間，國內(nèi)開始涌現(xiàn)專注"大腦"的團(tuán)隊。深度機(jī)智的崛起，以及小米、螞蟻、章魚動力等公司在2026年初紛紛組建新團(tuán)隊跟進(jìn)"人類學(xué)習(xí)路線"，標(biāo)志著行業(yè)重心的轉(zhuǎn)移。

從某種角度上，國內(nèi)目前的路徑和認(rèn)知上和世界一流科學(xué)家區(qū)別不大，但需要更多的投入。其中，數(shù)據(jù)成本優(yōu)勢尤為明顯，美國標(biāo)注第一視角27萬小時花上億美刀，中國千萬小時人力歷史數(shù)據(jù)今年整個行業(yè)就會達(dá)到。

2026年，"物理常識"革命仍處于早期，盡管深度機(jī)智的1000小時數(shù)據(jù)"涌現(xiàn)"了糾錯、變通、跨本體等能力，但陳凱承認(rèn)這仍是"偶然的智能涌現(xiàn)"。2026年底是否會出現(xiàn)"效果出人意料好的具身智能大模型"？兩三年能否重現(xiàn)ChatGPT時刻？

更深層的挑戰(zhàn)在于行業(yè)生態(tài)。

"物理常識"的提取、標(biāo)注、利用，需要全新的模型架構(gòu)和訓(xùn)練方法，與當(dāng)前主流的VLA、π0架構(gòu)并不兼容。這意味著，擁抱"物理常識"革命，可能需要放棄既有的技術(shù)積累和基礎(chǔ)設(shè)施。

但回報同樣誘人。一旦機(jī)器人具備真正的"物理常識"，它將不再是"教什么會什么"的專用工具，而是"理解情境、靈活應(yīng)對"的通用助手。這將徹底改變制造業(yè)、服務(wù)業(yè)、危險作業(yè)等無數(shù)領(lǐng)域的生產(chǎn)力圖景。

在這方面的認(rèn)知上，陳凱提到"這可能是人工智能的最后一個機(jī)會，也是最大的一次。"，這或許是對這場革命押注的決心。（雷峰網(wǎng)）

當(dāng)行業(yè)仍在"大力出奇跡"的信仰下堆砌數(shù)據(jù)時，一條"理解優(yōu)先"的新路徑已經(jīng)顯現(xiàn)。它不是對數(shù)據(jù)量的否定，而是對學(xué)習(xí)質(zhì)的重構(gòu)——從"模仿動作"到"理解世界"，從"教猴子"到"變孫悟空"。

這場"物理常識"革命能否成功，將決定具身智能的下一個十年。而2026年，正是關(guān)鍵的轉(zhuǎn)折之年。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

齊鋮湧

編輯

發(fā)私信

當(dāng)月熱門文章