日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
機器人 正文
發(fā)私信給高景輝
發(fā)送

0

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

本文作者: 高景輝   2026-05-12 16:28
導語:「自動化」是具身數(shù)據(jù)行業(yè)的第一競爭力。
對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)
「自動化」是具身數(shù)據(jù)行業(yè)的第一競爭力。

    作者丨高景輝

    編輯丨馬曉寧

                                                                                                       

2026年的具身智能賽道,熱鬧非凡。各家機器人廠商都在秀Demo、拼算力,試圖用海量數(shù)據(jù)教會機器人疊衣服、沖咖啡。但一個尷尬的現(xiàn)實是:我們似乎從未真正教會機器人“看懂”這個世界。

絕大多數(shù)機器人仍在模仿人類動作的表層軌跡,卻不理解為什么擰不開瓶蓋時要先擦擦手。這種認知缺失,像極了自動駕駛早期依賴高精地圖的窘境——能應付固定場景,卻處理不了充滿不確定性的真實生活。

而阻礙具身智能真正進入生活的瓶頸,是數(shù)據(jù)。沒有足夠好用的數(shù)據(jù),機器人就無法學習和訓練,從而無法理解真實的世界。

于是,在行業(yè)集體陷入“做模型”的宏大敘事時,簡智機器人選擇去啃一根更小眾、也更苦的骨頭:具身數(shù)據(jù)基建。

“行業(yè)里不缺做模型的公司,缺的是數(shù)據(jù),特別是從人類第一視角出發(fā)、包含思考與觸覺反饋的閉環(huán)數(shù)據(jù)?!痹诤喼菣C器人聯(lián)創(chuàng)朱雁鳴看來,單純靠模仿學習在物理AI里跑不通。如果給機器人喂的是缺乏因果鏈的“表演數(shù)據(jù)”,訓練出的模型往往只是機械的復讀機,一旦遭遇長程任務或意外干擾,就會瞬間崩潰。

簡智所做的,是一套關于“人”的全維度數(shù)據(jù)產(chǎn)品。他們自研從頭、到手、到全身的高精度數(shù)據(jù)獲取產(chǎn)品,深入家庭和商超做眾包,去捕捉人類不經(jīng)意的力反饋、多模態(tài)感知,甚至并反向分析出其行為背后的思維鏈。

在具身智能的底層邏輯里,數(shù)據(jù)不僅是燃料,更是構建認知的“第一性原理”。當大多數(shù)玩家熱衷于“造車”時,簡智為什么篤定要去建“電池廠”?未來具身智能的核心壁壘,究竟在算法還是在于那套關乎人類行為的“說明書”?

答案,遠比我們想象的更硬核。

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

01

每一條技術路線,都有一個“CTO”

雷峰網(wǎng):先從簡智的創(chuàng)立開始吧,當時創(chuàng)立公司的初心是什么?

朱雁鳴:我們最初對具身智能行業(yè)有一種朦朧的熱情。智駕本身也是一種具身智能,但更廣義的具身智能可以做人類能做的所有事情,是對生產(chǎn)力的底層變革。所以我們在具身賽道中深入研究的時候,比較想去創(chuàng)造一些差異化的價值,這也是我們選擇細分方向時候的一條準則。

我們在2025年7月成立時,更多在復盤整個具身智能產(chǎn)業(yè)中有哪些空白、不足,所以不想盲目追熱點。我們細想下來行業(yè)里不缺做模型的公司,缺的是數(shù)據(jù)基建,特別是無本體或其他范式下的數(shù)據(jù)。

當時行業(yè)還沒有大規(guī)模崇尚 UMI 或 EGO 概念,更多在通過運動控制快速出demo,或是用 VLA 的方式訓練模型。但我們相信,scale up和數(shù)據(jù)驅(qū)動是智能通往終局的關鍵路徑。而對于物理AI他所需要的數(shù)據(jù)也與之前不同,文本的世界是結構化的,但我們的生活場景每時每刻都在變化,是非結構化的世界,在此之上具身需要的是逐步替代人的能力。我們需要的是從 Human Data(人類行為數(shù)據(jù))入手,構建一套從行動到思考再到反饋的閉環(huán)數(shù)據(jù)產(chǎn)品和平臺。

雷峰網(wǎng):簡智核心團隊來自智駕領域,這一背景帶來了什么優(yōu)勢?

朱雁鳴:主要是認知層面的優(yōu)勢。泛 AI 領域里,真正實現(xiàn)落地的物理 AI 產(chǎn)品就是自動駕駛,其他 AI 落地大多停留在對話、圖像生成層面。自動駕駛是真實在路上跑、服務于人,且在技術上實現(xiàn)了端到端、數(shù)據(jù)飛輪架構落地,這讓我們對數(shù)據(jù)的 infra 有了深刻認知。

第一,模型算法迭代所需的數(shù)據(jù),一定是伴隨迭代的人類真實數(shù)據(jù)。今天具身領域,最需要被突破的方向是的預訓練,讓模型具備通識、泛化且跨本體的長任務執(zhí)行能力,并低成本做廣泛的落地。

在這個過程中,除了量大之外,更多是讓數(shù)據(jù)“坐標系”與“人理解世界”對齊,這樣才能更好的從行為到認知形成閉環(huán)。

而且在這個過程中,很多corner case非常有價值,比如人在操作時候收到干擾失敗,又怎么去彌補的過程,這些是商業(yè)化的必備能力,而這些數(shù)據(jù)必須通過長時間的真實世界積累,而非人為枚舉。

第二,是對數(shù)據(jù)閉環(huán)鏈路與商業(yè)閉環(huán)鏈路結合的思考。做自動駕駛時,數(shù)據(jù)成本非常低,因為每一臺上路行駛的量產(chǎn)車,都在持續(xù)生產(chǎn)數(shù)據(jù)。但具身智能完全不同,它的數(shù)據(jù)無法天然獲取,視頻只是最簡單的形式,要給模型做長期學習訓練,觸覺模態(tài)、人類思考鏈路等信息,無法單純通過安裝攝像頭獲取。這給了我們底層思考:要構建可行的數(shù)據(jù)鏈路,必須往更深處發(fā)力。智駕的數(shù)據(jù)生產(chǎn)基于已有的車輛,而具身數(shù)據(jù)的核心基礎,是如何擁有能讓人類在自然生活中生產(chǎn)全維度數(shù)據(jù)的設備。

第三,是鏈路、高并發(fā)數(shù)據(jù)處理的經(jīng)驗。做自動駕駛時,每天回流的數(shù)據(jù)級別接近幾百 T,大規(guī)模數(shù)據(jù)和行為需要長鏈路的清洗流程。這給我們的核心經(jīng)驗是,數(shù)據(jù)交付除了做好硬件,更重要的是應對長鏈條、大規(guī)模交付的能力,這需要在最開始就對硬件、數(shù)據(jù)鏈條、數(shù)據(jù)加工處理方式做完整的結構化設計。

雷峰網(wǎng):簡智現(xiàn)在團隊大概有多少人?研發(fā)占比多少?

朱雁鳴:規(guī)模在140人左右,研發(fā)人員占比超過85%。

雷峰網(wǎng):具身數(shù)據(jù)是一個交叉領域,對此簡智在組織上有什么調(diào)整?

朱雁鳴:具身智能需要專業(yè)領域人才,更需要領域融合后的綜合性創(chuàng)新,數(shù)據(jù)業(yè)務也是如此。所以我們結合各技術領域優(yōu)勢,每個領域預研出一條主線,這條線下的每個人都是CTO。

例如在數(shù)采設備上,涉及攝像頭、觸覺、IMU、磁編碼器等,我們有類似CTO的角色做垂線預研,橫向則由技術委員會組成,從生產(chǎn)加工到模態(tài)再到自動化鏈條,通過模型驅(qū)動拼出完整方案。成熟行業(yè)里,一個人很難全棧把所有事情規(guī)劃清楚,當下的具身數(shù)據(jù)領域,更需要每個領域都有創(chuàng)新,實現(xiàn) 1+1>2 的效果。

雷峰網(wǎng):簡智現(xiàn)在招人一般會招哪些人?

朱雁鳴:我們第一優(yōu)先級是模型方向的人才,但我們要的模型人才,不是做具身動作輸出模型的人才,而是做 data 仿真模型的人才。核心工作是將采集到的人類行為數(shù)據(jù),通過模型加工還原成接近人類整體感受的數(shù)據(jù)格式,這件事難度很高。

我們定義的 human data,核心要素包括人的第一視角圖像、全身關節(jié)運動、手上的觸覺,以及每個動作中的力反饋,這些維度可以完整描述人類絕大多數(shù)行為。比如拿起一杯水,包含看到水、接觸水、拿起時胳膊感受到的力反饋、擰開瓶蓋的全流程。

這里的核心難點是,每個模態(tài)由不同硬件收集,各硬件有不同的特征、頻率,以及硬件本身特性導致的信息殘缺,如何把它們還原成同一時間軸、同一時空坐標系下的完整數(shù)據(jù)。單純靠人工、粗糙的時間對齊,都會影響數(shù)據(jù)質(zhì)量和精度。

因此我們嘗試用數(shù)據(jù)基礎大模型(data foundation model)解決這個問題:把多模態(tài)輸入注入模型,像訓練自動駕駛端到端模型一樣,通過真值系統(tǒng)評測輸出與真實世界的匹配度,再根據(jù) gap 反向優(yōu)化模型能力。我們是行業(yè)內(nèi)第一家不用大模型做具身動作模型,而是用模型解決數(shù)據(jù)問題的企業(yè)。

第二類核心人才,是底層硬件能力相關的人才,包括光學、嵌入式軟件、PCB 板設計,以及自研觸覺方案相關的底層研發(fā)人才。我們希望通過底層原理性創(chuàng)新,提升采集過程中的模態(tài)精度。上層數(shù)據(jù)和模型只能做交叉驗證、基于已采集信息提升精度,而數(shù)據(jù)的底層對錯,需要硬件質(zhì)量來保證,這其中有很多圍繞人類感受的底層原理創(chuàng)新需要做。

雷峰網(wǎng):你們有數(shù)采工廠嗎?需要專人管理嗎?

朱雁鳴:我們采用眾包模式,數(shù)據(jù)來自真實家庭和真實場景,沒有用數(shù)采工廠方式,這是我們和其他企業(yè)不一樣的地方,也是我們認為面向終局,大規(guī)模、高效采集真實數(shù)據(jù)的最終路徑。

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

02

人的行為就是真值,

人能做出來的動作,機器人就應該能實現(xiàn)

雷峰網(wǎng):具身數(shù)據(jù)賽道有細分方向,有的只賣數(shù)據(jù),有的也賣設備,簡智屬于哪種?

朱雁鳴:我們本質(zhì)上是一家數(shù)據(jù)解決方案公司,但會根據(jù)不同場景提供不同方案。很多面向 C 端的模型公司,落地場景偏生活化,這類數(shù)據(jù)可以公開獲取,比如家庭機器人需要的各類家庭場景數(shù)據(jù),我們可以通過眾包實現(xiàn),直接給這類客戶提供數(shù)據(jù)方案。

另一類客戶的場景是封閉、自有場景,比如工廠產(chǎn)線、封閉實驗室,這類數(shù)據(jù)無法公開獲取,數(shù)據(jù)所有權本質(zhì)上在場景應用方手里。針對這類客戶,我們會提供硬件設備方案和最高效的本地化部署閉環(huán),讓他們在自有場景中完成數(shù)據(jù)采集和生產(chǎn)。

雷峰網(wǎng):有人認為設備是具身數(shù)據(jù)公司的核心壁壘,賣了設備別人就不買數(shù)據(jù)了,你們怎么看?

朱雁鳴:首先,數(shù)據(jù)和設備都很重要。設備是基建中的最底層,它決定了數(shù)據(jù)的模態(tài)數(shù)量、底層模態(tài)質(zhì)量,設備的便捷性、成本,也決定了數(shù)據(jù)采集的規(guī)模化能力,但我不認為設備就是全部。

數(shù)據(jù)最終是服務于模型的,模型需要的不是單純的視頻,也不是多模態(tài)數(shù)據(jù)的簡單打包,絕大多數(shù)核心工作,都發(fā)生在采集后的數(shù)據(jù)加工處理環(huán)節(jié)?,F(xiàn)在絕大多數(shù)模型公司,哪怕是做預訓練,都極度追求數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量會從底層影響模型的效果、精度、以及對因果關系的認知。

比如如果發(fā)生在餐館,人會考慮是不是避讓其他人的移動、繞開一些飯菜,如果只有動作表層的標注也是不夠的,背后都有完整的因果驅(qū)動,我們需要給模型提供串聯(lián)好全模態(tài)、稠密的COT過程,才能給模型提供有效的參考,讓它更容易學習。

另一個核心原因是規(guī)?;4笈吭O備采集的大批量數(shù)據(jù),如何快速、高效、低成本地轉(zhuǎn)化成可訓練的 Token,才是核心難題,生產(chǎn) 100 臺設備和 100 萬臺設備,是完全不同的難度。

雷峰網(wǎng):剛剛提到家庭眾包,具體是一種怎樣的合作方式?

朱雁鳴:我們在眾包模式上的運作很像 C 端公司。我們自己做了一款 APP,把設備給到每個家庭,用戶通過 APP 了解采集任務,用我們的設備完成正常的家務動作即可,不需要對用戶的操作做額外的教育和約束,用戶的自然操作對模型來說反而更有價值,模型需要學習多樣化的人類行為,才能補充場景盲點因此行為上傳后我們通過云端來識別、標注。

另外我們的設備在人機工程上也有明顯優(yōu)勢,非常輕便,使用效率和人類正常干活的效率基本一致。用戶完成操作后,通過 APP 上傳采集的數(shù)據(jù),我們基于數(shù)據(jù)回收情況給用戶結算,整個流程自然且高效。

雷峰網(wǎng):有沒有工業(yè)或商業(yè)場景的眾包?

朱雁鳴:有的。目前50%是家庭,30%是商超和工廠,10%是物流,剩下的10%是醫(yī)療、實驗室等分散場景。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):場景方會有隱私顧慮嗎?

朱雁鳴:這個問題我們有完善的解決方案。首先,所有數(shù)據(jù)的隱私處理,都有一套標準化流程,包括地點、人臉、對方知識產(chǎn)權相關的信息,都會在數(shù)據(jù)售賣前完成脫敏處理,這是數(shù)據(jù)公司的基礎義務。

第二,我們和每一個場景方、采集方合作時,都會在合作協(xié)議和費用說明里,明確標注雙方的權利歸屬,我們獲取的不是用戶的個人信息,而是其在場景下的行為和操作數(shù)據(jù),本身不會涉及過多個人隱私數(shù)據(jù)。

雷峰網(wǎng):眾包沒有標準化流程,數(shù)據(jù)質(zhì)量會不會參差不齊,給后期處理帶來壓力?

朱雁鳴:因為我們崇尚人的行為其實都是“真值”,畢竟無論什么情況,人都是可以克服困難完成任務。因此關鍵在于真值上傳后,是否有一套自動化的方式完成數(shù)據(jù)識別與處理。

我們的自動化識別,核心是把人的行為和動作做對齊,進行細致化的標注、分類,而非判定人的行為對錯。還有質(zhì)檢環(huán)節(jié),核心是對人的操作行為做分類,而非丟棄數(shù)據(jù)。我們會區(qū)分高速高效完成的動作、有干擾場景下完成的動作、失敗后完成糾錯的動作,同時對數(shù)據(jù)做顆粒度極細的原子化處理,以適配模型不同訓練階段的需求。

雷峰網(wǎng):你們的海外收入占比挺高的,你們在出海過程中有遇到哪些阻礙?

朱雁鳴:海外模型公司對數(shù)據(jù)的要求非常高,目前海外模型公司在模型訓練上的進展整體快于國內(nèi),他們對觸覺模態(tài)、訓練數(shù)據(jù)的體量規(guī)模、多樣性的要求非常嚴格,同時要求我們的迭代速度能匹配他們模型的進展。

雷峰網(wǎng):隨著數(shù)據(jù)量增加,存儲和算力會有壓力嗎?

朱雁鳴:肯定會有,但這件事我們很早就有預判,因為數(shù)據(jù)飛輪的重要因素就是“數(shù)據(jù)流轉(zhuǎn)效率”,對此我們從源頭做了三層解決方案:

第一,端側(cè)的數(shù)據(jù)壓縮與質(zhì)檢。我們的每一臺設備,在采集端就具備數(shù)據(jù)質(zhì)檢能力,能根據(jù)人的行為、場景的特殊情況,自動丟棄無效數(shù)據(jù),避免無效數(shù)據(jù)占用傳輸鏈路和存儲空間。

第二,行業(yè)領先的無損壓縮能力。我們在壓縮比例和對訓練效果的影響上,做到了行業(yè)綜合最優(yōu)。傳統(tǒng)壓縮方案很難平衡壓縮比和有效信息損失,我們可以把原生數(shù)據(jù)壓縮到原來的 2%,且壓縮后的數(shù)據(jù)解包用于模型訓練,訓練的指標和效率基本不受任何影響。

第三,自動化的數(shù)據(jù)處理速度。存儲成本主要來自兩部分,一是采集后的原生數(shù)據(jù)等待加工的暫存成本,二是加工后的成品數(shù)據(jù)存儲成本。最容易被忽略的,是原生數(shù)據(jù)等待加工的排隊存儲成本,這也是我們一定要用模型做自動化處理的核心原因。人工處理是線性增長的,只能靠加人提升效率;而模型可以實現(xiàn)指數(shù)級的效率提升,讓存儲成本大多只發(fā)生在成品數(shù)據(jù)上,而非中間過程。

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

03

現(xiàn)在行業(yè)對 EGO centric 的理解,

大多還停留在淺層的第一視角圖像

雷峰網(wǎng):你們對不同數(shù)據(jù)路線,比如仿真、互聯(lián)網(wǎng)視頻、遙操怎么看?

朱雁鳴:我個人認為,不同數(shù)據(jù)路線,要結合模型的訓練階段來看,它們有不同的使命和目標,但高精度、質(zhì)量、完整且泛化是通用性的要求。

首先,如果想構建具備通用能力的具身基座模型,讓模型學到底層的物理環(huán)境認知能力,那么對標對象一定是人,核心是人的 EGO(自我中心)視角出發(fā)的認知。第三視角的認知,無法形成行為因果的閉環(huán)。

比如打開冰箱拿可樂,人打開冰箱看不到可樂,會先拿走擋住可樂的物品,再拿可樂。從第三視角,無法覆蓋這些行為的完整邏輯,也無法閉環(huán)人執(zhí)行這些動作的因果鏈。因此,對于基座模型的預訓練階段,最重要的就是大量第一視角下,人類的閉環(huán)行為和邏輯數(shù)據(jù)。

仿真合成數(shù)據(jù)的價值會隨著兩個因素快速弱化。一是模型要解決的問題的復雜程度。合成數(shù)據(jù)最難的不是物理特性的仿真,比如絲巾、水流、頭發(fā)絲的仿真,而是無法仿真真實的交互。比如美國餐館端菜的場景,核心難點不是端菜動作,而是狹窄過道里避讓客人,客人抬胳膊的瞬間做出避讓動作,這些來自真實生活的交互場景,完全無法通過仿真模擬。隨著問題交互復雜度的上升,仿真數(shù)據(jù)的價值會快速下降。

二是長程任務的需求。現(xiàn)在行業(yè)里很多具身任務都是短程的,比如疊衣服 2 分鐘就能完成,但真實的家務任務,比如拖地需要半小時,中間還要去清洗拖布,這個過程中需要持續(xù)的思考和任務拆解,長程任務的邏輯,仿真也很難模擬。因此,仿真數(shù)據(jù)只在解決拿、放等基礎動作問題時有價值,越到真實場景的復雜問題,價值越弱。

另外,仿真的幻覺是非常嚴重的問題。物理 AI 對幻覺的容忍度極低,這和語言模型完全不同。就像自動駕駛對幻覺零容忍,一旦出問題就是人命關天;機器人商業(yè)化落地也是同理,用戶不會接受機器人有概率損壞家中財物。仿真的因果本身不真實,會產(chǎn)生大量幻覺,讓模型誤以為錯誤的邏輯是正確的,這也是核心短板。

真機遙操數(shù)據(jù)在我看來更適合用在評測和后訓練過程中。模型訓練的完整流程,應該是通過人類數(shù)據(jù)完成預訓練,再通過精選的人類專家數(shù)據(jù)完成中間訓練,最后基于評測結果做強化學習和后訓練。真機遙操就發(fā)生在最后這個環(huán)節(jié),基于模型前兩個階段的學習,在每個任務中的表現(xiàn),找到需要強化的部分,反向驅(qū)動模型優(yōu)化。與其說遙操是訓練數(shù)據(jù),不如說它是用來發(fā)現(xiàn)模型 bug、反向優(yōu)化的評測數(shù)據(jù)。

雷峰網(wǎng):你們現(xiàn)在用最多的是EGO數(shù)據(jù)嗎?

朱雁鳴:是的。Ego我們認為是最容易scale,且符合第一性原理的,因為天然和人的認知對齊。

雷峰網(wǎng):EGO 今年才火起來,但是你們?nèi)ツ?10 月就開始往這個方向做產(chǎn)品了,為什么會這么早進入EGO賽道?

朱雁鳴:一方面來自智駕經(jīng)驗。智駕已進入深水區(qū),單純增加數(shù)據(jù)量無法指數(shù)級提升指標,應用和訓練場景極度泛化。因此智駕的訓練核心已經(jīng)變成了強化模型的認知能力,也就是思維鏈(COT)能力。

具身智能也一樣。遙操本質(zhì)上就是最基礎的模仿學習,行業(yè)里很多 demo,都是在相同場景下錄幾百小時的人類數(shù)據(jù),回灌給模型,讓模型以接近回放的方式復現(xiàn)操作。但模型學到的只是表層的軌跡,沒有真正理解動作背后的深層邏輯,比如疊衣服為什么要先拿一角,衣服一角掉了要不要撿起來。

這些深層邏輯,只有 EGO centric 的數(shù)據(jù)能提供,非 EGO 視角的訓練,缺少了對模型深層認知的監(jiān)督,只能監(jiān)督軌跡和圖像,無法監(jiān)督模型面對問題時的解決方案,也無法獲取人類行為背后的思考邏輯。

雷峰網(wǎng):為什么行業(yè)之前沒有大規(guī)模用EGO Centric?

朱雁鳴:因為去年大家都在用 VLA。VLA 的 Backbone 是語言模型,它構建的因果是面向文本輸出的,沒有空間、重力、摩擦力,也沒有長鏈條決策?,F(xiàn)在大家發(fā)現(xiàn) VLA 滿足不了物理世界要求,所以開始回歸到導入大量人做事的方式進行訓練。

雷峰網(wǎng):大家都在開發(fā)自己的EGO設備,會不會重復造輪子?

朱雁鳴:這涉及到EGO centric 的數(shù)據(jù)核心要求。現(xiàn)在行業(yè)對 EGO centric 的理解,大多還停留在淺層的第一視角圖像,很多人頭上戴個 iPhone、掛個 GoPro 就開始采集數(shù)據(jù),但這只是第一視角的視頻,只靠視頻無法閉環(huán)人的行為和感知,存在嚴重的信息缺失。

第一,真正的 EGO 數(shù)據(jù),應該是多模態(tài)的,而不只是視頻這一個單一模態(tài)。人完成操作,不是只靠視覺反饋,還有手的觸覺、力反饋等感知信息,這些模態(tài)信息,無法通過單一的攝像設備完成采集。長期來看,具身模型一定需要理解觸覺,才能和人類的行為對齊,單一視覺的 EGO 數(shù)據(jù),無法滿足模型的長期訓練需求。

第二,多模態(tài)數(shù)據(jù)對質(zhì)量和精度有極高的要求。數(shù)據(jù)精度越高,AI 產(chǎn)生幻覺的概率就越低。因此,EGO 數(shù)據(jù)對關節(jié)精度、感知精度有天然的高要求,真正有價值、能被模型大批量學習的,是多模態(tài)、高精度的 human data,而非低質(zhì)量的第一視角視頻。低質(zhì)量數(shù)據(jù)訓練出來的模型,需要極高的二次調(diào)優(yōu)成本,就像 OpenAI 早期用互聯(lián)網(wǎng)語料訓練,最后發(fā)現(xiàn)大量問題,只能雇傭大量人員生成高質(zhì)量的人類對話數(shù)據(jù)重新訓練。

雷峰網(wǎng):那能不能用你們的手套,配合我自己的手機攝像頭采集數(shù)據(jù)?

朱雁鳴:普通消費級設備無法滿足 EGO 數(shù)據(jù)的采集需求,這里有幾個底層的技術要求。

第一,視角高精度采集,對視野有硬性要求。目前行業(yè)里有激光雷達、紅外、純視覺三條技術路線,純視覺是最合理的,因為它的魯棒性最高,也具備規(guī)?;芰?,激光雷達受硬件限制無法大規(guī)模鋪開。而純視覺方案,對攝像頭的數(shù)量和視野有明確要求。

人眼的視野是 150 度,操作時手很容易超出這個視野范圍,機器人無法像人一樣轉(zhuǎn)頭、轉(zhuǎn)動眼球,因此采集設備的視野需要遠超 150 度。我們的 EGO 采集設備做到了 270 度視野,可以完整覆蓋人手的所有動作范圍,保證因果鏈的完整。

第二,精度需要多攝像頭差分來實現(xiàn)。就像人的雙眼判斷距離更準確,多攝像頭的相位差,可以大幅提升定位精度。我們實測,單攝像頭的指尖精度上限最多 2 厘米,雙攝像頭可以降到 1.2 毫米,三攝像頭可以降到 0.8 毫米。因此,EGO 采集設備需要定制化的多攝像頭方案,傳統(tǒng)的單攝像頭手機,無法滿足精度要求。

雷峰網(wǎng):所以“原裝”的設備才是最優(yōu)的解決方案?

朱雁鳴:對,因為設備是反推數(shù)據(jù)需求來設計的,如果真的這么簡單,我們也不會投入這么多成本去做自研。

雷峰網(wǎng):頭戴設備和手部設備的協(xié)同,會不會難度很高?

朱雁鳴:難度非常高。首先是通訊與時間對齊的要求,手部設備的圖像、觸覺采集有固定頻率,頭戴設備的視頻流也有單獨的采集頻率,需要把二者的時間精度對齊到 1 毫秒。如果做不到,就會出現(xiàn)手已經(jīng)抓到物體,眼睛看到的還是上一幀畫面的延遲問題,直接影響數(shù)據(jù)的有效性。

現(xiàn)在我們做到了毫米級定位。我們最終要產(chǎn)出人在絕對空間下的絕對行為和軌跡,需要先實現(xiàn)頭和手的高精度相對定位,再以頭為中樞,實現(xiàn)頭與環(huán)境的相對定位,才能構建起手-頭-環(huán)境的完整定位體系。頭和手的相對定位,沒有直接的測量方式,只能通過多相機視覺實現(xiàn),這對相機路數(shù)、云端數(shù)據(jù)處理能力都有極高的要求。同時,在野外、大型商超等大空間場景中,人在空間里的絕對定位也有很高難度,需要多傳感器組合方案才能保證數(shù)據(jù)精度。

雷峰網(wǎng):最早你們用的是“夾爪”(UMI),現(xiàn)在變成了手套,夾爪和手套是進化關系還是并行關系?

朱雁鳴:是并行關系,本質(zhì)上是不同應用場景的適配。很多場景下,兩根手指的夾爪就足夠了,比如工業(yè)場景、基礎物流場景,只需要撿箱子、翻動物品,兩指就能滿足需求;五指結構則是面向更靈巧的操作場景。

如果從層級關系來看,五指是比兩指更上層的解決方案,更具備長期價值。如果模型基于五指數(shù)據(jù)學會了人類的基礎認知和能力,未來即便應用本體是兩指、三指結構,也不需要很高的遷移成本,這就是行業(yè)常說的跨本體遷移問題。跨本體遷移的底層,是模型的認知深度,以及是否形成了完整的因果閉環(huán),而非依賴固定的硬件形式。

雷峰網(wǎng):那現(xiàn)在 UMI 夾爪在你們的產(chǎn)品體系里,定位是什么?

朱雁鳴:UMI 現(xiàn)在的定位,主要服務兩類需求。一類是適配特定的應用場景,比如工業(yè)場景中,只需要兩指就能完成操作,甚至需要粗壯的兩指完成重物、大零件的操作,五指反而會成為負擔,這類場景會用 UMI 方案;第二類是適配客戶的產(chǎn)品需求,有些客戶現(xiàn)階段落地的產(chǎn)品就是兩指類本體,反向需要兩指類的數(shù)據(jù)滿足訓練要求,我們也會提供對應的 UMI 方案。

另外,傳統(tǒng) UMI 的構型,需要人操作設備完成動作,行為不自然,采集效率低,還會因為操作熟練度產(chǎn)生臟數(shù)據(jù)。我們現(xiàn)在做了新款的 Fingers 產(chǎn)品,構型更接近人的兩根手指,相當于從五指產(chǎn)品中去掉三根手指,只保留關鍵的兩根,是仿生構型,在采集效率、行為自然度上都有大幅提升。

雷峰網(wǎng):你們的客戶對高質(zhì)量數(shù)據(jù)的要求有哪些?

朱雁鳴:要求大概有四點。

一是極高的多樣性要求,這一點可能反常識,即便客戶只聚焦一個應用場景,在模型訓練階段,也需要多樣的行為、空間理解能力,來提升模型的魯棒性和泛化能力。

二是完整的模態(tài),模型訓練本質(zhì)上是監(jiān)督學習的過程,監(jiān)督的關鍵,就是模態(tài)與結果的對齊是否完整,因此所有和動作結果相關的模態(tài),都必須完整覆蓋,這是核心要求。

三是極致的精度,數(shù)據(jù)精度從底層決定了模型的幻覺概率,高精度的原始數(shù)據(jù),是模型訓練效果的基礎保障。

四是完整的思維鏈,這一點目前行業(yè)還沒有廣泛討論,但它是機器人實現(xiàn)長程任務的關鍵數(shù)據(jù)要求。比如拖地這個長程任務,拖過的地方不需要再拖、什么程度需要清洗拖布,都沒有固定的標準,人類執(zhí)行時的思考和推理過程,不會邊做邊說,在現(xiàn)有數(shù)據(jù)中是天然缺失的。

但這些推理過程,是讓模型理解動作背后邏輯的核心。如果只看 100 個人拖地的動作,每個人的行為是發(fā)散的,模型無法理解背后的邏輯,只能給出平均值,無法適配真實場景。因此,包含完整思維鏈的數(shù)據(jù),是高質(zhì)量數(shù)據(jù)的核心特征。

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

04

機器人廠商不會規(guī)?;瘮?shù)采,

就像汽車廠商不會自己建電池廠

雷峰網(wǎng):去年很多公司喊出“百萬小時數(shù)據(jù)”目標,你覺得實現(xiàn)起來難不難?

朱雁鳴:非常難,因為對我們來說,這百萬背后,不是單純的堆量,而是高質(zhì)量的數(shù)據(jù)集合。首先從人力角度來看,一個人一天有效產(chǎn)出數(shù)據(jù)的時間大概只有 5-6 小時,受體力等因素限制,無法滿負荷產(chǎn)出。百萬小時至少需要 20 萬人天,即便有 2000 人的運營團隊,也需要持續(xù)運營 3 個月以上,才能實現(xiàn)這個目標,而這只是人力層面的難度。

更關鍵的是,這背后需要配套海量的采集設備、極強的模型自動化處理能力、通暢的數(shù)據(jù)鏈路。整個流程就像漏斗,任何一個環(huán)節(jié)出問題,都會產(chǎn)生層層折損,最終能轉(zhuǎn)化的有效數(shù)據(jù)比例會大幅降低。

從我們的角度來看,要實現(xiàn)這個目標,有三個核心門檻:第一,是否有能滿足高質(zhì)量數(shù)據(jù)要求的設備;第二,設備能否實現(xiàn)眾包規(guī)?;涞?;第三,是否具備大規(guī)模數(shù)據(jù)的自動化鏈路處理能力。今年我們有信心產(chǎn)出超過500萬以上的高質(zhì)量數(shù)據(jù),這也是我們體系化能力建設后的快速增長能力。

現(xiàn)在我們有信心、也已經(jīng)和其中大部分企業(yè)建立長期合作。喊口號沒有意義,關鍵要看是否真正落地了相關的設備、團隊和體系化能力。

雷峰網(wǎng):有些做模型的公司,自己也在做數(shù)據(jù),那做數(shù)據(jù)的公司,是不是也可以自己做模型?你們未來會不會切入模型賽道?

朱雁鳴:我們對模型始終保持敬畏。一個行業(yè)的發(fā)展分為三個階段:學術階段,核心是確定實現(xiàn)長期目標的技術范式;產(chǎn)業(yè)階段,范式明確后,用工程化的方式加速落地;商業(yè)階段,面向交付、成本、商業(yè)化指標優(yōu)化。

從目前來看,具身智能行業(yè),連學術階段的問題都沒有被完整解決,現(xiàn)在行業(yè)里的產(chǎn)品,很難在某一個專職事情上做到和人一樣的水平。因此,我們現(xiàn)階段的核心,還是服務好模型公司,幫他們訓出更好的模型。

雷峰網(wǎng):如何看待GEN1?

朱雁鳴:至少從我的角度,我非常認可 Generalist,他們是一家非常純粹的公司。他們一直堅持用 scaling law 的方式,提升具身智能的表現(xiàn),這是他們的底層驅(qū)動。

回到 GEN1 的表現(xiàn),我認為有三個核心亮點。第一,實現(xiàn)了同一模型的多任務執(zhí)行能力。現(xiàn)在行業(yè)里很多公司的模型,本質(zhì)上是狹義的專有模型,比如專門做疊衣服的模型,換個任務表現(xiàn)就會很差,但 G1 在多任務場景下的表現(xiàn),已經(jīng)得到了驗證。

第二,模型從多樣數(shù)據(jù)中,真正學到了人類的糾錯能力。從他們發(fā)布的視頻能看到,模型第一次執(zhí)行任務失敗后,能快速根據(jù)錯誤完成糾正;面對刻意的干擾,也能及時給出解決方案,這一點非常難得。

第三,已經(jīng)開始探索長程任務的實現(xiàn)。他們已經(jīng)在嘗試 3-5 分鐘完成一個完整的復雜任務,而非同一個動作重復十幾次,這是行業(yè)里非常少有的探索,也貼合具身智能的真實落地需求。

雷峰網(wǎng): Generalist 訓練用的數(shù)據(jù),主要也是 EGO 數(shù)據(jù)嗎?

朱雁鳴:他們現(xiàn)在主要還是用 UMI 夾爪,但也已經(jīng)在探索ego方向,因為umi存在自己的上限,尤其是移動機器人場景,UMI 會更難適配。

雷峰網(wǎng):Generalist 與國內(nèi)具身智能公司有哪些差異?

朱雁鳴:首先是理念上的差異。Generalist 與其說像一家公司,不如說更像一家科研機構,團隊只有二十幾個人,沒有商業(yè)化目標,融資也不以商業(yè)化做核心訴求,非常純粹,專注于通過底層創(chuàng)新迭代技術本身。而國內(nèi)大多數(shù)做具身的公司,都背負著融資和商業(yè)化的壓力,很難做到這種純粹。

其次是勇氣,現(xiàn)階段人類數(shù)據(jù)做基座模型、大規(guī)模預訓練是需要投入非常多資源,而且存在巨大不確定性的事情。Generalist 的底層創(chuàng)新,核心是沒有復用任何開源模型,完全基于 UMI 的數(shù)據(jù)從零重訓,這個過程非常漫長,需要消耗大量的算力和數(shù)據(jù),后期的消耗只會更大。

雷峰網(wǎng):未來國內(nèi)數(shù)據(jù)賽道的格局會是怎樣的?

朱雁鳴:會是有頭部也有分散的生態(tài)。因為第一這個市場的盤子足夠大,沒有任何一家公司能完全吃下。第二,數(shù)據(jù)面向商業(yè)化落地時,會有大量垂類需求,數(shù)據(jù)和算法是綁定的垂類關系,不可能有一家公司的一套方案,能完美適配所有場景,一定會有企業(yè)在細分垂類里做得更適配。

因此,最終會形成的格局是:有幾家公司做成大的通用數(shù)據(jù)平臺,而在細分垂類賽道里,依然有不同的玩家,是一個多元的市場狀態(tài)。在通用場景下,行業(yè)會慢慢趨同,會出現(xiàn)方案、價格都有明顯優(yōu)勢的頭部供應商。

雷峰網(wǎng):整機廠商未來一定要買第三方數(shù)據(jù)嗎?這種數(shù)據(jù)依賴是持續(xù)性的嗎?

朱雁鳴:本質(zhì)上這是產(chǎn)業(yè)鏈分工的問題,不存在某個技術壁壘讓別人完全做不了,但隨著行業(yè)成熟,產(chǎn)業(yè)鏈分工會越來越明確,各方的邊界也會越來越清晰。

第一,數(shù)據(jù)全鏈條的復雜度,遠超語言模型和自動駕駛時代。它需要單獨的設備研發(fā)、單獨的鏈路搭建、單獨的模型和運營能力維護,而且數(shù)據(jù)的價值是長期的。機器人訓練新模型,最值錢的不是它已經(jīng)會的操作數(shù)據(jù),而是它不會的、犯錯的場景數(shù)據(jù),這需要持續(xù)的、大規(guī)模的數(shù)據(jù)采集和處理能力。

第二,全鏈條的體系化能力,會形成效率和成本的壁壘。短期壁壘是誰能先搭建起完整的體系,提供模型公司需要的產(chǎn)品;長期來看,就是成本的競爭,體系越成熟、效率越高,規(guī)?;蟮某杀緝?yōu)勢就越明顯。

我經(jīng)常用一個類比,數(shù)據(jù)對于機器人廠商,就像輪胎對于汽車廠。電池是每臺車的必備部件,成本也不低,但現(xiàn)在沒有一家汽車廠會自己建輪胎廠,核心原因就是專業(yè)的廠商,在成本、效率上都比自己做更高,從零到一自建反而得不償失。

雷峰網(wǎng):數(shù)采行業(yè)的核心競爭力是什么?

朱雁鳴:數(shù)采行業(yè)的核心競爭力有三個核心維度:

第一,自動化能力。核心是數(shù)據(jù)公司能不能構建自己的飛輪:隨著交付的數(shù)據(jù)越多,自動化能力越強,數(shù)據(jù)交付的效率越高、質(zhì)量越好。這是具身時代對數(shù)據(jù)公司的核心要求,誰能先構建出以數(shù)據(jù)鏈路、模型驅(qū)動的自動化數(shù)據(jù)產(chǎn)線,誰就掌握了核心競爭力。

第二,硬件模態(tài)研發(fā)能力。現(xiàn)在大多數(shù)數(shù)采公司,都沒有專注做硬件的底層研發(fā),要么用開源方案,要么用消費級產(chǎn)品拼湊,這種拼湊出來的方案,產(chǎn)出的數(shù)據(jù)看似可用,但 3-5 個月后就會被證偽,無法支撐模型的長期訓練。硬件模態(tài)的研發(fā),還要兼顧低成本,只有確定了可規(guī)?;?、低成本的模態(tài)方案,才能談第三個核心競爭力。

第三,真正的規(guī)?;芰Α?/span>自動化水平高、模態(tài)全、成本低,才能實現(xiàn)最好的規(guī)?;?。規(guī)模化的核心,是構建敏捷的數(shù)據(jù)鏈條,實現(xiàn)成本的非線性增長。如果 10 萬條數(shù)據(jù)的成本,只比 1 萬條翻了一倍,而非 10 倍,才能不斷提升業(yè)務的天花板,這才是可持續(xù)的商業(yè)模式。

對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)
對話簡智朱雁鳴:不卷模型卷基建,具身智能核心是讀懂人的數(shù)據(jù)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說