對話簡智朱雁鳴：不卷模型卷基建，具身智能核心是讀懂人的數(shù)據(jù)

本文作者：高景輝

2026-05-12 16:28

導語：「自動化」是具身數(shù)據(jù)行業(yè)的第一競爭力。

「自動化」是具身數(shù)據(jù)行業(yè)的第一競爭力。

作者丨高景輝

編輯丨馬曉寧

2026年的具身智能賽道，熱鬧非凡。各家機器人廠商都在秀Demo、拼算力，試圖用海量數(shù)據(jù)教會機器人疊衣服、沖咖啡。但一個尷尬的現(xiàn)實是：我們似乎從未真正教會機器人“看懂”這個世界。

絕大多數(shù)機器人仍在模仿人類動作的表層軌跡，卻不理解為什么擰不開瓶蓋時要先擦擦手。這種認知缺失，像極了自動駕駛早期依賴高精地圖的窘境——能應付固定場景，卻處理不了充滿不確定性的真實生活。

而阻礙具身智能真正進入生活的瓶頸，是數(shù)據(jù)。沒有足夠好用的數(shù)據(jù)，機器人就無法學習和訓練，從而無法理解真實的世界。

于是，在行業(yè)集體陷入“做模型”的宏大敘事時，簡智機器人選擇去啃一根更小眾、也更苦的骨頭：具身數(shù)據(jù)基建。

“行業(yè)里不缺做模型的公司，缺的是數(shù)據(jù)，特別是從人類第一視角出發(fā)、包含思考與觸覺反饋的閉環(huán)數(shù)據(jù)?！痹诤喼菣C器人聯(lián)創(chuàng)朱雁鳴看來，單純靠模仿學習在物理AI里跑不通。如果給機器人喂的是缺乏因果鏈的“表演數(shù)據(jù)”，訓練出的模型往往只是機械的復讀機，一旦遭遇長程任務或意外干擾，就會瞬間崩潰。

簡智所做的，是一套關于“人”的全維度數(shù)據(jù)產(chǎn)品。他們自研從頭、到手、到全身的高精度數(shù)據(jù)獲取產(chǎn)品，深入家庭和商超做眾包，去捕捉人類不經(jīng)意的力反饋、多模態(tài)感知，甚至并反向分析出其行為背后的思維鏈。

在具身智能的底層邏輯里，數(shù)據(jù)不僅是燃料，更是構建認知的“第一性原理”。當大多數(shù)玩家熱衷于“造車”時，簡智為什么篤定要去建“電池廠”？未來具身智能的核心壁壘，究竟在算法還是在于那套關乎人類行為的“說明書”？

答案，遠比我們想象的更硬核。

每一條技術路線，都有一個“CTO”

雷峰網(wǎng)：先從簡智的創(chuàng)立開始吧，當時創(chuàng)立公司的初心是什么？

朱雁鳴：我們最初對具身智能行業(yè)有一種朦朧的熱情。智駕本身也是一種具身智能，但更廣義的具身智能可以做人類能做的所有事情，是對生產(chǎn)力的底層變革。所以我們在具身賽道中深入研究的時候，比較想去創(chuàng)造一些差異化的價值，這也是我們選擇細分方向時候的一條準則。

我們在2025年7月成立時，更多在復盤整個具身智能產(chǎn)業(yè)中有哪些空白、不足，所以不想盲目追熱點。我們細想下來行業(yè)里不缺做模型的公司，缺的是數(shù)據(jù)基建，特別是無本體或其他范式下的數(shù)據(jù)。

當時行業(yè)還沒有大規(guī)模崇尚 UMI 或 EGO 概念，更多在通過運動控制快速出demo，或是用 VLA 的方式訓練模型。但我們相信，scale up和數(shù)據(jù)驅(qū)動是智能通往終局的關鍵路徑。而對于物理AI他所需要的數(shù)據(jù)也與之前不同，文本的世界是結構化的，但我們的生活場景每時每刻都在變化，是非結構化的世界，在此之上具身需要的是逐步替代人的能力。我們需要的是從 Human Data（人類行為數(shù)據(jù)）入手，構建一套從行動到思考再到反饋的閉環(huán)數(shù)據(jù)產(chǎn)品和平臺。

雷峰網(wǎng)：簡智核心團隊來自智駕領域，這一背景帶來了什么優(yōu)勢？

朱雁鳴：主要是認知層面的優(yōu)勢。泛 AI 領域里，真正實現(xiàn)落地的物理 AI 產(chǎn)品就是自動駕駛，其他 AI 落地大多停留在對話、圖像生成層面。自動駕駛是真實在路上跑、服務于人，且在技術上實現(xiàn)了端到端、數(shù)據(jù)飛輪架構落地，這讓我們對數(shù)據(jù)的 infra 有了深刻認知。

第一，模型算法迭代所需的數(shù)據(jù)，一定是伴隨迭代的人類真實數(shù)據(jù)。今天具身領域，最需要被突破的方向是的預訓練，讓模型具備通識、泛化且跨本體的長任務執(zhí)行能力，并低成本做廣泛的落地。

在這個過程中，除了量大之外，更多是讓數(shù)據(jù)“坐標系”與“人理解世界”對齊，這樣才能更好的從行為到認知形成閉環(huán)。

而且在這個過程中，很多corner case非常有價值，比如人在操作時候收到干擾失敗，又怎么去彌補的過程，這些是商業(yè)化的必備能力，而這些數(shù)據(jù)必須通過長時間的真實世界積累，而非人為枚舉。

第二，是對數(shù)據(jù)閉環(huán)鏈路與商業(yè)閉環(huán)鏈路結合的思考。做自動駕駛時，數(shù)據(jù)成本非常低，因為每一臺上路行駛的量產(chǎn)車，都在持續(xù)生產(chǎn)數(shù)據(jù)。但具身智能完全不同，它的數(shù)據(jù)無法天然獲取，視頻只是最簡單的形式，要給模型做長期學習訓練，觸覺模態(tài)、人類思考鏈路等信息，無法單純通過安裝攝像頭獲取。這給了我們底層思考：要構建可行的數(shù)據(jù)鏈路，必須往更深處發(fā)力。智駕的數(shù)據(jù)生產(chǎn)基于已有的車輛，而具身數(shù)據(jù)的核心基礎，是如何擁有能讓人類在自然生活中生產(chǎn)全維度數(shù)據(jù)的設備。

第三，是長鏈路、高并發(fā)數(shù)據(jù)處理的經(jīng)驗。做自動駕駛時，每天回流的數(shù)據(jù)級別接近幾百 T，大規(guī)模數(shù)據(jù)和行為需要長鏈路的清洗流程。這給我們的核心經(jīng)驗是，數(shù)據(jù)交付除了做好硬件，更重要的是應對長鏈條、大規(guī)模交付的能力，這需要在最開始就對硬件、數(shù)據(jù)鏈條、數(shù)據(jù)加工處理方式做完整的結構化設計。

雷峰網(wǎng)：簡智現(xiàn)在團隊大概有多少人？研發(fā)占比多少？

朱雁鳴：規(guī)模在140人左右，研發(fā)人員占比超過85%。

雷峰網(wǎng)：具身數(shù)據(jù)是一個交叉領域，對此簡智在組織上有什么調(diào)整？

朱雁鳴：具身智能需要專業(yè)領域人才，更需要領域融合后的綜合性創(chuàng)新，數(shù)據(jù)業(yè)務也是如此。所以我們結合各技術領域優(yōu)勢，每個領域預研出一條主線，這條線下的每個人都是CTO。

例如在數(shù)采設備上，涉及攝像頭、觸覺、IMU、磁編碼器等，我們有類似CTO的角色做垂線預研，橫向則由技術委員會組成，從生產(chǎn)加工到模態(tài)再到自動化鏈條，通過模型驅(qū)動拼出完整方案。成熟行業(yè)里，一個人很難全棧把所有事情規(guī)劃清楚，當下的具身數(shù)據(jù)領域，更需要每個領域都有創(chuàng)新，實現(xiàn) 1+1＞2 的效果。

雷峰網(wǎng)：簡智現(xiàn)在招人一般會招哪些人？

朱雁鳴：我們第一優(yōu)先級是模型方向的人才，但我們要的模型人才，不是做具身動作輸出模型的人才，而是做 data 仿真模型的人才。核心工作是將采集到的人類行為數(shù)據(jù)，通過模型加工還原成接近人類整體感受的數(shù)據(jù)格式，這件事難度很高。

我們定義的 human data，核心要素包括人的第一視角圖像、全身關節(jié)運動、手上的觸覺，以及每個動作中的力反饋，這些維度可以完整描述人類絕大多數(shù)行為。比如拿起一杯水，包含看到水、接觸水、拿起時胳膊感受到的力反饋、擰開瓶蓋的全流程。

這里的核心難點是，每個模態(tài)由不同硬件收集，各硬件有不同的特征、頻率，以及硬件本身特性導致的信息殘缺，如何把它們還原成同一時間軸、同一時空坐標系下的完整數(shù)據(jù)。單純靠人工、粗糙的時間對齊，都會影響數(shù)據(jù)質(zhì)量和精度。

因此我們嘗試用數(shù)據(jù)基礎大模型（data foundation model）解決這個問題：把多模態(tài)輸入注入模型，像訓練自動駕駛端到端模型一樣，通過真值系統(tǒng)評測輸出與真實世界的匹配度，再根據(jù) gap 反向優(yōu)化模型能力。我們是行業(yè)內(nèi)第一家不用大模型做具身動作模型，而是用模型解決數(shù)據(jù)問題的企業(yè)。

第二類核心人才，是底層硬件能力相關的人才，包括光學、嵌入式軟件、PCB 板設計，以及自研觸覺方案相關的底層研發(fā)人才。我們希望通過底層原理性創(chuàng)新，提升采集過程中的模態(tài)精度。上層數(shù)據(jù)和模型只能做交叉驗證、基于已采集信息提升精度，而數(shù)據(jù)的底層對錯，需要硬件質(zhì)量來保證，這其中有很多圍繞人類感受的底層原理創(chuàng)新需要做。

雷峰網(wǎng)：你們有數(shù)采工廠嗎？需要專人管理嗎？

朱雁鳴：我們采用眾包模式，數(shù)據(jù)來自真實家庭和真實場景，沒有用數(shù)采工廠方式，這是我們和其他企業(yè)不一樣的地方，也是我們認為面向終局，大規(guī)模、高效采集真實數(shù)據(jù)的最終路徑。

人的行為就是真值，

人能做出來的動作，機器人就應該能實現(xiàn)

雷峰網(wǎng)：具身數(shù)據(jù)賽道有細分方向，有的只賣數(shù)據(jù)，有的也賣設備，簡智屬于哪種？

朱雁鳴：我們本質(zhì)上是一家數(shù)據(jù)解決方案公司，但會根據(jù)不同場景提供不同方案。很多面向 C 端的模型公司，落地場景偏生活化，這類數(shù)據(jù)可以公開獲取，比如家庭機器人需要的各類家庭場景數(shù)據(jù)，我們可以通過眾包實現(xiàn)，直接給這類客戶提供數(shù)據(jù)方案。

另一類客戶的場景是封閉、自有場景，比如工廠產(chǎn)線、封閉實驗室，這類數(shù)據(jù)無法公開獲取，數(shù)據(jù)所有權本質(zhì)上在場景應用方手里。針對這類客戶，我們會提供硬件設備方案和最高效的本地化部署閉環(huán)，讓他們在自有場景中完成數(shù)據(jù)采集和生產(chǎn)。

雷峰網(wǎng)：有人認為設備是具身數(shù)據(jù)公司的核心壁壘，賣了設備別人就不買數(shù)據(jù)了，你們怎么看？

朱雁鳴：首先，數(shù)據(jù)和設備都很重要。設備是基建中的最底層，它決定了數(shù)據(jù)的模態(tài)數(shù)量、底層模態(tài)質(zhì)量，設備的便捷性、成本，也決定了數(shù)據(jù)采集的規(guī)模化能力，但我不認為設備就是全部。

數(shù)據(jù)最終是服務于模型的，模型需要的不是單純的視頻，也不是多模態(tài)數(shù)據(jù)的簡單打包，絕大多數(shù)核心工作，都發(fā)生在采集后的數(shù)據(jù)加工處理環(huán)節(jié)?，F(xiàn)在絕大多數(shù)模型公司，哪怕是做預訓練，都極度追求數(shù)據(jù)質(zhì)量，數(shù)據(jù)質(zhì)量會從底層影響模型的效果、精度、以及對因果關系的認知。

比如如果發(fā)生在餐館，人會考慮是不是避讓其他人的移動、繞開一些飯菜，如果只有動作表層的標注也是不夠的，背后都有完整的因果驅(qū)動，我們需要給模型提供串聯(lián)好全模態(tài)、稠密的COT過程，才能給模型提供有效的參考，讓它更容易學習。

另一個核心原因是規(guī)?；４笈吭O備采集的大批量數(shù)據(jù)，如何快速、高效、低成本地轉(zhuǎn)化成可訓練的 Token，才是核心難題，生產(chǎn) 100 臺設備和 100 萬臺設備，是完全不同的難度。

雷峰網(wǎng)：剛剛提到家庭眾包，具體是一種怎樣的合作方式？

朱雁鳴：我們在眾包模式上的運作很像 C 端公司。我們自己做了一款 APP，把設備給到每個家庭，用戶通過 APP 了解采集任務，用我們的設備完成正常的家務動作即可，不需要對用戶的操作做額外的教育和約束，用戶的自然操作對模型來說反而更有價值，模型需要學習多樣化的人類行為，才能補充場景盲點，因此行為上傳后我們通過云端來識別、標注。

另外我們的設備在人機工程上也有明顯優(yōu)勢，非常輕便，使用效率和人類正常干活的效率基本一致。用戶完成操作后，通過 APP 上傳采集的數(shù)據(jù)，我們基于數(shù)據(jù)回收情況給用戶結算，整個流程自然且高效。

雷峰網(wǎng)：有沒有工業(yè)或商業(yè)場景的眾包？

朱雁鳴：有的。目前50%是家庭，30%是商超和工廠，10%是物流，剩下的10%是醫(yī)療、實驗室等分散場景。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))：場景方會有隱私顧慮嗎？

朱雁鳴：這個問題我們有完善的解決方案。首先，所有數(shù)據(jù)的隱私處理，都有一套標準化流程，包括地點、人臉、對方知識產(chǎn)權相關的信息，都會在數(shù)據(jù)售賣前完成脫敏處理，這是數(shù)據(jù)公司的基礎義務。

第二，我們和每一個場景方、采集方合作時，都會在合作協(xié)議和費用說明里，明確標注雙方的權利歸屬，我們獲取的不是用戶的個人信息，而是其在場景下的行為和操作數(shù)據(jù)，本身不會涉及過多個人隱私數(shù)據(jù)。

雷峰網(wǎng)：眾包沒有標準化流程，數(shù)據(jù)質(zhì)量會不會參差不齊，給后期處理帶來壓力？

朱雁鳴：因為我們崇尚人的行為其實都是“真值”，畢竟無論什么情況，人都是可以克服困難完成任務。因此關鍵在于真值上傳后，是否有一套自動化的方式完成數(shù)據(jù)識別與處理。

我們的自動化識別，核心是把人的行為和動作做對齊，進行細致化的標注、分類，而非判定人的行為對錯。還有質(zhì)檢環(huán)節(jié)，核心是對人的操作行為做分類，而非丟棄數(shù)據(jù)。我們會區(qū)分高速高效完成的動作、有干擾場景下完成的動作、失敗后完成糾錯的動作，同時對數(shù)據(jù)做顆粒度極細的原子化處理，以適配模型不同訓練階段的需求。

雷峰網(wǎng)：你們的海外收入占比挺高的，你們在出海過程中有遇到哪些阻礙？

朱雁鳴：海外模型公司對數(shù)據(jù)的要求非常高，目前海外模型公司在模型訓練上的進展整體快于國內(nèi)，他們對觸覺模態(tài)、訓練數(shù)據(jù)的體量規(guī)模、多樣性的要求非常嚴格，同時要求我們的迭代速度能匹配他們模型的進展。

雷峰網(wǎng)：隨著數(shù)據(jù)量增加，存儲和算力會有壓力嗎？

朱雁鳴：肯定會有，但這件事我們很早就有預判，因為數(shù)據(jù)飛輪的重要因素就是“數(shù)據(jù)流轉(zhuǎn)效率”，對此我們從源頭做了三層解決方案：

第一，端側(cè)的數(shù)據(jù)壓縮與質(zhì)檢。我們的每一臺設備，在采集端就具備數(shù)據(jù)質(zhì)檢能力，能根據(jù)人的行為、場景的特殊情況，自動丟棄無效數(shù)據(jù)，避免無效數(shù)據(jù)占用傳輸鏈路和存儲空間。

第二，行業(yè)領先的無損壓縮能力。我們在壓縮比例和對訓練效果的影響上，做到了行業(yè)綜合最優(yōu)。傳統(tǒng)壓縮方案很難平衡壓縮比和有效信息損失，我們可以把原生數(shù)據(jù)壓縮到原來的 2%，且壓縮后的數(shù)據(jù)解包用于模型訓練，訓練的指標和效率基本不受任何影響。

第三，自動化的數(shù)據(jù)處理速度。存儲成本主要來自兩部分，一是采集后的原生數(shù)據(jù)等待加工的暫存成本，二是加工后的成品數(shù)據(jù)存儲成本。最容易被忽略的，是原生數(shù)據(jù)等待加工的排隊存儲成本，這也是我們一定要用模型做自動化處理的核心原因。人工處理是線性增長的，只能靠加人提升效率；而模型可以實現(xiàn)指數(shù)級的效率提升，讓存儲成本大多只發(fā)生在成品數(shù)據(jù)上，而非中間過程。

現(xiàn)在行業(yè)對 EGO centric 的理解，

大多還停留在淺層的第一視角圖像

雷峰網(wǎng)：你們對不同數(shù)據(jù)路線，比如仿真、互聯(lián)網(wǎng)視頻、遙操怎么看？

朱雁鳴：我個人認為，不同數(shù)據(jù)路線，要結合模型的訓練階段來看，它們有不同的使命和目標，但高精度、質(zhì)量、完整且泛化是通用性的要求。

首先，如果想構建具備通用能力的具身基座模型，讓模型學到底層的物理環(huán)境認知能力，那么對標對象一定是人，核心是人的 EGO（自我中心）視角出發(fā)的認知。第三視角的認知，無法形成行為因果的閉環(huán)。

比如打開冰箱拿可樂，人打開冰箱看不到可樂，會先拿走擋住可樂的物品，再拿可樂。從第三視角，無法覆蓋這些行為的完整邏輯，也無法閉環(huán)人執(zhí)行這些動作的因果鏈。因此，對于基座模型的預訓練階段，最重要的就是大量第一視角下，人類的閉環(huán)行為和邏輯數(shù)據(jù)。

仿真合成數(shù)據(jù)的價值會隨著兩個因素快速弱化。一是模型要解決的問題的復雜程度。合成數(shù)據(jù)最難的不是物理特性的仿真，比如絲巾、水流、頭發(fā)絲的仿真，而是無法仿真真實的交互。比如美國餐館端菜的場景，核心難點不是端菜動作，而是狹窄過道里避讓客人，客人抬胳膊的瞬間做出避讓動作，這些來自真實生活的交互場景，完全無法通過仿真模擬。隨著問題交互復雜度的上升，仿真數(shù)據(jù)的價值會快速下降。

二是長程任務的需求。現(xiàn)在行業(yè)里很多具身任務都是短程的，比如疊衣服 2 分鐘就能完成，但真實的家務任務，比如拖地需要半小時，中間還要去清洗拖布，這個過程中需要持續(xù)的思考和任務拆解，長程任務的邏輯，仿真也很難模擬。因此，仿真數(shù)據(jù)只在解決拿、放等基礎動作問題時有價值，越到真實場景的復雜問題，價值越弱。

另外，仿真的幻覺是非常嚴重的問題。物理 AI 對幻覺的容忍度極低，這和語言模型完全不同。就像自動駕駛對幻覺零容忍，一旦出問題就是人命關天；機器人商業(yè)化落地也是同理，用戶不會接受機器人有概率損壞家中財物。仿真的因果本身不真實，會產(chǎn)生大量幻覺，讓模型誤以為錯誤的邏輯是正確的，這也是核心短板。

真機遙操數(shù)據(jù)在我看來更適合用在評測和后訓練過程中。模型訓練的完整流程，應該是通過人類數(shù)據(jù)完成預訓練，再通過精選的人類專家數(shù)據(jù)完成中間訓練，最后基于評測結果做強化學習和后訓練。真機遙操就發(fā)生在最后這個環(huán)節(jié)，基于模型前兩個階段的學習，在每個任務中的表現(xiàn)，找到需要強化的部分，反向驅(qū)動模型優(yōu)化。與其說遙操是訓練數(shù)據(jù)，不如說它是用來發(fā)現(xiàn)模型 bug、反向優(yōu)化的評測數(shù)據(jù)。

雷峰網(wǎng)：你們現(xiàn)在用最多的是EGO數(shù)據(jù)嗎？

朱雁鳴：是的。Ego我們認為是最容易scale，且符合第一性原理的，因為天然和人的認知對齊。

雷峰網(wǎng)：EGO 今年才火起來，但是你們?nèi)ツ?10 月就開始往這個方向做產(chǎn)品了，為什么會這么早進入EGO賽道？

朱雁鳴：一方面來自智駕經(jīng)驗。智駕已進入深水區(qū)，單純增加數(shù)據(jù)量無法指數(shù)級提升指標，應用和訓練場景極度泛化。因此智駕的訓練核心已經(jīng)變成了強化模型的認知能力，也就是思維鏈（COT）能力。

具身智能也一樣。遙操本質(zhì)上就是最基礎的模仿學習，行業(yè)里很多 demo，都是在相同場景下錄幾百小時的人類數(shù)據(jù)，回灌給模型，讓模型以接近回放的方式復現(xiàn)操作。但模型學到的只是表層的軌跡，沒有真正理解動作背后的深層邏輯，比如疊衣服為什么要先拿一角，衣服一角掉了要不要撿起來。

這些深層邏輯，只有 EGO centric 的數(shù)據(jù)能提供，非 EGO 視角的訓練，缺少了對模型深層認知的監(jiān)督，只能監(jiān)督軌跡和圖像，無法監(jiān)督模型面對問題時的解決方案，也無法獲取人類行為背后的思考邏輯。

雷峰網(wǎng)：為什么行業(yè)之前沒有大規(guī)模用EGO Centric？

朱雁鳴：因為去年大家都在用 VLA。VLA 的 Backbone 是語言模型，它構建的因果是面向文本輸出的，沒有空間、重力、摩擦力，也沒有長鏈條決策?，F(xiàn)在大家發(fā)現(xiàn) VLA 滿足不了物理世界要求，所以開始回歸到導入大量人做事的方式進行訓練。

雷峰網(wǎng)：大家都在開發(fā)自己的EGO設備，會不會重復造輪子？

朱雁鳴：這涉及到EGO centric 的數(shù)據(jù)核心要求。現(xiàn)在行業(yè)對 EGO centric 的理解，大多還停留在淺層的第一視角圖像，很多人頭上戴個 iPhone、掛個 GoPro 就開始采集數(shù)據(jù)，但這只是第一視角的視頻，只靠視頻無法閉環(huán)人的行為和感知，存在嚴重的信息缺失。

第一，真正的 EGO 數(shù)據(jù)，應該是多模態(tài)的，而不只是視頻這一個單一模態(tài)。人完成操作，不是只靠視覺反饋，還有手的觸覺、力反饋等感知信息，這些模態(tài)信息，無法通過單一的攝像設備完成采集。長期來看，具身模型一定需要理解觸覺，才能和人類的行為對齊，單一視覺的 EGO 數(shù)據(jù)，無法滿足模型的長期訓練需求。

第二，多模態(tài)數(shù)據(jù)對質(zhì)量和精度有極高的要求。數(shù)據(jù)精度越高，AI 產(chǎn)生幻覺的概率就越低。因此，EGO 數(shù)據(jù)對關節(jié)精度、感知精度有天然的高要求，真正有價值、能被模型大批量學習的，是多模態(tài)、高精度的 human data，而非低質(zhì)量的第一視角視頻。低質(zhì)量數(shù)據(jù)訓練出來的模型，需要極高的二次調(diào)優(yōu)成本，就像 OpenAI 早期用互聯(lián)網(wǎng)語料訓練，最后發(fā)現(xiàn)大量問題，只能雇傭大量人員生成高質(zhì)量的人類對話數(shù)據(jù)重新訓練。

雷峰網(wǎng)：那能不能用你們的手套，配合我自己的手機攝像頭采集數(shù)據(jù)？

朱雁鳴：普通消費級設備無法滿足 EGO 數(shù)據(jù)的采集需求，這里有幾個底層的技術要求。

第一，視角高精度采集，對視野有硬性要求。目前行業(yè)里有激光雷達、紅外、純視覺三條技術路線，純視覺是最合理的，因為它的魯棒性最高，也具備規(guī)?；芰?，激光雷達受硬件限制無法大規(guī)模鋪開。而純視覺方案，對攝像頭的數(shù)量和視野有明確要求。

人眼的視野是 150 度，操作時手很容易超出這個視野范圍，機器人無法像人一樣轉(zhuǎn)頭、轉(zhuǎn)動眼球，因此采集設備的視野需要遠超 150 度。我們的 EGO 采集設備做到了 270 度視野，可以完整覆蓋人手的所有動作范圍，保證因果鏈的完整。

第二，精度需要多攝像頭差分來實現(xiàn)。就像人的雙眼判斷距離更準確，多攝像頭的相位差，可以大幅提升定位精度。我們實測，單攝像頭的指尖精度上限最多 2 厘米，雙攝像頭可以降到 1.2 毫米，三攝像頭可以降到 0.8 毫米。因此，EGO 采集設備需要定制化的多攝像頭方案，傳統(tǒng)的單攝像頭手機，無法滿足精度要求。

雷峰網(wǎng)：所以“原裝”的設備才是最優(yōu)的解決方案？

朱雁鳴：對，因為設備是反推數(shù)據(jù)需求來設計的，如果真的這么簡單，我們也不會投入這么多成本去做自研。

雷峰網(wǎng)：頭戴設備和手部設備的協(xié)同，會不會難度很高？

朱雁鳴：難度非常高。首先是通訊與時間對齊的要求，手部設備的圖像、觸覺采集有固定頻率，頭戴設備的視頻流也有單獨的采集頻率，需要把二者的時間精度對齊到 1 毫秒。如果做不到，就會出現(xiàn)手已經(jīng)抓到物體，眼睛看到的還是上一幀畫面的延遲問題，直接影響數(shù)據(jù)的有效性。

現(xiàn)在我們做到了毫米級定位。我們最終要產(chǎn)出人在絕對空間下的絕對行為和軌跡，需要先實現(xiàn)頭和手的高精度相對定位，再以頭為中樞，實現(xiàn)頭與環(huán)境的相對定位，才能構建起手-頭-環(huán)境的完整定位體系。頭和手的相對定位，沒有直接的測量方式，只能通過多相機視覺實現(xiàn)，這對相機路數(shù)、云端數(shù)據(jù)處理能力都有極高的要求。同時，在野外、大型商超等大空間場景中，人在空間里的絕對定位也有很高難度，需要多傳感器組合方案才能保證數(shù)據(jù)精度。

雷峰網(wǎng)：最早你們用的是“夾爪”（UMI），現(xiàn)在變成了手套，夾爪和手套是進化關系還是并行關系？

朱雁鳴：是并行關系，本質(zhì)上是不同應用場景的適配。很多場景下，兩根手指的夾爪就足夠了，比如工業(yè)場景、基礎物流場景，只需要撿箱子、翻動物品，兩指就能滿足需求；五指結構則是面向更靈巧的操作場景。

如果從層級關系來看，五指是比兩指更上層的解決方案，更具備長期價值。如果模型基于五指數(shù)據(jù)學會了人類的基礎認知和能力，未來即便應用本體是兩指、三指結構，也不需要很高的遷移成本，這就是行業(yè)常說的跨本體遷移問題。跨本體遷移的底層，是模型的認知深度，以及是否形成了完整的因果閉環(huán)，而非依賴固定的硬件形式。

雷峰網(wǎng)：那現(xiàn)在 UMI 夾爪在你們的產(chǎn)品體系里，定位是什么？

朱雁鳴：UMI 現(xiàn)在的定位，主要服務兩類需求。一類是適配特定的應用場景，比如工業(yè)場景中，只需要兩指就能完成操作，甚至需要粗壯的兩指完成重物、大零件的操作，五指反而會成為負擔，這類場景會用 UMI 方案；第二類是適配客戶的產(chǎn)品需求，有些客戶現(xiàn)階段落地的產(chǎn)品就是兩指類本體，反向需要兩指類的數(shù)據(jù)滿足訓練要求，我們也會提供對應的 UMI 方案。

另外，傳統(tǒng) UMI 的構型，需要人操作設備完成動作，行為不自然，采集效率低，還會因為操作熟練度產(chǎn)生臟數(shù)據(jù)。我們現(xiàn)在做了新款的 Fingers 產(chǎn)品，構型更接近人的兩根手指，相當于從五指產(chǎn)品中去掉三根手指，只保留關鍵的兩根，是仿生構型，在采集效率、行為自然度上都有大幅提升。

雷峰網(wǎng)：你們的客戶對高質(zhì)量數(shù)據(jù)的要求有哪些？

朱雁鳴：要求大概有四點。

一是極高的多樣性要求，這一點可能反常識，即便客戶只聚焦一個應用場景，在模型訓練階段，也需要多樣的行為、空間理解能力，來提升模型的魯棒性和泛化能力。

二是完整的模態(tài)，模型訓練本質(zhì)上是監(jiān)督學習的過程，監(jiān)督的關鍵，就是模態(tài)與結果的對齊是否完整，因此所有和動作結果相關的模態(tài)，都必須完整覆蓋，這是核心要求。

三是極致的精度，數(shù)據(jù)精度從底層決定了模型的幻覺概率，高精度的原始數(shù)據(jù)，是模型訓練效果的基礎保障。

四是完整的思維鏈，這一點目前行業(yè)還沒有廣泛討論，但它是機器人實現(xiàn)長程任務的關鍵數(shù)據(jù)要求。比如拖地這個長程任務，拖過的地方不需要再拖、什么程度需要清洗拖布，都沒有固定的標準，人類執(zhí)行時的思考和推理過程，不會邊做邊說，在現(xiàn)有數(shù)據(jù)中是天然缺失的。

但這些推理過程，是讓模型理解動作背后邏輯的核心。如果只看 100 個人拖地的動作，每個人的行為是發(fā)散的，模型無法理解背后的邏輯，只能給出平均值，無法適配真實場景。因此，包含完整思維鏈的數(shù)據(jù)，是高質(zhì)量數(shù)據(jù)的核心特征。

機器人廠商不會規(guī)?；瘮?shù)采，

就像汽車廠商不會自己建電池廠

雷峰網(wǎng)：去年很多公司喊出“百萬小時數(shù)據(jù)”目標，你覺得實現(xiàn)起來難不難？

朱雁鳴：非常難，因為對我們來說，這百萬背后，不是單純的堆量，而是高質(zhì)量的數(shù)據(jù)集合。首先從人力角度來看，一個人一天有效產(chǎn)出數(shù)據(jù)的時間大概只有 5-6 小時，受體力等因素限制，無法滿負荷產(chǎn)出。百萬小時至少需要 20 萬人天，即便有 2000 人的運營團隊，也需要持續(xù)運營 3 個月以上，才能實現(xiàn)這個目標，而這只是人力層面的難度。

更關鍵的是，這背后需要配套海量的采集設備、極強的模型自動化處理能力、通暢的數(shù)據(jù)鏈路。整個流程就像漏斗，任何一個環(huán)節(jié)出問題，都會產(chǎn)生層層折損，最終能轉(zhuǎn)化的有效數(shù)據(jù)比例會大幅降低。

從我們的角度來看，要實現(xiàn)這個目標，有三個核心門檻：第一，是否有能滿足高質(zhì)量數(shù)據(jù)要求的設備；第二，設備能否實現(xiàn)眾包規(guī)?；涞?；第三，是否具備大規(guī)模數(shù)據(jù)的自動化鏈路處理能力。今年我們有信心產(chǎn)出超過500萬以上的高質(zhì)量數(shù)據(jù)，這也是我們體系化能力建設后的快速增長能力。

現(xiàn)在我們有信心、也已經(jīng)和其中大部分企業(yè)建立長期合作。喊口號沒有意義，關鍵要看是否真正落地了相關的設備、團隊和體系化能力。

雷峰網(wǎng)：有些做模型的公司，自己也在做數(shù)據(jù)，那做數(shù)據(jù)的公司，是不是也可以自己做模型？你們未來會不會切入模型賽道？

朱雁鳴：我們對模型始終保持敬畏。一個行業(yè)的發(fā)展分為三個階段：學術階段，核心是確定實現(xiàn)長期目標的技術范式；產(chǎn)業(yè)階段，范式明確后，用工程化的方式加速落地；商業(yè)階段，面向交付、成本、商業(yè)化指標優(yōu)化。

從目前來看，具身智能行業(yè)，連學術階段的問題都沒有被完整解決，現(xiàn)在行業(yè)里的產(chǎn)品，很難在某一個專職事情上做到和人一樣的水平。因此，我們現(xiàn)階段的核心，還是服務好模型公司，幫他們訓出更好的模型。

雷峰網(wǎng)：如何看待GEN1？

朱雁鳴：至少從我的角度，我非常認可 Generalist，他們是一家非常純粹的公司。他們一直堅持用 scaling law 的方式，提升具身智能的表現(xiàn)，這是他們的底層驅(qū)動。

回到 GEN1 的表現(xiàn)，我認為有三個核心亮點。第一，實現(xiàn)了同一模型的多任務執(zhí)行能力。現(xiàn)在行業(yè)里很多公司的模型，本質(zhì)上是狹義的專有模型，比如專門做疊衣服的模型，換個任務表現(xiàn)就會很差，但 G1 在多任務場景下的表現(xiàn)，已經(jīng)得到了驗證。

第二，模型從多樣數(shù)據(jù)中，真正學到了人類的糾錯能力。從他們發(fā)布的視頻能看到，模型第一次執(zhí)行任務失敗后，能快速根據(jù)錯誤完成糾正；面對刻意的干擾，也能及時給出解決方案，這一點非常難得。

第三，已經(jīng)開始探索長程任務的實現(xiàn)。他們已經(jīng)在嘗試 3-5 分鐘完成一個完整的復雜任務，而非同一個動作重復十幾次，這是行業(yè)里非常少有的探索，也貼合具身智能的真實落地需求。

雷峰網(wǎng)： Generalist 訓練用的數(shù)據(jù)，主要也是 EGO 數(shù)據(jù)嗎？

朱雁鳴：他們現(xiàn)在主要還是用 UMI 夾爪，但也已經(jīng)在探索ego方向，因為umi存在自己的上限，尤其是移動機器人場景，UMI 會更難適配。

雷峰網(wǎng)：Generalist 與國內(nèi)具身智能公司有哪些差異？

朱雁鳴：首先是理念上的差異。Generalist 與其說像一家公司，不如說更像一家科研機構，團隊只有二十幾個人，沒有商業(yè)化目標，融資也不以商業(yè)化做核心訴求，非常純粹，專注于通過底層創(chuàng)新迭代技術本身。而國內(nèi)大多數(shù)做具身的公司，都背負著融資和商業(yè)化的壓力，很難做到這種純粹。

其次是勇氣，現(xiàn)階段人類數(shù)據(jù)做基座模型、大規(guī)模預訓練是需要投入非常多資源，而且存在巨大不確定性的事情。Generalist 的底層創(chuàng)新，核心是沒有復用任何開源模型，完全基于 UMI 的數(shù)據(jù)從零重訓，這個過程非常漫長，需要消耗大量的算力和數(shù)據(jù)，后期的消耗只會更大。

雷峰網(wǎng)：未來國內(nèi)數(shù)據(jù)賽道的格局會是怎樣的？

朱雁鳴：會是有頭部也有分散的生態(tài)。因為第一這個市場的盤子足夠大，沒有任何一家公司能完全吃下。第二，數(shù)據(jù)面向商業(yè)化落地時，會有大量垂類需求，數(shù)據(jù)和算法是綁定的垂類關系，不可能有一家公司的一套方案，能完美適配所有場景，一定會有企業(yè)在細分垂類里做得更適配。

因此，最終會形成的格局是：有幾家公司做成大的通用數(shù)據(jù)平臺，而在細分垂類賽道里，依然有不同的玩家，是一個多元的市場狀態(tài)。在通用場景下，行業(yè)會慢慢趨同，會出現(xiàn)方案、價格都有明顯優(yōu)勢的頭部供應商。

雷峰網(wǎng)：整機廠商未來一定要買第三方數(shù)據(jù)嗎？這種數(shù)據(jù)依賴是持續(xù)性的嗎？

朱雁鳴：本質(zhì)上這是產(chǎn)業(yè)鏈分工的問題，不存在某個技術壁壘讓別人完全做不了，但隨著行業(yè)成熟，產(chǎn)業(yè)鏈分工會越來越明確，各方的邊界也會越來越清晰。

第一，數(shù)據(jù)全鏈條的復雜度，遠超語言模型和自動駕駛時代。它需要單獨的設備研發(fā)、單獨的鏈路搭建、單獨的模型和運營能力維護，而且數(shù)據(jù)的價值是長期的。機器人訓練新模型，最值錢的不是它已經(jīng)會的操作數(shù)據(jù)，而是它不會的、犯錯的場景數(shù)據(jù)，這需要持續(xù)的、大規(guī)模的數(shù)據(jù)采集和處理能力。

第二，全鏈條的體系化能力，會形成效率和成本的壁壘。短期壁壘是誰能先搭建起完整的體系，提供模型公司需要的產(chǎn)品；長期來看，就是成本的競爭，體系越成熟、效率越高，規(guī)?；蟮某杀緝?yōu)勢就越明顯。

我經(jīng)常用一個類比，數(shù)據(jù)對于機器人廠商，就像輪胎對于汽車廠。電池是每臺車的必備部件，成本也不低，但現(xiàn)在沒有一家汽車廠會自己建輪胎廠，核心原因就是專業(yè)的廠商，在成本、效率上都比自己做更高，從零到一自建反而得不償失。

雷峰網(wǎng)：數(shù)采行業(yè)的核心競爭力是什么？

朱雁鳴：數(shù)采行業(yè)的核心競爭力有三個核心維度：

第一，自動化能力。核心是數(shù)據(jù)公司能不能構建自己的飛輪：隨著交付的數(shù)據(jù)越多，自動化能力越強，數(shù)據(jù)交付的效率越高、質(zhì)量越好。這是具身時代對數(shù)據(jù)公司的核心要求，誰能先構建出以數(shù)據(jù)鏈路、模型驅(qū)動的自動化數(shù)據(jù)產(chǎn)線，誰就掌握了核心競爭力。

第二，硬件模態(tài)研發(fā)能力。現(xiàn)在大多數(shù)數(shù)采公司，都沒有專注做硬件的底層研發(fā)，要么用開源方案，要么用消費級產(chǎn)品拼湊，這種拼湊出來的方案，產(chǎn)出的數(shù)據(jù)看似可用，但 3-5 個月后就會被證偽，無法支撐模型的長期訓練。硬件模態(tài)的研發(fā)，還要兼顧低成本，只有確定了可規(guī)?；?、低成本的模態(tài)方案，才能談第三個核心競爭力。

第三，真正的規(guī)?；芰Α?/span>自動化水平高、模態(tài)全、成本低，才能實現(xiàn)最好的規(guī)?；?。規(guī)模化的核心，是構建敏捷的數(shù)據(jù)鏈條，實現(xiàn)成本的非線性增長。如果 10 萬條數(shù)據(jù)的成本，只比 1 萬條翻了一倍，而非 10 倍，才能不斷提升業(yè)務的天花板，這才是可持續(xù)的商業(yè)模式。