浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

本文作者：業(yè)界評論

2026-04-25 13:48

導(dǎo)語：人工智能的核心命題，正從“屏幕對話”轉(zhuǎn)向“擁有身體的智能”。近期，我國首個《人形機器人與具身智能標(biāo)準(zhǔn)體系（2026版）》發(fā)布，標(biāo)志著產(chǎn)業(yè)邁入規(guī)范化新階段。但標(biāo)準(zhǔn)

人工智能的核心命題，正從“屏幕對話”轉(zhuǎn)向“擁有身體的智能”。近期，我國首個《人形機器人與具身智能標(biāo)準(zhǔn)體系（2026版）》發(fā)布，標(biāo)志著產(chǎn)業(yè)邁入規(guī)范化新階段。但標(biāo)準(zhǔn)之下，一個更深層的追問依然待解：具身智能的瓶頸，究竟在哪？

機器人能聽懂指令、看懂環(huán)境，卻常在細微動作上出錯——插頭歪一毫米插不進、不知如何繞開行人、擰螺絲一用力就打滑。這揭示了一個核心困境：“聽得懂、看得懂”不等于“做得到、做得好”。機器人能認出杯子，是語義知識的理解；卻無法掌控抓握杯子的力度，是物理經(jīng)驗的缺失。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

我們認為，行業(yè)瓶頸不在單一算法的改進，而在兩處根源：大規(guī)模高質(zhì)量具身交互數(shù)據(jù)的匱乏，以及機器人“大小腦”能力體系的結(jié)構(gòu)性斷層。

面對這一現(xiàn)狀，浙江人形從源頭破局：以多源數(shù)據(jù)融合體系實現(xiàn)低成本、高質(zhì)量數(shù)據(jù)的大規(guī)模獲取，以“雙螺旋”模型架構(gòu)彌合“智能執(zhí)行”的斷層，解決物理經(jīng)驗的缺失問題。我們正在打通一條從“看得懂”到“做得好”的完整路徑，讓具身智能在真實場景中不斷學(xué)習(xí)、進化、落地。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

具身智能模型體系SPIRE架構(gòu)圖

數(shù)據(jù)筑基：

三源融合，毫米映射+毫秒級協(xié)同

數(shù)據(jù)是機器人的“教科書”。在具身智能數(shù)據(jù)方面，浙江人形采用“義務(wù)教育+高等教育+職業(yè)教育”的三源融合數(shù)據(jù)體系建設(shè)，融合視、聽、力、觸等物理交互的多模態(tài)數(shù)據(jù)，讓機器人學(xué)得更快、看得更清、做得更準(zhǔn)、適應(yīng)更強。

浙江人形的數(shù)據(jù)策略，就像把模型培養(yǎng)成一個“通專兼?zhèn)涞膹?fù)合型人才”：

人類數(shù)據(jù) = 義務(wù)教育：通過大規(guī)模的人類行為數(shù)據(jù)預(yù)訓(xùn)練，讓模型獲得通識理解能力，知道“正常人會怎么做”。

仿真數(shù)據(jù) = 高等教育：通過真實場景的高保真重構(gòu)與數(shù)據(jù)生成擴增，讓模型在仿真中大規(guī)模反復(fù)練習(xí)，掌握可泛化精準(zhǔn)作業(yè)的基礎(chǔ)知識。

真機數(shù)據(jù) = 職業(yè)教育：通過多模態(tài)真機數(shù)據(jù)，在特定場景中高效完成真實任務(wù)，讓模型“畢業(yè)即上崗”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

人類數(shù)據(jù)：提供行為示范與策略參考，筑基物理交互

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

第一視角人類行為數(shù)據(jù)采集

浙江人形打造了高效率的人類行為數(shù)據(jù)解析和映射方法，對采用消費級相機采集的人類第一/第三視角數(shù)據(jù)進行處理，可準(zhǔn)確提取出人類的作業(yè)順序、物體掩膜、6D位姿、手勢軌跡及手-物接觸關(guān)系，精度達到毫米級，并通過手勢重定向快速映射至高自由度靈巧手，為抓取等技能學(xué)習(xí)奠定數(shù)據(jù)基礎(chǔ)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

四個視角的人類行為數(shù)據(jù)采集

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

高自由度靈巧手數(shù)據(jù)解析與映射

仿真數(shù)據(jù)：低成本高保真覆蓋，拓邊長尾場景

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

高保真場景重建與渲染

浙江人形搭建了完整的仿真數(shù)據(jù)生成鏈路，自研高精度場景和物體重建、多模態(tài)高保真數(shù)據(jù)生成算法，支持場景級、物體級數(shù)據(jù)的采集、重構(gòu)、編輯、適配等全鏈路real2sim流程，可輸出RGB圖像、深度圖像、語義真值。

場景渲染性能超過現(xiàn)有開源方案11%，復(fù)雜場景mesh重建幾何精度超SOTA（State Of The Art，最先進水平）10%，并可基于單條演示數(shù)據(jù)實現(xiàn)行為擴增，大幅提升數(shù)據(jù)利用效率，增強機器人對光照、紋理、動態(tài)等物理變化的適應(yīng)能力。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

大規(guī)模仿真數(shù)據(jù)采集

真機數(shù)據(jù)：貼近物理規(guī)律，夯實數(shù)據(jù)基石

浙江人形從數(shù)據(jù)和模型兩方面解決物理交互Sim2Real問題，數(shù)據(jù)方面自研全身協(xié)同控制算法，實現(xiàn)頭、手、臂、腰全身聯(lián)動和柔順交互，且求解時間小于10ms，跟蹤精度優(yōu)于1mm，支撐視覺、力覺、觸覺、運動軌跡信息的精準(zhǔn)獲取，通過真機數(shù)據(jù)實現(xiàn)機器人sim2real的技能校準(zhǔn)，是“真刀真槍”的經(jīng)驗沉淀。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

多場景多任務(wù)遙操數(shù)據(jù)采集

浙江人形構(gòu)建的多源數(shù)據(jù)體系，形成三大核心優(yōu)勢：

多源互補：人類筑基、仿真拓邊、真機夯實，三類數(shù)據(jù)形成閉環(huán)，兼顧真實性與泛化能力；

高效保真：協(xié)同控制求解快，仿真鏈路高保真，消費級采集成本低，打通規(guī)?；瘜W(xué)習(xí)路徑；

技術(shù)貫通：從數(shù)據(jù)采集、標(biāo)注到映射，全鏈路自主掌握，支撐高動態(tài)精準(zhǔn)移動操作學(xué)習(xí)。

模型雙擎：

“大腦”高維度認知推理，“小腦”微米級泛化作業(yè)

當(dāng)前具身智能大腦模型普遍采用VLM為骨干網(wǎng)絡(luò)，以繼承其內(nèi)在的語義泛化能力。但由于VLM的訓(xùn)練數(shù)據(jù)僅有語言和2D圖像、缺少大規(guī)模的物理交互數(shù)據(jù)，大腦模型缺乏對空間位姿、幾何結(jié)構(gòu)等物理狀態(tài)的認知能力，長程任務(wù)容易出現(xiàn)幻覺。同時，具身智能小腦模型僅依賴視覺輸入，缺少力觸感知，動作精準(zhǔn)性欠缺。

針對這一根本性缺陷，浙江人形提出“原生+借智”的模型策略，一方面增強VLM的能力：在保留其語義泛化能力的同時，注入幾何理解、閉環(huán)反思能力，實現(xiàn)長序列魯棒作業(yè)；另一方面，模型原生支持從視力觸位等物理交互數(shù)據(jù)中學(xué)習(xí)，完成多種可泛化高精準(zhǔn)技能，進一步結(jié)合VLM提升中程作業(yè)智能性和物體語義作業(yè)能力。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

長序列導(dǎo)航任務(wù)決策與規(guī)劃

浙江人形自研的具身智能SPIRE系統(tǒng)可靈活實現(xiàn)大小腦解耦和融合：

C2L2（cognitive close-loop long sequence task planning model 混雜開放場景的長序列魯棒作業(yè)大腦）：負責(zé)環(huán)境認知、長程推理、任務(wù)拆解與自主糾錯，讓機器人“聽得懂、看得準(zhǔn)、想得清”；

M2S2（multi-modal semantic skill 可泛化高精準(zhǔn)的多模態(tài)語義技能小腦）：負責(zé)將語義指令轉(zhuǎn)化為高精準(zhǔn)物理動作，融合多模態(tài)感知，保障實時性與安全性，讓機器人“抓得穩(wěn)、行得巧、干得靈”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

精準(zhǔn)倒液技能誤差小于1ml，可適應(yīng)透明液體

例如在康養(yǎng)服務(wù)場景中，機器人接到“倒出10毫升止咳糖漿”的指令后，大腦（C2L2）理解任務(wù)目標(biāo)并自動拆解為“抓取藥瓶、打開瓶蓋、抓取量杯、倒出糖漿、放下量杯、關(guān)蓋收瓶”等子步驟；小腦（M2S2）則負責(zé)將大腦的決策轉(zhuǎn)化為精準(zhǔn)物理動作，以倒出糖漿為例，視力觸覺融合感控保證對準(zhǔn)瓶口和杯口、傾斜倒液、觀察刻度、收瓶歸位，大小腦配合完成目標(biāo)任務(wù)。

當(dāng)環(huán)境變化時，大腦（C2L2）進行推理調(diào)整，例如桌面上沒有止咳糖漿時，需要確定搜索空間和搜索行為。當(dāng)容器和液體的種類、形態(tài)、目標(biāo)刻度發(fā)生變化時，小腦做泛化適應(yīng)——讓機器人成長為無需外腦的專業(yè)型人才。這套能力同樣可遷移至工業(yè)、服務(wù)等領(lǐng)域的復(fù)雜精準(zhǔn)作業(yè)。

這一升級，是具身智能通往真正通用化的最穩(wěn)健、最可擴展的路徑，構(gòu)筑了商業(yè)拓展的“護城河”，讓浙江人形在汽車制造、實驗化工、倉儲物流等場景中快速交付穩(wěn)定可靠的產(chǎn)品，成為應(yīng)用落地的領(lǐng)先者。

C2L2：混雜開放場景的長序列魯棒作業(yè)大腦模型

浙江人形自主研發(fā)的C2L2大腦模型，讓機器人成為“運籌帷幄的司令員”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

C2L2 根據(jù)任務(wù)指令調(diào)整場景中物體的空間狀態(tài)

看得準(zhǔn)——能準(zhǔn)確理解場景中物體的空間狀態(tài)；

拆得明——將復(fù)雜的長序列任務(wù)自動拆解為有序的子任務(wù)，讓機器人“心中有譜、手中有序”；

找得到——具備主動探索能力，即使物品被遮擋或不在視野中，也能通過環(huán)境感知與推理“找到它、夠得著”；

調(diào)得快——作業(yè)過程中實時感知異常、自主糾錯，遇到卡頓或偏差能“自我調(diào)整、不卡殼”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

C2L2 基于單張圖像參考調(diào)整場景中物體的空間狀態(tài)

針對大腦對物理狀態(tài)理解缺失的問題，浙江人形將環(huán)境和對象的幾何結(jié)構(gòu)、執(zhí)行效果評估等知識引入VLM，使語義規(guī)劃能夠直接考慮真實物理約束，實現(xiàn)將高層語言指令轉(zhuǎn)化為具備物理可行性的操作子目標(biāo)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

C2L2 實現(xiàn)長程任務(wù)拆解與自主糾錯，具備探索能力

這一認知驅(qū)動的長序列規(guī)劃模型，復(fù)雜任務(wù)成功率達94%，未知環(huán)境實現(xiàn)擬人化導(dǎo)航，高動態(tài)復(fù)雜場景成功率超SOTA算法50%，有力支撐開箱即用與人機共融。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

C2L2實現(xiàn)跨場景多任務(wù)端到端軌跡生成與遷移泛化

M2S2：可泛化高精準(zhǔn)的多模態(tài)語義技能小腦模型

浙江人形自主研發(fā)的M2S2小腦模型，讓機器人擁有“眼到手到，剛?cè)岵钡慕鹋乒そ臣壊僮髂芰Α?/p>

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

M2S2 自適應(yīng)柔順抓取

對得準(zhǔn)——視覺毫米級對準(zhǔn)，比頭發(fā)絲還細；

抓得穩(wěn)——力覺泛化柔順抓取，不滑不碎不傷物體；

行得巧——動態(tài)移動避障，在人群中自如擬人穿行；

干得靈——視力觸融合，布料分片、軸孔裝配、試劑分液等多類操作都能精準(zhǔn)完成。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

M2S2 基于單張圖像引導(dǎo)完成精準(zhǔn)打螺絲作業(yè)

針對小腦對視力觸信息融合不足、精準(zhǔn)性不夠的問題，浙江人形在模型上采用注意力機制對三種模態(tài)進行編碼和融合，輔以稠密表征提高精準(zhǔn)性，并引入物理約束，使動作預(yù)測考慮機器人的可執(zhí)行能力。

這一知識學(xué)習(xí)型的視力觸融合感控技能模型，裝配精度可達0.03mm，成功率99.99%，性能指標(biāo)全面國際領(lǐng)先，已應(yīng)用于華為、BEKO、施耐德等工業(yè)產(chǎn)線。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

M2S2 動態(tài)環(huán)境中實現(xiàn)安全擬人避障

依托M2S2小腦模型的視力觸融合技術(shù)，浙江人形在柔性布料分片作業(yè)任務(wù)中已取得實質(zhì)性領(lǐng)先進展。

在機器人領(lǐng)域，布料是公認的“操作噩夢”——視覺看不清邊界、力覺控不準(zhǔn)力道、觸覺感知不到滑移。傳統(tǒng)機器人面對布料要么束手無策，要么暴力抓取導(dǎo)致撕裂或粘連。

浙江人形讓機器人同時調(diào)用三大感官：通過視覺識別布料的形變特征與堆疊邊界，結(jié)合力覺實時感知雙手協(xié)同操作下的布料應(yīng)力及厚度變化，同時依托觸覺閉環(huán)反饋指尖與布料間的多維接觸狀態(tài)，實現(xiàn)揉搓方式的動態(tài)調(diào)整。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

M2S2 視力觸感知融合實現(xiàn)布料精準(zhǔn)分片

這項技術(shù)使布料分片成功率從行業(yè)平均不足60%躍升至98%，單次操作僅需3秒，已覆蓋棉布、牛仔布、無紡布等多種柔性材質(zhì)。依托浙江人形自研的小腦模型，機器人可完成透明液體精準(zhǔn)分液、多規(guī)格料箱泛化搬運、堆疊柔性螺紋管分揀等實際作業(yè)任務(wù)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

M2S2 突破雜亂堆疊下無紋理的螺紋管分揀

從大腦的高維度認知推理，到小腦的視力觸融合與微米級泛化作業(yè)，浙江人形“原生+借智”的模型策略破解了具身智能“看得懂卻做不好”的結(jié)構(gòu)性斷層。

C2L2大腦模型讓機器人擁有運籌帷幄的智慧，M2S2小腦模型賦予機器人眼到手到的技藝——二者各司其職，又相輔相成。

無論是康養(yǎng)場景中精準(zhǔn)倒液的舉一反三，還是工業(yè)產(chǎn)線上0.03mm的軸孔裝配，這套“大腦+小腦”的雙擎體系，正在讓機器人從依賴外腦的指令執(zhí)行者，成長為無需外腦的專業(yè)型人才。

然而，再聰明的模型也需要持續(xù)“喂養(yǎng)”。每一次精準(zhǔn)操作背后，都是一條高質(zhì)量的數(shù)據(jù)軌跡；每一條數(shù)據(jù)軌跡，又成為模型進化的燃料。這就引出了我們的第三個答案——數(shù)據(jù)與模型的雙螺旋飛輪。

飛輪進化：

越學(xué)越聰明，越干越精通

浙江人形解決具身智能瓶頸的路徑清晰而有力：一手抓數(shù)據(jù)，一手抓模型，讓兩者互為燃料、螺旋上升。

數(shù)據(jù)是根基，模型是引擎。兩者并非孤立存在，而是形成了一個持續(xù)加速的進化飛輪：SPIRE系統(tǒng)在真實場景中每完成一次作業(yè)，就生成一條高質(zhì)量的多模態(tài)感知-決策-行為數(shù)據(jù)，這些數(shù)據(jù)反哺給模型，讓模型越訓(xùn)練越聰明；更聰明的模型又能完成更復(fù)雜的任務(wù)，產(chǎn)生更多高質(zhì)量的數(shù)據(jù)。

落地越廣，進化越快——商業(yè)與技術(shù)由此實現(xiàn)同頻共振。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

這不僅是技術(shù)的突破，更是中國在定義下一代物理智能的范式。真正的具身智能，不是寫在代碼里的預(yù)設(shè)程序，而是在一次又一次的抓取、裝配、揉搓中，親手長出來的經(jīng)驗與智慧。

展望未來，這條“越學(xué)越聰明，越干越精通”的路將把機器人從實驗室的炫技，帶進車間、倉庫、商場乃至家庭。

當(dāng)數(shù)據(jù)飛輪加速轉(zhuǎn)動，機器人將不再是預(yù)設(shè)程序的執(zhí)行者，而成為在真實世界中不斷積累經(jīng)驗、自我優(yōu)化、舉一反三的新質(zhì)生產(chǎn)力工具。

浙江人形將繼續(xù)以“數(shù)據(jù)+模型”雙輪驅(qū)動，深耕真實場景，攜手全球生態(tài)伙伴，共同推動人形機器人從“能用”走向“好用”，從“專用”走向“通用”。讓每一個機器人都成為無需外腦的專業(yè)型人才——這是我們的方向，也是具身智能的未來。

關(guān)于我們

浙江人形機器人創(chuàng)新中心有限公司成立于2023年12月，由熊蓉教授團隊攜手多家知名產(chǎn)業(yè)伙伴共同創(chuàng)立，是一家專注于具身智能人形機器人關(guān)鍵技術(shù)攻關(guān)、產(chǎn)品研發(fā)與行業(yè)應(yīng)用推廣的高科技企業(yè)。我們長期聚焦于世界模型與具身智能的前沿探索，致力于研發(fā)能夠真正落地、服務(wù)多場景的人形機器人產(chǎn)品。

公司技術(shù)已實現(xiàn)了軟硬件的全棧自主可控：完整覆蓋關(guān)節(jié)—臂—手—腿—腰—頭—頸的全身本體研制，貫通感知—決策—規(guī)劃—控制的全鏈條智能，并擁有端到端的大小腦模型，構(gòu)筑起“整機設(shè)計—數(shù)據(jù)平臺—模型訓(xùn)練—部署應(yīng)用”的完整自主研發(fā)閉環(huán)。同時，公司構(gòu)建了以雙臂手作業(yè)能力為核心、雙足前沿探索與輪式方案并行的立體布局，形成了軟硬件深度融合，覆蓋多行業(yè)、多場景的產(chǎn)品矩陣。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

業(yè)界評論

編輯

發(fā)私信

當(dāng)月熱門文章

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系，打通從 “看得懂” 到 “做得好” 全路徑