日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給業(yè)界評論
發(fā)送

0

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

本文作者: 業(yè)界評論   2026-04-25 13:48
導(dǎo)語:人工智能的核心命題,正從“屏幕對話”轉(zhuǎn)向“擁有身體的智能”。近期,我國首個《人形機器人與具身智能標(biāo)準(zhǔn)體系(2026版)》發(fā)布,標(biāo)志著產(chǎn)業(yè)邁入規(guī)范化新階段。但標(biāo)準(zhǔn)

人工智能的核心命題,正從“屏幕對話”轉(zhuǎn)向“擁有身體的智能”。近期,我國首個《人形機器人與具身智能標(biāo)準(zhǔn)體系(2026版)》發(fā)布,標(biāo)志著產(chǎn)業(yè)邁入規(guī)范化新階段。但標(biāo)準(zhǔn)之下,一個更深層的追問依然待解:具身智能的瓶頸,究竟在哪?

機器人能聽懂指令、看懂環(huán)境,卻常在細微動作上出錯——插頭歪一毫米插不進、不知如何繞開行人、擰螺絲一用力就打滑。這揭示了一個核心困境:“聽得懂、看得懂”不等于“做得到、做得好”。機器人能認出杯子,是語義知識的理解;卻無法掌控抓握杯子的力度,是物理經(jīng)驗的缺失。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

我們認為,行業(yè)瓶頸不在單一算法的改進,而在兩處根源:大規(guī)模高質(zhì)量具身交互數(shù)據(jù)的匱乏,以及機器人“大小腦”能力體系的結(jié)構(gòu)性斷層。

面對這一現(xiàn)狀,浙江人形從源頭破局:以多源數(shù)據(jù)融合體系實現(xiàn)低成本、高質(zhì)量數(shù)據(jù)的大規(guī)模獲取,以“雙螺旋”模型架構(gòu)彌合“智能執(zhí)行”的斷層,解決物理經(jīng)驗的缺失問題。我們正在打通一條從“看得懂”到“做得好”的完整路徑,讓具身智能在真實場景中不斷學(xué)習(xí)、進化、落地。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

具身智能模型體系SPIRE架構(gòu)圖


01

數(shù)據(jù)筑基:

三源融合,毫米映射+毫秒級協(xié)同

數(shù)據(jù)是機器人的“教科書”。在具身智能數(shù)據(jù)方面,浙江人形采用“義務(wù)教育+高等教育+職業(yè)教育”的三源融合數(shù)據(jù)體系建設(shè),融合視、聽、力、觸等物理交互的多模態(tài)數(shù)據(jù),讓機器人學(xué)得更快、看得更清、做得更準(zhǔn)、適應(yīng)更強。

浙江人形的數(shù)據(jù)策略,就像把模型培養(yǎng)成一個“通專兼?zhèn)涞膹?fù)合型人才”:

人類數(shù)據(jù) = 義務(wù)教育:通過大規(guī)模的人類行為數(shù)據(jù)預(yù)訓(xùn)練,讓模型獲得通識理解能力,知道“正常人會怎么做”。

仿真數(shù)據(jù) = 高等教育:通過真實場景的高保真重構(gòu)與數(shù)據(jù)生成擴增,讓模型在仿真中大規(guī)模反復(fù)練習(xí),掌握可泛化精準(zhǔn)作業(yè)的基礎(chǔ)知識。

真機數(shù)據(jù) = 職業(yè)教育:通過多模態(tài)真機數(shù)據(jù),在特定場景中高效完成真實任務(wù),讓模型“畢業(yè)即上崗”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

人類數(shù)據(jù):提供行為示范與策略參考,筑基物理交互

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

第一視角人類行為數(shù)據(jù)采集

浙江人形打造了高效率的人類行為數(shù)據(jù)解析和映射方法,對采用消費級相機采集的人類第一/第三視角數(shù)據(jù)進行處理,可準(zhǔn)確提取出人類的作業(yè)順序、物體掩膜、6D位姿、手勢軌跡及手-物接觸關(guān)系,精度達到毫米級,并通過手勢重定向快速映射至高自由度靈巧手,為抓取等技能學(xué)習(xí)奠定數(shù)據(jù)基礎(chǔ)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

四個視角的人類行為數(shù)據(jù)采集

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

高自由度靈巧手數(shù)據(jù)解析與映射

仿真數(shù)據(jù):低成本高保真覆蓋,拓邊長尾場景

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

高保真場景重建與渲染

浙江人形搭建了完整的仿真數(shù)據(jù)生成鏈路,自研高精度場景和物體重建、多模態(tài)高保真數(shù)據(jù)生成算法,支持場景級、物體級數(shù)據(jù)的采集、重構(gòu)、編輯、適配等全鏈路real2sim流程,可輸出RGB圖像、深度圖像、語義真值。

場景渲染性能超過現(xiàn)有開源方案11%,復(fù)雜場景mesh重建幾何精度超SOTA(State Of The Art,最先進水平)10%,并可基于單條演示數(shù)據(jù)實現(xiàn)行為擴增,大幅提升數(shù)據(jù)利用效率,增強機器人對光照、紋理、動態(tài)等物理變化的適應(yīng)能力。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

大規(guī)模仿真數(shù)據(jù)采集

真機數(shù)據(jù):貼近物理規(guī)律,夯實數(shù)據(jù)基石

浙江人形從數(shù)據(jù)和模型兩方面解決物理交互Sim2Real問題,數(shù)據(jù)方面自研全身協(xié)同控制算法,實現(xiàn)頭、手、臂、腰全身聯(lián)動和柔順交互,且求解時間小于10ms,跟蹤精度優(yōu)于1mm,支撐視覺、力覺、觸覺、運動軌跡信息的精準(zhǔn)獲取,通過真機數(shù)據(jù)實現(xiàn)機器人sim2real的技能校準(zhǔn),是“真刀真槍”的經(jīng)驗沉淀。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

多場景多任務(wù)遙操數(shù)據(jù)采集

浙江人形構(gòu)建的多源數(shù)據(jù)體系,形成三大核心優(yōu)勢:

多源互補:人類筑基、仿真拓邊、真機夯實,三類數(shù)據(jù)形成閉環(huán),兼顧真實性與泛化能力;

高效保真:協(xié)同控制求解快,仿真鏈路高保真,消費級采集成本低,打通規(guī)?;瘜W(xué)習(xí)路徑;

技術(shù)貫通:從數(shù)據(jù)采集、標(biāo)注到映射,全鏈路自主掌握,支撐高動態(tài)精準(zhǔn)移動操作學(xué)習(xí)。


02

模型雙擎:

“大腦”高維度認知推理,“小腦”微米級泛化作業(yè)

當(dāng)前具身智能大腦模型普遍采用VLM為骨干網(wǎng)絡(luò),以繼承其內(nèi)在的語義泛化能力。但由于VLM的訓(xùn)練數(shù)據(jù)僅有語言和2D圖像、缺少大規(guī)模的物理交互數(shù)據(jù),大腦模型缺乏對空間位姿、幾何結(jié)構(gòu)等物理狀態(tài)的認知能力,長程任務(wù)容易出現(xiàn)幻覺。同時,具身智能小腦模型僅依賴視覺輸入,缺少力觸感知,動作精準(zhǔn)性欠缺。

針對這一根本性缺陷,浙江人形提出“原生+借智”的模型策略,一方面增強VLM的能力:在保留其語義泛化能力的同時,注入幾何理解、閉環(huán)反思能力,實現(xiàn)長序列魯棒作業(yè);另一方面,模型原生支持從視力觸位等物理交互數(shù)據(jù)中學(xué)習(xí),完成多種可泛化高精準(zhǔn)技能,進一步結(jié)合VLM提升中程作業(yè)智能性和物體語義作業(yè)能力。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

長序列導(dǎo)航任務(wù)決策與規(guī)劃

浙江人形自研的具身智能SPIRE系統(tǒng)可靈活實現(xiàn)大小腦解耦和融合:

C2L2(cognitive close-loop long sequence task planning model 混雜開放場景的長序列魯棒作業(yè)大腦):負責(zé)環(huán)境認知、長程推理、任務(wù)拆解與自主糾錯,讓機器人“聽得懂、看得準(zhǔn)、想得清”;

M2S2(multi-modal semantic skill 可泛化高精準(zhǔn)的多模態(tài)語義技能小腦):負責(zé)將語義指令轉(zhuǎn)化為高精準(zhǔn)物理動作,融合多模態(tài)感知,保障實時性與安全性,讓機器人“抓得穩(wěn)、行得巧、干得靈”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

精準(zhǔn)倒液技能誤差小于1ml,可適應(yīng)透明液體

例如在康養(yǎng)服務(wù)場景中,機器人接到“倒出10毫升止咳糖漿”的指令后,大腦(C2L2)理解任務(wù)目標(biāo)并自動拆解為“抓取藥瓶、打開瓶蓋、抓取量杯、倒出糖漿、放下量杯、關(guān)蓋收瓶”等子步驟;小腦(M2S2)則負責(zé)將大腦的決策轉(zhuǎn)化為精準(zhǔn)物理動作,以倒出糖漿為例,視力觸覺融合感控保證對準(zhǔn)瓶口和杯口、傾斜倒液、觀察刻度、收瓶歸位,大小腦配合完成目標(biāo)任務(wù)。

當(dāng)環(huán)境變化時,大腦(C2L2)進行推理調(diào)整,例如桌面上沒有止咳糖漿時,需要確定搜索空間和搜索行為。當(dāng)容器和液體的種類、形態(tài)、目標(biāo)刻度發(fā)生變化時,小腦做泛化適應(yīng)——讓機器人成長為無需外腦的專業(yè)型人才。這套能力同樣可遷移至工業(yè)、服務(wù)等領(lǐng)域的復(fù)雜精準(zhǔn)作業(yè)。

這一升級,是具身智能通往真正通用化的最穩(wěn)健、最可擴展的路徑,構(gòu)筑了商業(yè)拓展的“護城河”,讓浙江人形在汽車制造、實驗化工、倉儲物流等場景中快速交付穩(wěn)定可靠的產(chǎn)品,成為應(yīng)用落地的領(lǐng)先者。

C2L2:混雜開放場景的長序列魯棒作業(yè)大腦模型

浙江人形自主研發(fā)的C2L2大腦模型,讓機器人成為“運籌帷幄的司令員”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

C2L2 根據(jù)任務(wù)指令調(diào)整場景中物體的空間狀態(tài)

看得準(zhǔn)——能準(zhǔn)確理解場景中物體的空間狀態(tài);

拆得明——將復(fù)雜的長序列任務(wù)自動拆解為有序的子任務(wù),讓機器人“心中有譜、手中有序”;

找得到——具備主動探索能力,即使物品被遮擋或不在視野中,也能通過環(huán)境感知與推理“找到它、夠得著”;

調(diào)得快——作業(yè)過程中實時感知異常、自主糾錯,遇到卡頓或偏差能“自我調(diào)整、不卡殼”。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

C2L2 基于單張圖像參考調(diào)整場景中物體的空間狀態(tài)

針對大腦對物理狀態(tài)理解缺失的問題,浙江人形將環(huán)境和對象的幾何結(jié)構(gòu)、執(zhí)行效果評估等知識引入VLM,使語義規(guī)劃能夠直接考慮真實物理約束,實現(xiàn)將高層語言指令轉(zhuǎn)化為具備物理可行性的操作子目標(biāo)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

C2L2 實現(xiàn)長程任務(wù)拆解與自主糾錯,具備探索能力

這一認知驅(qū)動的長序列規(guī)劃模型,復(fù)雜任務(wù)成功率達94%,未知環(huán)境實現(xiàn)擬人化導(dǎo)航,高動態(tài)復(fù)雜場景成功率超SOTA算法50%,有力支撐開箱即用與人機共融。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

C2L2實現(xiàn)跨場景多任務(wù)端到端軌跡生成與遷移泛化

M2S2:可泛化高精準(zhǔn)的多模態(tài)語義技能小腦模型

浙江人形自主研發(fā)的M2S2小腦模型,讓機器人擁有“眼到手到,剛?cè)岵钡慕鹋乒そ臣壊僮髂芰Α?/p>

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

M2S2 自適應(yīng)柔順抓取

對得準(zhǔn)——視覺毫米級對準(zhǔn),比頭發(fā)絲還細;

抓得穩(wěn)——力覺泛化柔順抓取,不滑不碎不傷物體;

行得巧——動態(tài)移動避障,在人群中自如擬人穿行;

干得靈——視力觸融合,布料分片、軸孔裝配、試劑分液等多類操作都能精準(zhǔn)完成。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

M2S2 基于單張圖像引導(dǎo)完成精準(zhǔn)打螺絲作業(yè)

針對小腦對視力觸信息融合不足、精準(zhǔn)性不夠的問題,浙江人形在模型上采用注意力機制對三種模態(tài)進行編碼和融合,輔以稠密表征提高精準(zhǔn)性,并引入物理約束,使動作預(yù)測考慮機器人的可執(zhí)行能力。

這一知識學(xué)習(xí)型的視力觸融合感控技能模型,裝配精度可達0.03mm,成功率99.99%,性能指標(biāo)全面國際領(lǐng)先,已應(yīng)用于華為、BEKO、施耐德等工業(yè)產(chǎn)線。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

M2S2 動態(tài)環(huán)境中實現(xiàn)安全擬人避障

依托M2S2小腦模型的視力觸融合技術(shù),浙江人形在柔性布料分片作業(yè)任務(wù)中已取得實質(zhì)性領(lǐng)先進展。

在機器人領(lǐng)域,布料是公認的“操作噩夢”——視覺看不清邊界、力覺控不準(zhǔn)力道、觸覺感知不到滑移。傳統(tǒng)機器人面對布料要么束手無策,要么暴力抓取導(dǎo)致撕裂或粘連。

浙江人形讓機器人同時調(diào)用三大感官:通過視覺識別布料的形變特征與堆疊邊界,結(jié)合力覺實時感知雙手協(xié)同操作下的布料應(yīng)力及厚度變化,同時依托觸覺閉環(huán)反饋指尖與布料間的多維接觸狀態(tài),實現(xiàn)揉搓方式的動態(tài)調(diào)整。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

M2S2 視力觸感知融合實現(xiàn)布料精準(zhǔn)分片

這項技術(shù)使布料分片成功率從行業(yè)平均不足60%躍升至98%,單次操作僅需3秒,已覆蓋棉布、牛仔布、無紡布等多種柔性材質(zhì)。依托浙江人形自研的小腦模型,機器人可完成透明液體精準(zhǔn)分液、多規(guī)格料箱泛化搬運、堆疊柔性螺紋管分揀等實際作業(yè)任務(wù)。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

M2S2 突破雜亂堆疊下無紋理的螺紋管分揀

從大腦的高維度認知推理,到小腦的視力觸融合與微米級泛化作業(yè),浙江人形“原生+借智”的模型策略破解了具身智能“看得懂卻做不好”的結(jié)構(gòu)性斷層。

C2L2大腦模型讓機器人擁有運籌帷幄的智慧,M2S2小腦模型賦予機器人眼到手到的技藝——二者各司其職,又相輔相成。

無論是康養(yǎng)場景中精準(zhǔn)倒液的舉一反三,還是工業(yè)產(chǎn)線上0.03mm的軸孔裝配,這套“大腦+小腦”的雙擎體系,正在讓機器人從依賴外腦的指令執(zhí)行者,成長為無需外腦的專業(yè)型人才。

然而,再聰明的模型也需要持續(xù)“喂養(yǎng)”。每一次精準(zhǔn)操作背后,都是一條高質(zhì)量的數(shù)據(jù)軌跡;每一條數(shù)據(jù)軌跡,又成為模型進化的燃料。這就引出了我們的第三個答案——數(shù)據(jù)與模型的雙螺旋飛輪。


03

飛輪進化:

越學(xué)越聰明,越干越精通

浙江人形解決具身智能瓶頸的路徑清晰而有力:一手抓數(shù)據(jù),一手抓模型,讓兩者互為燃料、螺旋上升。

數(shù)據(jù)是根基,模型是引擎。兩者并非孤立存在,而是形成了一個持續(xù)加速的進化飛輪:SPIRE系統(tǒng)在真實場景中每完成一次作業(yè),就生成一條高質(zhì)量的多模態(tài)感知-決策-行為數(shù)據(jù),這些數(shù)據(jù)反哺給模型,讓模型越訓(xùn)練越聰明;更聰明的模型又能完成更復(fù)雜的任務(wù),產(chǎn)生更多高質(zhì)量的數(shù)據(jù)。

落地越廣,進化越快——商業(yè)與技術(shù)由此實現(xiàn)同頻共振。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

這不僅是技術(shù)的突破,更是中國在定義下一代物理智能的范式。真正的具身智能,不是寫在代碼里的預(yù)設(shè)程序,而是在一次又一次的抓取、裝配、揉搓中,親手長出來的經(jīng)驗與智慧。

展望未來,這條“越學(xué)越聰明,越干越精通”的路將把機器人從實驗室的炫技,帶進車間、倉庫、商場乃至家庭。

當(dāng)數(shù)據(jù)飛輪加速轉(zhuǎn)動,機器人將不再是預(yù)設(shè)程序的執(zhí)行者,而成為在真實世界中不斷積累經(jīng)驗、自我優(yōu)化、舉一反三的新質(zhì)生產(chǎn)力工具。

浙江人形將繼續(xù)以“數(shù)據(jù)+模型”雙輪驅(qū)動,深耕真實場景,攜手全球生態(tài)伙伴,共同推動人形機器人從“能用”走向“好用”,從“專用”走向“通用”。讓每一個機器人都成為無需外腦的專業(yè)型人才——這是我們的方向,也是具身智能的未來。


關(guān)于我們

浙江人形機器人創(chuàng)新中心有限公司成立于2023年12月,由熊蓉教授團隊攜手多家知名產(chǎn)業(yè)伙伴共同創(chuàng)立,是一家專注于具身智能人形機器人關(guān)鍵技術(shù)攻關(guān)、產(chǎn)品研發(fā)與行業(yè)應(yīng)用推廣的高科技企業(yè)。我們長期聚焦于世界模型與具身智能的前沿探索,致力于研發(fā)能夠真正落地、服務(wù)多場景的人形機器人產(chǎn)品。

公司技術(shù)已實現(xiàn)了軟硬件的全棧自主可控:完整覆蓋關(guān)節(jié)—臂—手—腿—腰—頭—頸的全身本體研制,貫通感知—決策—規(guī)劃—控制的全鏈條智能,并擁有端到端的大小腦模型,構(gòu)筑起“整機設(shè)計—數(shù)據(jù)平臺—模型訓(xùn)練—部署應(yīng)用”的完整自主研發(fā)閉環(huán)。同時,公司構(gòu)建了以雙臂手作業(yè)能力為核心、雙足前沿探索與輪式方案并行的立體布局,形成了軟硬件深度融合,覆蓋多行業(yè)、多場景的產(chǎn)品矩陣。

浙江人形發(fā)布可泛化高精準(zhǔn)具身智能技術(shù)體系,打通從 “看得懂” 到 “做得好” 全路徑

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說