日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

對話千尋智能韓峰濤:真正的機(jī)器人是生產(chǎn)力,不是展品和玩具

本文作者: 梁丙鑒   2026-02-02 17:54
導(dǎo)語:千尋智能發(fā)布目前全球最強(qiáng)開源具身模型。

雷峰網(wǎng)訊 “就在這棟樓下面,26年就會有一個(gè)上千人的數(shù)據(jù)采集團(tuán)隊(duì),沖擊100萬小時(shí)數(shù)據(jù)大關(guān)?!表n峰濤忽地探身,手指地面,仿佛下一代具身模型已經(jīng)被他攥在掌心。

1月12日,千尋智能宣布開源具身模型Spirit v1.5。在RobotChallenge的最新榜單中,它超越此前國際標(biāo)桿Pi0.5,成為迄今為止,全球最強(qiáng)開源具身模型。

開源前兩天,我們在千尋智能北京總部,見到了創(chuàng)始人韓峰濤,進(jìn)行了一次深度對話。

對話千尋智能韓峰濤:真正的機(jī)器人是生產(chǎn)力,不是展品和玩具

具身智能技術(shù)的繁榮背后有另一番景象:花樣迭出的演示demo層出不窮,但實(shí)驗(yàn)室外一項(xiàng)疊衣服任務(wù)就可以難住大多數(shù)廠商。在這種背景下,Spirit v1.5讓人看到了具身智能真正解放人類生產(chǎn)力的可能。

RobotChallenge測試項(xiàng)目中包含插花、桌面清理等30個(gè)桌面項(xiàng)目,旨在還原真實(shí)物理世界的同時(shí),引入隨機(jī)擾動增加泛化挑戰(zhàn)。當(dāng)名為實(shí)驗(yàn)室的“溫室”被移除,Spirit v1.5仍然達(dá)到了50%以上的任務(wù)成功率,作為對比的是Pi0.5模型42.67%的成績。

一個(gè)關(guān)鍵的問題在于,Spirit v1.5到底是“擠牙膏”之作,還是標(biāo)志著具身模型快速攀升期的開始?韓峰濤堅(jiān)信是后者。

2026年被他描述成一個(gè)充滿競爭和希望的年份,數(shù)據(jù)和算法收斂,具身模型性能通過scaling的方式快速攀升,火熱的融資緊隨其后。類似的故事發(fā)生在2023年,主角是大語言模型。

“26年之于具身智能,就是23年之于大語言模型,”韓峰濤說,“具身智能的GPT moment一定會在26年出現(xiàn)?!?/p>

數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量。為此,千尋智能要將自建的數(shù)據(jù)工廠擴(kuò)張至近千人規(guī)模。而作為行業(yè)少見的模型、本體并舉的全棧公司,韓峰濤選擇自研硬件的初衷也是為模型提供更高質(zhì)量的數(shù)據(jù)。因?yàn)槟P秃陀布壎ǎ?lián)合設(shè)計(jì),軟硬一體,效果最好。

“最好的機(jī)器人就是你自己做的機(jī)器人。”他說。

韓峰濤的另一重身份,或許可以解釋他對具身模型的篤信。

2014年被稱為中國工業(yè)機(jī)器人元年,同年年底,韓峰濤和同伴創(chuàng)立了珞石機(jī)器人,這家公司在日后躋身國產(chǎn)工業(yè)機(jī)器人前三。一段差不多同期的歷史進(jìn)程,是整個(gè)中國工業(yè)機(jī)器人行業(yè)的崛起。從2015年到2024年,國產(chǎn)工業(yè)機(jī)器人的市場占有率從3%躍升至50%。

讀懂過去的人會看到未來。當(dāng)韓峰濤創(chuàng)立千尋智能時(shí),他知道具身智能并不新鮮。曾經(jīng)的研究者嘗試把深度學(xué)習(xí)技術(shù)用在機(jī)器人身上,但當(dāng)時(shí)AI的智能水平還不足以勝任嚴(yán)肅的生產(chǎn)力場景,最終落地的只有NLP、智能音箱或是掃地機(jī)器人。

那為什么我們今天會期待,機(jī)器人可以真正干活?

“這一代具身智能的核心變量只有一個(gè),就是AI技術(shù)發(fā)生的革命性變化,讓機(jī)器人的大腦真正有可能可用了。所以真正的具身智能公司,要思考的核心問題只有一個(gè),怎么讓具身模型進(jìn)化?”


一個(gè)無可辯駁的事實(shí)是,同樣在百億級資金的投入下,具身智能的發(fā)展速度遠(yuǎn)落后于大語言模型和自動駕駛。韓峰濤將之歸因于數(shù)據(jù)的匱乏。

過去20余年里互聯(lián)網(wǎng)上積累的數(shù)字資產(chǎn)支持了大語言模型的快速爆發(fā),自動駕駛雖然同樣遭遇過數(shù)據(jù)短缺,但沒有智駕功能的車也會有人買,這為邊賣產(chǎn)品邊采數(shù)據(jù)提供了可能。相較之下,沒有大腦的機(jī)器人完全沒用,這種產(chǎn)品性質(zhì)讓具身智能的數(shù)據(jù)飛輪更難以啟動。只有先采集足夠的冷啟動數(shù)據(jù),讓模型能夠支撐機(jī)器人進(jìn)入嚴(yán)肅的生產(chǎn)場景,才能再現(xiàn)當(dāng)年人們邊開車邊采數(shù)的過程。

如何把能干活的機(jī)器人賣出去成為了千尋最關(guān)鍵的命題?!ぁ案苫睢?,一個(gè)半小時(shí)的采訪中韓峰濤平均每兩分鐘提到這個(gè)詞一次?!拔璧柑蝗f次也是一條數(shù)據(jù),展品賣出去上千臺等于賣出一臺。你必須要把那種由模型驅(qū)動的、能干活的機(jī)器賣出去,才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來。”他說。

特斯拉、蔚小理……你可以從韓峰濤的講述中看到很多公司的影子。而歸根結(jié)底,千尋是千尋智能,而不是千尋機(jī)器人。

以下是雷峰網(wǎng)和韓峰濤的對話,作者進(jìn)行了不改變原意的編輯整理:

千尋智能,不再拿著錘子找釘子

雷峰網(wǎng):在千尋智能之前,你在2014年創(chuàng)立了珞石機(jī)器人。這十多年里先是中國機(jī)器人行業(yè)經(jīng)歷了快速發(fā)展期,然后整個(gè)行業(yè)從工業(yè)機(jī)器人轉(zhuǎn)向了智能機(jī)器人的競爭。作為兩個(gè)歷史進(jìn)程的親歷者,你會怎么給中國在世界機(jī)器人行業(yè)所處的位置劃分階段?


韓峰濤:四個(gè)階段。2010年之前,國內(nèi)的工業(yè)機(jī)器人還是全進(jìn)口。10年到20年算是發(fā)展期,這段時(shí)間里國產(chǎn)的零部件、整機(jī)在慢慢發(fā)展,但是市場占有率的提升不高,可以說還比較弱勢。一方面當(dāng)時(shí)剛剛起步,國內(nèi)客戶對國產(chǎn)機(jī)的接受度低。而且相關(guān)人才也少,很多廠商都是去航空航天、機(jī)械這些專業(yè)把人招來,自己培養(yǎng)。還有一部分原因是工業(yè)周期長,市場比較小,所以那會的投資人對工業(yè)沒什么概念。直到2015年左右,機(jī)器人、半導(dǎo)體、高端裝備、醫(yī)藥這些泛工業(yè)方向的投資才開始慢慢變多。

20年疫情開始之后,國外的廠商停產(chǎn)比較嚴(yán)重,只有中國還在正常運(yùn)行。所以當(dāng)國外缺貨的時(shí)候,也只有中國的機(jī)器人能供上貨,客觀上講疫情給了中國機(jī)器人行業(yè)一個(gè)巨大的助推。那幾年里國產(chǎn)機(jī)器人的市場占有率上來了,零部件因?yàn)榇蠹矣玫酶?,也更成熟了?/p>

2015年國產(chǎn)機(jī)器人的市場占有率大概3%,2024年就到50%以上了。國產(chǎn)工業(yè)機(jī)器人的崛起,也就是19年到23年的事。

從24年開始,就是具身智能的競爭了。23年之前中國機(jī)器人行業(yè)處在以硬件、小腦為核心的進(jìn)口替代階段,從24年開始,就要進(jìn)入以大腦為核心的智能機(jī)型時(shí)代。在這個(gè)時(shí)代,有人認(rèn)為將來大腦成熟之后肯定需要很多本體,所以為了服務(wù)大腦開始搞本體、機(jī)器狗。有人認(rèn)為既然核心是大腦,就開始搞大腦,比如我們??傊?4年是個(gè)分界點(diǎn),這之前的機(jī)型都是以小腦、運(yùn)控和硬件為主,之后是以大腦為核心。到今天經(jīng)過兩年的發(fā)展,具身模型在26年就要進(jìn)入快速進(jìn)化的階段。

前三個(gè)階段我們都在追趕,但是到第四個(gè)階段,中國可以說真正跟海外的對手齊頭并進(jìn)了。

雷峰網(wǎng):高陽曾經(jīng)說,如果國內(nèi)的具身團(tuán)隊(duì)買了機(jī)器人,訓(xùn)練過程中出了故障可以寄回去修,一周就能郵回來。這樣幾臺機(jī)器人輪流上,效率會很快。但宇樹不能這樣給美國的科研團(tuán)隊(duì)維修,只能一次性多寄點(diǎn)配件,導(dǎo)致很浪費(fèi)時(shí)間。你認(rèn)為中國在工業(yè)機(jī)器人領(lǐng)域的優(yōu)勢,會如何影響今天圍繞具身智能的競爭?

韓峰濤:原來經(jīng)常有人說,中國有供應(yīng)鏈,所以中國的企業(yè)就可以拿到便宜的零部件。但特斯拉的供應(yīng)鏈也在中國,如果中國有好的供應(yīng)鏈,國外的廠商也會買,所以價(jià)格這件事上中國企業(yè)不存在優(yōu)勢。

那么供應(yīng)鏈的主要優(yōu)勢在于什么呢?在于這個(gè)供應(yīng)鏈體系可以讓我們的迭代速度非常非???。高陽給你舉的例子還只是在科研,當(dāng)供應(yīng)鏈就在我24小時(shí)包郵區(qū)之內(nèi),我的產(chǎn)品可以按照天來迭代。一個(gè)人在深圳做智能硬件,打板廠、芯片廠、焊接廠、維修廠都會在一個(gè)半小時(shí)車程之內(nèi)。一個(gè)有問題的硬件今天寄回廠商,明天收回來,可能兩天就解決了。如果你在美國,發(fā)個(gè)特快過去也得一周,特朗普還要加關(guān)稅。這種情況下,我的迭代速度是美國公司完全沒辦法比擬的。


但客觀來講,目前美國還是在大腦、小腦和硬件上都有一些優(yōu)勢。硬件領(lǐng)域,中國硬件的主要優(yōu)勢在于便宜,但是要論絕對性能,仍然是波士頓動力和特斯拉領(lǐng)先。你看波士頓動力的現(xiàn)場演示,AI能力雖然弱一點(diǎn),但是他們的動作穩(wěn)定性、柔順度、流暢性都很好,這就意味著他們的整個(gè)硬件設(shè)計(jì)、運(yùn)控能力非常強(qiáng)。

雷峰網(wǎng):既然存在這些差距,為什么你仍然認(rèn)為中國在和海外的對手齊頭并進(jìn)?


韓峰濤:現(xiàn)在我們搞具身智能,很多點(diǎn)上就是全球領(lǐng)先的。3月份的時(shí)候,我們的模型是國內(nèi)第一個(gè)完成疊衣服任務(wù)的,這也是具身模型里最難的任務(wù)之一。到了25年底26年初,我們基模的綜合能力在RoboChallenge的評測榜單中位居全球第一,超越了Pi0.5。原先在工業(yè)機(jī)器人和自動駕駛的時(shí)代,全球第一是不太敢想象的。現(xiàn)在我們就是敢,因?yàn)闀r(shí)代機(jī)遇不一樣了。

從中國開始有風(fēng)險(xiǎn)投資到疫情之前,中國幾乎所有的硬科技創(chuàng)業(yè)都是在搞國產(chǎn)化替代。光刻機(jī)、船、飛機(jī)、汽車、手機(jī)、家電、無人機(jī)、全景相機(jī),甚至是燈,都在干這件事。這是歷史使命,國家要產(chǎn)業(yè)升級就一定要國產(chǎn)化替代,但對于創(chuàng)業(yè)者來講這也是痛苦的。我做機(jī)器人,上面有ABB、庫卡、發(fā)那科,國內(nèi)還有匯川、埃斯頓這些競對。但是你現(xiàn)在回頭看中國制造2025,這個(gè)規(guī)劃2015年發(fā)布,大部分計(jì)劃都提前完成了。疫情之后中國在全球的科技硬實(shí)力,客觀來講是很強(qiáng)的。所以在AI,尤其是具身智能領(lǐng)域,我們起步雖然跟美國還有點(diǎn)差距,但基本上是齊頭并進(jìn)的。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):除了面對的時(shí)代機(jī)遇,你認(rèn)為千尋智能這次創(chuàng)業(yè),自己還有什么不同?


韓峰濤:一個(gè)主要的區(qū)別是我對創(chuàng)業(yè)的認(rèn)知。第一次創(chuàng)業(yè)的時(shí)候,是我會干啥我創(chuàng)啥業(yè),所以我搞工業(yè)機(jī)器人。而且我也沒有非常關(guān)注市場角度,去考慮應(yīng)該做什么樣的工業(yè)機(jī)器人。而是我覺得什么機(jī)器人好,我喜歡什么樣的工業(yè)機(jī)器人,我就做什么樣的。這就是拿著錘子找釘子,客觀來講是運(yùn)氣好,沾了時(shí)代的光,但我們也沒有成為一家偉大的公司。

所以第二次創(chuàng)業(yè)最核心的變化,就不再是我會干啥我干啥。如果還按照這個(gè)思路,那我是做硬件的,我就應(yīng)該去賣硬件。但這次具身智能核心的機(jī)會來源于AI。Embodied AI,embodied是形容詞,本質(zhì)還是AI,所以我們叫千尋智能,不叫千尋機(jī)器人。我去找高陽的時(shí)候說,我們要做AI,要做具身大模型,因?yàn)檫@才是最大的機(jī)會。

這就是我個(gè)人認(rèn)知的變化,第一次是拿著錘子找釘子,但這次是時(shí)代需要什么,我就干什么。站在你的創(chuàng)業(yè)機(jī)會上,做什么樣的公司才能抓住時(shí)代機(jī)遇?這決定了你創(chuàng)什么業(yè)。

會疊衣服比旋風(fēng)踢更重要

雷峰網(wǎng):你為什么判斷,具身智能行業(yè)的時(shí)代機(jī)遇是具身大模型?


韓峰濤:你想沒想過,為什么會有具身智能這個(gè)賽道?原因很簡單,就來源于AI技術(shù)進(jìn)步,就來源于大模型。宇樹16年成立,珞石15年成立,樂聚、云深處也都很多年了。原來也有機(jī)器人,但為什么上一代機(jī)器人干不了活,跳不了舞,為什么原來沒人講具身智能?其實(shí)上一代也有人在做具身智能,英文名詞就叫Embodied AI,也是把AI從虛擬世界帶到物理世界。這一批具身智能用的是深度學(xué)習(xí)技術(shù),但當(dāng)時(shí)的AI智能水平太弱了,所以真正落地的只有NLP、智能音箱,或者給掃地機(jī)器人做視覺規(guī)劃這些場景。

今天這一代具身智能的核心變量只有一個(gè),就是AI技術(shù)發(fā)生了革命性的變化,這種技術(shù)進(jìn)步讓機(jī)器人的大腦真正有可能可用了。所以真正的具身智能公司,要思考的核心問題只有一個(gè),怎么讓具身模型進(jìn)化?

具身模型其實(shí)也是大模型,有三要素,數(shù)據(jù)、算力、算法。算力和算法基本上是收斂的,或者說具身模型在訓(xùn)練范式上跟訓(xùn)練多模態(tài)的大語言模型一樣。大語言模型是怎么進(jìn)化過來的?一開始只有LLM,后來開始有圖像有視覺了,叫VLM。GPT-4o采集了很多真人的聲音,說話的語調(diào)音色就更自然了。o就是Omni,全的意思。但是它的全面只存在于虛擬世界,是虛擬的全模態(tài)。機(jī)器人需要物理全模態(tài),除了能說會道之外,還要能干活。所以從VLM到VLA,其實(shí)就是在原來圖像、文字、聲音的基礎(chǔ)上加上動作。這整個(gè)范式都是一樣的,就是不斷給模型增加模態(tài)。

黃仁勛去年在CES的演講里有一張圖,畫的是從Alexnet深度學(xué)習(xí),到商湯曠視做的第一代AI,再到OpenAI這種第二代的生成式AI,再到Agent,最后到 Physical AI。這些是一脈相承的,技術(shù)路線已經(jīng)相對確定了。

雷峰網(wǎng):但千尋智能現(xiàn)在也在自己做硬件,是出于什么考慮?


韓峰濤:具身智能是一個(gè)長坡厚雪的賽道,后邊這個(gè)曲線就是我們說的長坡。下面2016 ~ 2020是大模型的時(shí)間線。這個(gè)點(diǎn),對于大模型來說是2016年OpenAI起步,2020年他們發(fā)了 Skillful Learning的論文,后面就是Scaling Law。上面是具身模型時(shí)間線。很多具身公司是2024年成立的,到今天,基本可以認(rèn)為具身模型到了GPT-2的時(shí)代,接下來我們要到GPT-3。GPT-3干了什么?大力出奇跡。當(dāng)數(shù)據(jù)和算法的都收斂了,大家就知道應(yīng)該投錢采什么數(shù)據(jù),模型就要快速增長了。

對話千尋智能韓峰濤:真正的機(jī)器人是生產(chǎn)力,不是展品和玩具

具身智能及大語言模型發(fā)展階段對比,韓峰濤辦公室圖

所以你看美國的具身智能公司都在干什么?可以引用一下特斯拉的思路,他們不搞商業(yè)化,甚至不著急量產(chǎn),而是在一點(diǎn)點(diǎn)優(yōu)化機(jī)器人。那為什么特斯拉不買宇樹的機(jī)器人做模型?因?yàn)槟P透布墙壎ǖ?,最好的機(jī)器人就是你自己做的機(jī)器人。模型跟機(jī)器人聯(lián)合設(shè)計(jì),軟硬一體,效果最好。而且你看特斯拉的發(fā)布會,自動駕駛的仿真效果特別好。他們有全球最好的仿真器,為什么機(jī)器人不用?因?yàn)榉抡鏀?shù)據(jù)不行,一定得是真實(shí)數(shù)據(jù),而且得是用自己的機(jī)器人采的真實(shí)數(shù)據(jù)。

另外大家經(jīng)常講,長坡厚雪,沿途下蛋,做硬件也有市場目的。模型能力每達(dá)到一個(gè)級別,我們就可以下個(gè)蛋,做個(gè)東西。比如我們做三指手而不是五指,一方面是因?yàn)樵谏顖鼍?,三指手已?jīng)能完成百分之八九十的活。另外一個(gè)原因是五指手現(xiàn)在還不成熟,我們沿途下蛋的時(shí)候,能量產(chǎn)的產(chǎn)品一定是基于成熟技術(shù)。就像做新能源車,完美的新能源車應(yīng)該是 L5 加固態(tài)電池。但你14 年做Model S、 Model 3的時(shí)候怎么選?17年做理想One的時(shí)候怎么選?那肯定是L0加增程,L0加快充,L0加換電,慢慢再換成L1加增程,L2加三元鋰,L3 加固態(tài),一步步來。我們現(xiàn)在的三指,就類似于增程。

所以一家好的具身智能公司,一定是以 AI 為核心,但是有世界一流硬件的支持。這個(gè)硬件既從數(shù)據(jù)角度支持模型,又從銷售角度支撐公司運(yùn)營。

雷峰網(wǎng):你們是一家模型公司,但又要做本體,又要做手,會不會太多頭了?


韓峰濤:但你必須得做。具身智能在商業(yè)邏輯上更像自動駕駛的新能源車,靈魂是自動駕駛軟件,但客戶買的是一臺更智能的車,所以這兩件事你都得干。在具身智能行業(yè),只賣模型的生意模式基本不存在。當(dāng)然我們暢想一下,10 年、20 年之后有沒有可能?也有可能。自動駕駛,有沒有可能特斯拉的領(lǐng)先幅度越來越大,將來就不造車,只賣FSD?也有可能。但是大概率不會,因?yàn)橹挥性谧约旱能嚿喜拍苡?xùn)練得最好。

雷峰網(wǎng):千尋智能計(jì)劃什么時(shí)間進(jìn)入量產(chǎn)階段?


韓峰濤:看你怎么定義量產(chǎn)。如果我們說的是有生產(chǎn)力、可以干活的機(jī)器人,那大概是26年底。今天的模型能力還沒有快速爬升,就像在GPT-2時(shí)代,大模型性能和商湯、谷歌做的Bert模型可能沒那么大差異。但我們?nèi)谫Y的時(shí)候就會告訴股東,我們是從成立第一天起就想著干模型的公司,我們需要兩年時(shí)間摸索,去找最佳的數(shù)據(jù)配比、最好的數(shù)據(jù)管線、最好的模型結(jié)構(gòu)和算法。

千尋是2024年成立的,這兩年我們把基礎(chǔ)設(shè)施全都搭好了,第三年就要開始數(shù)據(jù)上量,模型性能提升。很快我們會開源一款具身模型Spirit v1.5,在RobotChallenge榜單排第一,比Pi0.5還要強(qiáng)。未來到Pi0.6打榜之前,我們都會是全球最強(qiáng)的開源模型。

我們可以用智駕的邏輯梳理具身智能行業(yè),但是具身智能跟智駕有個(gè)本質(zhì)區(qū)別,那就是車沒有智駕仍然可以開,但沒有大模型的機(jī)器人就是沒用的。當(dāng)你還沒有足夠好的模型,你的機(jī)器人賣出去就只能跳舞,只能做導(dǎo)覽、數(shù)采,這些都不算干活。這當(dāng)然也有價(jià)值,但它是一個(gè)小市場。

將來的具身智能,會是略低于汽車的價(jià)格,乘以略少于手機(jī)的數(shù)量,這是個(gè)巨大的市場空間。玩具、跳舞、導(dǎo)覽是客觀存在的市場,但這個(gè)市場太小了,一年撐死賣5, 000臺。每年全球能賣7, 000萬臺車,10億部手機(jī),這完全不是一個(gè)量級的市場。展品和玩具,不算是真正的機(jī)器人。


雷峰網(wǎng):能干活的才算嗎?


韓峰濤:或者說賣能干活的才有意義。機(jī)器人跳一萬次舞,本質(zhì)上也只有一條數(shù)據(jù),因?yàn)槊總€(gè)動作都跳得一樣。展品賣出去上千臺,本質(zhì)上等于賣出一臺,只能產(chǎn)生點(diǎn)營收,對于模型進(jìn)化沒有幫助。你必須要把那種由模型驅(qū)動的、能干活的機(jī)器賣出去,才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來。

而且產(chǎn)品能不能量產(chǎn),其實(shí)背后就一個(gè)卡點(diǎn),有啥用。東西只要有用,再貴也有人買。九幾年買個(gè)房才三萬,大哥大一萬多一個(gè),為啥有人買?私人飛機(jī)幾千萬上億,為啥有人買?有用就一定有人買,那怎么讓機(jī)器人有用?就卡在一個(gè)地方,模型。所以我們選的場景都是能幫助模型進(jìn)化的場景。

雷峰網(wǎng):2025年國內(nèi)部分具身廠商把量產(chǎn)作為主要目標(biāo),但與此同時(shí)具身模型的進(jìn)展并不顯著,你怎么看?


韓峰濤:特斯拉的AI能力肯定沒問題,但為什么大家都覺得特斯拉的人機(jī)交互做得不好?他是全球最強(qiáng)的AI公司之一,難道他做的模型不如其他的公司嗎?不可能。那原因是什么?第一特斯拉不需要融資,第二特斯拉是直接奔著終局去的。終局就是構(gòu)建一個(gè)通用的本體,加一個(gè)通用的具身模型。


PI在訓(xùn)練模型,Sunday在訓(xùn)練模型,美國沒有人在賣硬件。所有厲害的模型公司都有厲害的硬件,反而只有硬件沒有模型的公司,將來會面臨很大的挑戰(zhàn),這是個(gè)戰(zhàn)略選擇的問題。國內(nèi)有很多公司出于股東壓力開始賣硬件,但那不在主航道,核心就只有模型。

雷峰網(wǎng):你怎么衡量具身模型的進(jìn)化水平?


韓峰濤:可以參考自動駕駛。工業(yè)機(jī)器人是L0,加點(diǎn)工業(yè)視覺就是L0.5。但這些東西應(yīng)用場景都很小,只能做那一件事。到2024年底,機(jī)器人可以疊衣服了,就是L1。自動駕駛的L1叫單功能輔助駕駛,就是可以自動剎車、車道保持。那具身的單一功能是什么?比方說疊衣服、幫我開門、拿瓶水。只做一件事就是L1。其中疊衣服是L1里最難的。如果能疊衣服,那L1級別的所有任務(wù)就都能干?,F(xiàn)在大家都選這個(gè)場景,其實(shí)就是在秀肌肉。

我剛才講具身智能的機(jī)會來源于大模型,它的落地也受限于大模型。因?yàn)楫?dāng)你只有L0的時(shí)候,機(jī)器人就只能跳舞。L1的機(jī)器人會疊衣服了,但是只有在工廠流水線這個(gè)場景才有價(jià)值,因?yàn)榱魉€就只要求人做一件事,相應(yīng)地在商用和家用場景就不行,所以我們L1階段落在了寧德時(shí)代。

模型能力繼續(xù)爬坡,L2叫組合輔助駕駛,能干一長串的事。落到具身上,就從疊衣服進(jìn)化到找到臟衣服、扔進(jìn)洗衣機(jī)、倒洗衣粉、操作洗衣機(jī)、晾衣服、疊好放進(jìn)衣柜這一長串。你只需要給一個(gè)指令,機(jī)器人就能干一長串的事,就是L2。2025年底,模型大概在L1.8左右,我覺得26年夏天就可以到L2了。

雷峰網(wǎng):那么L2階段,千尋智能理想的落地場景是什么?


韓峰濤:我們現(xiàn)在比較看好零售、物流這些服務(wù)場景。其實(shí)L2階段的場景也要一個(gè)一個(gè)攻克,只是選擇場景的時(shí)候,首先要選一個(gè)有商業(yè)價(jià)值的大場景。

工業(yè)場景為什么選寧德時(shí)代?因?yàn)楣I(yè)里新能源電池行業(yè)的利潤是很可觀的。物流為什么選京東和華為?也是因?yàn)檫@些場景有很好的商業(yè)化和利潤水平。L1、L2的所有場景里,肯定要選那些利潤高且愿意為機(jī)器人付費(fèi)的場景。

具身大年將至,決戰(zhàn)數(shù)據(jù)之巔

雷峰網(wǎng):對于具身企業(yè)來說,2026年最緊迫的任務(wù)是什么?


韓峰濤:具身最后的競爭會是通用大腦的競爭,這至少在美國已經(jīng)是共識了。數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量,那么在訓(xùn)模型的時(shí)候你就需要回答,用什么數(shù)據(jù)訓(xùn)這個(gè)模型,以及數(shù)據(jù)從哪來。今天領(lǐng)先的具身智能公司,都在解決這個(gè)問題。

你可以買第三方機(jī)器人采數(shù),但這只能做科研寫論文。而且模型最終要驅(qū)動機(jī)器人干活,在其他機(jī)器人上采的數(shù)據(jù)落到不同型號的機(jī)器人上,數(shù)據(jù)不同構(gòu)會導(dǎo)致模型性能下降,也就干不了活。

另外一種是特斯拉的方案,他們在用自己的機(jī)器人搞數(shù)據(jù)。當(dāng)機(jī)器人的外觀、靈巧手、腿、胳膊所有部分都確定下來,就可以大批量生產(chǎn)。到這一步,特斯拉就可以像曾經(jīng)賣它的車一樣,讓機(jī)器人一邊干活一遍采數(shù)。有了數(shù)據(jù),加上它最大的算力中心和AI人才,就可以訓(xùn)具身模型了。這也是千尋的方案,我們做了一個(gè)機(jī)器人數(shù)據(jù)工廠?,F(xiàn)在我們樓下的數(shù)據(jù)工廠大概有四五十個(gè)采集工位,26年會增加超過10倍。相比之下特斯拉會花更多的人工成本,但大家背后的邏輯都一樣,就是盡量采集更多真實(shí)的、重構(gòu)型的數(shù)據(jù),然后再去訓(xùn)練模型。

雷峰網(wǎng):智駕廠商的很多路況數(shù)據(jù)是客戶采集的,他們只需要投入很少的人組建自己的數(shù)采團(tuán)隊(duì)。千尋智能已經(jīng)積累了很多客戶,為什么不選擇類似的方案?


韓峰濤:為什么具身智能的發(fā)展速度比大語言模型和自動駕駛慢?就是因?yàn)槿睌?shù)據(jù)。大語言模型的快速爆發(fā),來源于人類過去20多年在互聯(lián)網(wǎng)上積攢的數(shù)字資產(chǎn)。自動駕駛一開始也沒數(shù)據(jù),但沒有自動駕駛功能的車也能賣出去,所以客戶可以一邊開車一邊幫他采數(shù)。機(jī)器人不行,沒有大腦就完全沒用。

這也是為什么這兩年我們在做自己的數(shù)采設(shè)備,搞我們自己的數(shù)據(jù)管線。因?yàn)槲覀円M量模仿當(dāng)年人們一邊開車一邊采數(shù)的過程,想辦法讓人一邊干活一邊采數(shù)。讓人學(xué)會遙操機(jī)器人,效率低成本高,安全性也不行,最后的方案收斂到了可穿戴設(shè)備上。讓人穿上數(shù)采設(shè)備,該干啥干啥。

雷峰網(wǎng):此前自動駕駛或大語言模型的發(fā)展,可以給具身數(shù)據(jù)的采集提供什么啟示?


韓峰濤:比如自動駕駛,客戶采集回來的數(shù)據(jù)是用來做預(yù)訓(xùn)練的,這部分?jǐn)?shù)據(jù)多了以后,回傳的大部分?jǐn)?shù)據(jù)就沒用了。這時(shí)候車廠會搞個(gè)小的數(shù)采團(tuán)隊(duì),采集特定城區(qū)街道,和某種路況下的特定數(shù)據(jù),這些數(shù)據(jù)就是用來微調(diào)模型的。

具身智能的數(shù)據(jù)也分這兩類。我們會在工廠、物流、家庭,不限制場景地采集預(yù)訓(xùn)練數(shù)據(jù),然后在寧德、京東、華為更多地采集后訓(xùn)練的微調(diào)數(shù)據(jù)。微調(diào)數(shù)據(jù)也分兩類。書房、客廳這些場景,我們會自己搭建,自己采集,因?yàn)楝F(xiàn)在我們沒有這樣的客戶。但是電池、物流這些場景的微調(diào)數(shù)據(jù),我們就提供數(shù)采設(shè)備,讓客戶到他們的現(xiàn)場去采。

雷峰網(wǎng):訓(xùn)練具身模型,到底需要采集多大體量的數(shù)據(jù)?


韓峰濤:現(xiàn)在PI和我們加在一起,真機(jī)數(shù)據(jù)也就1萬小時(shí),可能得1,00萬小時(shí)數(shù)據(jù)才會有比較好的模型效果。但實(shí)際上我們只需要自己采冷啟動數(shù)據(jù)。只要模型能達(dá)到L2水平,能支撐機(jī)器人干活,我們的機(jī)器人就能大批量賣出去。然后我們再開發(fā)一個(gè)蘿卜快跑那樣的接管系統(tǒng),大部分時(shí)候機(jī)器人自主干活,出問題的時(shí)候遠(yuǎn)程接管。這樣數(shù)據(jù)飛輪就能轉(zhuǎn)起來,機(jī)器人用得越多,數(shù)據(jù)越多,模型越好,賣得越多。

而且訓(xùn)到同樣的模型效果,我們的數(shù)據(jù)效率比國內(nèi)競對要高大概5倍。疊衣服這個(gè)動作只用了100多小時(shí)數(shù)據(jù),國內(nèi)競對都得上千或者大幾百小時(shí)。

雷峰網(wǎng):自動駕駛能力可以通過百公里急停或接管次數(shù)衡量,對于具身模型有類似的衡量標(biāo)準(zhǔn)嗎?


韓峰濤:定這種衡量標(biāo)準(zhǔn),首先要限定場景。自動駕駛實(shí)際上就限定了開車場景,但機(jī)器人要干的活很多。假設(shè)我們限定在造電池場景,我也可以用自動駕駛的邏輯,看平均生產(chǎn)多少電池需要接管一次。如果想收斂在一起衡量,起碼要等到26年,大家都能做這些事情了再比較。

客觀來講,早期很難評價(jià)一個(gè)模型的好壞,開源模型的榜單測評是一個(gè)很好的方式,所以26年肯定是一個(gè)打榜的年份。其實(shí)打RobotChallenge我們還是吃虧的,因?yàn)槲覀兪腔谧约旱挠布碜?,在測評中使用第三方不同的硬件肯定會影響模型性能。但是考卷對我們來講更難,我們反而分?jǐn)?shù)更高,那就是我們的能力更強(qiáng)。

雷峰網(wǎng):千尋智能的模型團(tuán)隊(duì)現(xiàn)在有多少人?


韓峰濤:將近40個(gè)人,做硬件的也是40個(gè)人左右,目前整個(gè)公司我們大概110人。硬件團(tuán)隊(duì)主要以上半身為主,一體化關(guān)節(jié)、手臂、感知系統(tǒng),就是攝像頭,還有三指的手。其中手的研發(fā)投入會比較多,腿好解決,我們的底盤就是一個(gè)類似于室內(nèi)的自動駕駛方案。雙腿對普通的家用機(jī)器人意義不大,你得把坐著能干的活,或者輪式底盤能到的地方的活先干了。

雷峰網(wǎng):2026年你們還有融資計(jì)劃嗎?


韓峰濤:融,這一次沖L2肯定要拿大錢。26年是模型能力快速進(jìn)化的元年,也會是具身智能大額融資的元年。原來除了智元和銀河融得稍微多一點(diǎn),估值上了100億,其他家都沒像六小虎那樣一次融幾億美元,但是26年具身智能也會有這樣的融資。

26年對于具身智能,就相當(dāng)于國內(nèi)大語言模型的23年,大家會看到這件事可以scaling,會相信具身大模型的能力要開始快速攀升了?,F(xiàn)在的具身大模型處在預(yù)訓(xùn)練階段,預(yù)訓(xùn)練差不多了,基于GPT-3.5才能開發(fā)出ChatGPT。具身智能的GPT moment一定會在26年出現(xiàn),只要在學(xué)術(shù)上能夠證明就可以,快的話就在上半年。當(dāng)模型能力快速攀升的時(shí)候,融資就會變得很火熱。

前兩天智譜和Minimax上市,我覺得是一個(gè)標(biāo)志性的事件,虛擬AI開始向物理AI交棒了。無論是技術(shù)的進(jìn)展、投資的熱點(diǎn)、行業(yè)的關(guān)注度都要交放到物理AI上,接下來具身智能要重走一遍大語言模型從2023年到2025年走過的路。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說