0
| 本文作者: 饒舒瑋 | 2024-06-28 16:17 |
作者丨饒舒瑋
編輯丨岑峰
“既要又要”是何泰然的野心,也是決心。
在談到人形機(jī)器人遙操作的可行路徑時,何泰然表示他既可以實(shí)現(xiàn)機(jī)器人的全身控制,還可以用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)這一點(diǎn)。在他所探索的這條路上,不必因?yàn)榧夹g(shù)瓶頸或短期目標(biāo)而妥協(xié),可以“既要又要”。

遙操作,即遠(yuǎn)程操作(Teleoperation)。在機(jī)器人領(lǐng)域,人們通過某種設(shè)備操控機(jī)器人完成指令下的各種動作,從而收集機(jī)器人的訓(xùn)練數(shù)據(jù),為后續(xù)自動化學(xué)習(xí)提供數(shù)據(jù)。因此,機(jī)器人遙控幾乎是每一個機(jī)器人公司不可繞開的部分。
盡管市場潛力無限,但在何泰然看來,目前領(lǐng)域依然囿于技術(shù)難關(guān),并未得到長足的發(fā)展。而現(xiàn)在,具身智能的興起,為這一領(lǐng)域帶來一些新的生機(jī)。
2015年前后,人工智能領(lǐng)域?qū)崿F(xiàn)了從“感知智能”向“認(rèn)知智能”研究范式的重大轉(zhuǎn)變。ResNet、Transformer 等創(chuàng)新架構(gòu)的提出,不僅推動了深度學(xué)習(xí)技術(shù)的飛躍,更為大模型的問世奠定了基礎(chǔ)。大模型以其空前的計算能力和數(shù)據(jù)處理能力,極大地拓展了機(jī)器學(xué)習(xí)在處理復(fù)雜任務(wù)時的邊界,尤其是在自然語言處理和計算機(jī)視覺等關(guān)鍵領(lǐng)域取得了革命性的進(jìn)步。這些技術(shù)進(jìn)步,為機(jī)器人的感知、決策和交互能力的提升,奠定了堅(jiān)實(shí)的算法基礎(chǔ)。
得益于此,自然語言處理、計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的專家學(xué)者們,與機(jī)器人方向的研究者一道,成為引領(lǐng)這一波具身智能發(fā)展浪潮的關(guān)鍵力量。他們正推動著具身智能不斷突破邊界,向著更加智能化、更具人性化的方向發(fā)展。
盡管具身智能被視為未來人工智能研究的一個重要方向,但其發(fā)展仍處于起步階段,正面臨著技術(shù)、規(guī)范、安全等多方面的挑戰(zhàn)。正如一百多年前汽車剛剛出現(xiàn)的時代,我們迫切需要打通從感知到認(rèn)知的層面,建立起一套更大、更統(tǒng)一的系統(tǒng)。
OmniH2O 項(xiàng)目正是孵化于這樣的一個時代背景之下。其發(fā)起者何泰然是卡內(nèi)基梅隆大學(xué)(CMU)的一名博士生,連同他在內(nèi)的9人小組就是一整個團(tuán)隊(duì)。在何泰然博士導(dǎo)師石冠亞、劉暢流以及之前在上海交通大學(xué)的導(dǎo)師張偉楠的指導(dǎo)和協(xié)助下,OmniH2O 不僅展示了全尺寸人形機(jī)器人的全身遙控和自主學(xué)習(xí)的能力,更是在人形機(jī)器人控制的自然性和靈活性上有所提升。
OmniH2O 項(xiàng)目的核心在于其基于學(xué)習(xí)的方法,通過使用運(yùn)動學(xué)姿勢作為通用的控制接口,實(shí)現(xiàn)多種控制人形機(jī)器人的方式。項(xiàng)目的一個關(guān)鍵貢獻(xiàn)是其開發(fā)的端到端全身策略,該策略協(xié)調(diào)了上半身和下半身的動作,以支持靈巧的操控和穩(wěn)健的移動。此外,OmniH2O項(xiàng)目還發(fā)布了首個針對人形機(jī)器人全身控制的數(shù)據(jù)集 OmniH2O-6,包含六個日常任務(wù),并通過這些任務(wù)展示了人形機(jī)器人全身技能的學(xué)習(xí)能力。

在AI科技評論對何泰然博士的專訪中,我們深入了解了 OmniH2O 項(xiàng)目的成立初衷、創(chuàng)新點(diǎn)以及其在具身智能領(lǐng)域中的潛在影響。何博士分享了他們團(tuán)隊(duì)如何通過遙操作實(shí)現(xiàn)數(shù)據(jù)收集和學(xué)習(xí),解鎖人形機(jī)器人的潛力,并討論了在這一過程中遇到的挑戰(zhàn)和解決經(jīng)驗(yàn)。
以下即為AI科技評論與何泰然就 OmniH2O 項(xiàng)目的訪談實(shí)錄,限于篇幅,AI科技評論進(jìn)行了不改原意的編輯:
AI科技評論:在具身智能領(lǐng)域的生態(tài)鏈中, OmniH2O 項(xiàng)目的定位是什么?
何泰然:我們這個工作自身是一個概念驗(yàn)證(Proof of Concept)的定位。我想通過這個項(xiàng)目證明,人可以通過 VR 眼鏡或者其他的設(shè)備比如 RGB 相機(jī)遙操作一個人形機(jī)器人來收集數(shù)據(jù),使其完成日常生活的任務(wù)。
在這過程中,我們還希望能夠有一些新發(fā)現(xiàn),比如怎么樣可以把控制和自主性做的更好、更魯棒、更聰明。但我覺得在這一方面需要工業(yè)界的幫助,一起將整個系統(tǒng)進(jìn)行優(yōu)化升級,單憑我們學(xué)術(shù)界的實(shí)驗(yàn)室很難把這件事推動到極致。所以我稱這個工作只是一個 Proof of Concept。
AI科技評論:為什么會選擇人形機(jī)器人這個載體進(jìn)行遙操作的研究?
何泰然:因?yàn)檫@個世界的所有設(shè)計都是圍繞人類的身材和活動規(guī)律來設(shè)計的,只有人形的機(jī)器人,才能夠無縫融入我們的物理世界。

此外,在遙操作一個機(jī)器人去進(jìn)行學(xué)習(xí)訓(xùn)練的過程中,因?yàn)樯眢w構(gòu)造的相似,使得我們?nèi)祟愡b控人形機(jī)器人的學(xué)習(xí)成本最低,這也是關(guān)鍵因素之一。人類的大腦就是一個最強(qiáng)的預(yù)訓(xùn)練模型,我們可以將人類大腦的認(rèn)知和控制能力提煉出來以此教會人形機(jī)器人,如此便可直接將人類世界的經(jīng)驗(yàn)分享給機(jī)器人,從而進(jìn)行遙操作,沒必要再一切從頭開始從零訓(xùn)練。
AI科技評論:那么,又為何會選擇 VR 頭盔進(jìn)行遙操作?
何泰然:當(dāng)時也有使用 RGB 相機(jī),從一些 2D 的圖像還原成 3D 的人類姿態(tài)估計,將這些數(shù)據(jù)去做遙操作然后喂給 tracking policy,這個方法可行,但精度和魯棒性不如頭戴式 VR。另外一些更好的 interface (比如動作捕捉設(shè)備或者全身的外骨骼)又太貴了,性價比不高。
后來我們發(fā)現(xiàn)使用 VR 眼鏡可以很好地平衡價格和實(shí)用性。它有得天獨(dú)厚的兩個優(yōu)勢,一是它本身就是個顯示器,可以完全代入機(jī)器人視角,相比別的設(shè)備更加直觀。二是,VR 眼鏡有非常準(zhǔn)確的頭、手追蹤和位置估計。像是蘋果就已經(jīng)把這點(diǎn)做到極致了,每個手有25個點(diǎn)位,長什么樣?分別的角度是多少?Apple Vision Pro 可以預(yù)估得非常精準(zhǔn)。所以用這個設(shè)備來做遙操作,是再合適不過了。
所以目前來看,我們認(rèn)為 VR 這個賽道很好,但如果未來有更好的設(shè)備出現(xiàn),我們也會追求更好、更合適的設(shè)備來進(jìn)行遙操作和訓(xùn)練。
AI科技評論:ChatGPT 出現(xiàn)之后,會考慮將 ChatGPT 跟 OmniH2O 打通實(shí)現(xiàn)自主操作嗎?
何泰然:其實(shí)打通就是讓類似 GPT-4o 這樣的大模型來替換人類的遙操作員。但人類的遙操作員不管通過什么設(shè)備,其所傳輸給下游的都是人形機(jī)器人的控制策略,也就是一些人形機(jī)器人關(guān)鍵點(diǎn)(頭/手/手指)的位置。我認(rèn)為,如果下游的控制策略做得好,那么上游來自什么其實(shí)不重要。
如果我們要利用 GPT-4o 進(jìn)行遙操作,就是通過人形機(jī)器人頭上相機(jī),將看到的東西實(shí)時傳給 GPT-4o,告訴它現(xiàn)在要怎么做。但目前如果讓 GPT-4o 直接執(zhí)行指令,它的響應(yīng)時間太長了,所以我們讓 GPT-4o 進(jìn)行行動的選擇,而不是完全自主決策,我覺得這對現(xiàn)在的方案來說是最可行的。
當(dāng)然之后我覺得像 GPT-4o 這樣的 vision language model 一定會有非常大的進(jìn)步,到時候甚至可以不用上傳到云端,不會有網(wǎng)絡(luò)的延遲,可以在機(jī)器人自己的設(shè)備上進(jìn)行 inference。那個時候就不用做選擇題了,直接做寫作題就行了。
AI科技評論:現(xiàn)在有和哪些工業(yè)界的公司進(jìn)行接觸和合作嗎?在和他們接觸的時候會如何介紹這個項(xiàng)目?
何泰然:現(xiàn)在和工業(yè)界的接觸還不多,一般我們是工業(yè)界的用戶。因?yàn)槲覀儗?shí)驗(yàn)室會買一些宇樹或是其他公司的機(jī)器人。我覺得對于每一個公司來說,人形機(jī)器人遙操作都是一個不可缺失的部分?,F(xiàn)在學(xué)術(shù)界有很多成果,來自UCSD、清華、Stanford和CMU,我相信未來工業(yè)界一定會有相當(dāng)成熟的方案整合。
但現(xiàn)在很多公司在進(jìn)行機(jī)器人遙操作過程中都有或多或少的妥協(xié),要么是對上下半身分離控制,不做全身的控制,要么有些公司偏向于更穩(wěn)定成熟的傳統(tǒng)控制方法,不會選擇上強(qiáng)化學(xué)習(xí)。而我們現(xiàn)在在做的事就是想傳遞給工業(yè)界這樣一個信息:人形機(jī)器人遙操作可以既做全身控制又做強(qiáng)化學(xué)習(xí),還能夠達(dá)到很好的完成度。
AI科技評論:你們是如何解決在遙操作和自主學(xué)習(xí)方面遇到的一些技術(shù)障礙?
何泰然:我們不追求一步到位的解決。首先,我們會把問題進(jìn)行拆分,比如我們會用一個很好的 interface (VR)來做遙操作,在下游用追蹤策略(tracking policy) 來追蹤人類的動作。由此,我們就把這個挑戰(zhàn)拆分成身體控制和認(rèn)知的的挑戰(zhàn),其中在認(rèn)知層面,我們就可以用遙操作來代替。
在我看來,其實(shí)遙操作和自主學(xué)習(xí)這兩類不同任務(wù)的邊界很模糊。因?yàn)楸举|(zhì)上,遙操作是為了讓機(jī)器人實(shí)現(xiàn)自主學(xué)習(xí)。而這一切的基礎(chǔ)都建立在一個非常好的控制策略上。上游的話,不論是來自人類的大腦,或是自己訓(xùn)練的自動智能體都是可行的。
AI科技評論:現(xiàn)在具身智能的發(fā)展需要各種各樣的數(shù)據(jù)集,你認(rèn)為哪些數(shù)據(jù)集比較重要?
何泰然:我覺得現(xiàn)在的問題在于每一種機(jī)器人形態(tài)都有它的數(shù)據(jù)集,但是我們很難把不同的數(shù)據(jù)整合到一起。今年年初 Stanford 發(fā)布的一個研究成果叫 UMI ,就是一個很好的 Manipulation Data 的嘗試。
我認(rèn)為,不管是狗式的機(jī)器臂,還是人形機(jī)器人的機(jī)械臂,都可以共享數(shù)據(jù)。但人形機(jī)器人不同于純機(jī)械臂的manipulation,除了臂之外,腿、腰等部位的數(shù)據(jù)我覺得也相當(dāng)重要。
AI科技評論:除了遙操作之外,我們知道還可以通過仿真獲得數(shù)據(jù),你認(rèn)為 3D 仿真這種方式能從多大程度上解決數(shù)據(jù)問題?
何泰然:我覺得會從很大程度上解決。正是因?yàn)槲覀儧]有足夠機(jī)器人在真實(shí)世界的數(shù)據(jù),所以才需要仿真。雖然可能通過仿真獲得的數(shù)據(jù)并不是那么準(zhǔn)確,但能夠提供足夠好的起始數(shù)據(jù)。我相信未來最好的系統(tǒng),一定不會只由一種數(shù)據(jù)所訓(xùn)練出來。
老生常談,數(shù)據(jù)價值可以用金字塔的結(jié)構(gòu)來比喻,最易得的模擬器仿真數(shù)據(jù)在最低層,無窮無盡也大致正確;最高層的數(shù)據(jù)最難得,但價值也最高。未來最好的算法或者最強(qiáng)的機(jī)器人模型,一定會是那種完美地融合了不同數(shù)據(jù)來源的類型。
AI科技評論:這個項(xiàng)目的數(shù)據(jù)集包含了哪些任務(wù)?未來還希望達(dá)到哪些任務(wù)目標(biāo)?
何泰然:數(shù)據(jù)集包含了 6 個任務(wù)。第一個是打拳擊,我作為教練,它要能夠識別并執(zhí)行拳套顏色和左右拳的指令。
第二個是玩兒石頭剪刀布,輸入游戲規(guī)則后,通過幾次訓(xùn)練,讓它學(xué)會怎么在石頭剪刀布中贏。
第三個是關(guān)于下蹲躲避障礙物的任務(wù)。我們設(shè)置了一個長木橫杠的自動裝置不斷向人形機(jī)器人靠近,如果機(jī)器人不能夠?qū)W會下蹲進(jìn)行躲避就會一直被打。
第四、五個都是抓取的任務(wù),機(jī)器人用右手抓取物體放置在一個盒子上,再用左手給放回原處,如此左右手重復(fù)此過程。
第六個任務(wù)是關(guān)于扔垃圾的,比如我們將垃圾遞給人形機(jī)器人,它要學(xué)會自主抓住,并使其放進(jìn)垃圾桶。
未來我們希望能將控制做得更好,在行動效率、魯棒性和準(zhǔn)確性方面都有提升,這樣收集數(shù)據(jù)的效率也會更高,我們也會更多在日常生活場景中去收集數(shù)據(jù)。
AI科技評論:你認(rèn)為上述的數(shù)據(jù)集離實(shí)際應(yīng)用還有多遠(yuǎn)?
何泰然:這個數(shù)據(jù)集雖然包含了 6 個任務(wù)的高質(zhì)量數(shù)據(jù),但主要貢獻(xiàn)是為學(xué)術(shù)界和工業(yè)界收集數(shù)據(jù),驗(yàn)證機(jī)器人是否能擺脫遙操作進(jìn)行自主學(xué)習(xí)。
實(shí)際上這個數(shù)據(jù)量總共加起來其實(shí)不到一個小時的操作數(shù)據(jù)。若要真正實(shí)際應(yīng)用,可能需要收集幾千上萬人長時間的遙操作數(shù)據(jù),沒有人知道準(zhǔn)確答案。我認(rèn)為需要工業(yè)界和學(xué)術(shù)界一起去回答,要怎么樣更高效地收集、利用這些數(shù)據(jù),要怎么設(shè)計數(shù)據(jù)結(jié)構(gòu),才能使數(shù)據(jù)得到最大化使用。
AI科技評論:什么時候開始對人形機(jī)器人遙操作這一領(lǐng)域產(chǎn)生興趣?在哪個階段有了想做 OmniH2O 項(xiàng)目的想法?
何泰然:我的興趣是從小時候那部科幻電影《鐵甲鋼拳》開始的。那部電影講述了人類通過遙操作機(jī)器人來代替自己進(jìn)行拳擊賽的未來??催^電影之后,我心里就埋下了種子,希望自己未來也能夠設(shè)計出電影里的那套機(jī)器人系統(tǒng)。
我在上海交通大學(xué)完成了我的本科學(xué)位,然后在2023年8月份來到 CMU 開始我的博士生涯,也是在這里我正式開始準(zhǔn)備 OmniH2O 項(xiàng)目。在 CMU 入學(xué)后,我就和導(dǎo)師石冠亞教授溝通了這個想法。除了個人興趣的原因,開展 OmniH2O 項(xiàng)目也有一定的研究意義。這個項(xiàng)目可以利用遙操作技術(shù)收集到驅(qū)動機(jī)器人的數(shù)據(jù)飛輪。
因?yàn)樵谟嬎銠C(jī)視覺和自然語言處理領(lǐng)域,可以通過網(wǎng)絡(luò)等方式找到語料庫作為數(shù)據(jù),但是在機(jī)器人領(lǐng)域目前并沒有現(xiàn)成的數(shù)據(jù)可以獲取。我認(rèn)為遙操作可以作為一種解決辦法,由人來控制機(jī)器人完成一些日常的重要任務(wù),以此收集數(shù)據(jù),開啟研發(fā)自動版機(jī)器人第一步,然后再讓自動版機(jī)器人去迭代更多的數(shù)據(jù),形成數(shù)據(jù)飛輪。這是我認(rèn)為真正可以讓具身智能實(shí)現(xiàn)的一條路。

AI科技評論:在你看來的話,近十年來,機(jī)器人的進(jìn)步主要體現(xiàn)在哪些方面?
何泰然:其實(shí)這十年來機(jī)器人的突破,比起 AI 的其他領(lǐng)域還是遠(yuǎn)遠(yuǎn)不足的。實(shí)話說,我認(rèn)為機(jī)器人的突破主要來自 AI 其他社區(qū)的進(jìn)步。
機(jī)器人領(lǐng)域主要分為感知、規(guī)劃和控制。我覺得第一大進(jìn)步是感知,第二個是硬件,如國內(nèi)的宇樹公司所造的人形機(jī)器人,成本低,性能也非常好。
另外,在控制上,我看到了強(qiáng)化學(xué)習(xí)在控制機(jī)器人上面的潛力。在10年前,世界上能夠讓一個人形機(jī)器人走起來的專家,一只手都數(shù)得過來?,F(xiàn)在因?yàn)樯疃葟?qiáng)化學(xué)習(xí)在 AlphaGo 之后得到了長足的發(fā)展,使這項(xiàng)任務(wù)難度大大降低。
此外,芯片方面的支持也是一大助力。如果只是用單線程在 CPU 上跑模擬器的速度是做不了機(jī)器人的控制的。但是英偉達(dá)的 Isaac gym,包括像 Mujoco3,可以同時跑幾千甚至上萬個 environment,一秒可以跑幾十萬甚至幾百萬步,這在以前是不可想象的。
所以我認(rèn)為,近十年來機(jī)器人的進(jìn)步來自于計算機(jī)視覺的認(rèn)知能力,強(qiáng)化學(xué)習(xí)算法的進(jìn)步,以及機(jī)器人硬件和高度并行的 GPU 模擬環(huán)境的進(jìn)步。
AI科技評論:你怎么看待不同領(lǐng)域的研究者參與到具身智能領(lǐng)域的研究中?
何泰然:我覺得這是好事。如果一個人只懂計算機(jī)視覺或者只懂強(qiáng)化學(xué)習(xí)、NLP,那么具身智能都沒有辦法實(shí)現(xiàn)。不管是系統(tǒng)的設(shè)計控制,還是更高層的智能連接,要怎么實(shí)現(xiàn)最優(yōu)機(jī)器人系統(tǒng)需要大家一起討論。
在整個討論過程中,不同研究背景的人是如何思考問題的,他們有什么好的解決方案,這背后有沒有什么共通的能夠讓機(jī)器人變得更好的邏輯等等,能碰撞出不同的火花。比如我們從 ChatGPT 里面學(xué)到 Scaling Law, 數(shù)據(jù)越多,模型越大,表現(xiàn)越好。但是同樣的 Scaling Law 我們怎么讓它在機(jī)器人領(lǐng)域也同樣適用,怎么去獲得這個量級的數(shù)據(jù),怎么獲得一個機(jī)器人版本的 GPT?我非常喜歡大家沒有確定性答案的這種研究領(lǐng)域。大家擁有不同的背景,但都有對研究問題的共同信仰——讓機(jī)器人變得更好,讓每個人的生活變得更好。
雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。