專訪 OmniH2O 項(xiàng)目發(fā)起人何泰然：探索人形機(jī)器人遙操作通向具身智能的可行之路

本文作者：饒舒瑋

2024-06-28 16:17

導(dǎo)語：最強(qiáng)的機(jī)器人模型一定不只有一種數(shù)據(jù)來源。

作者丨饒舒瑋

編輯丨岑峰

“既要又要”是何泰然的野心，也是決心。

在談到人形機(jī)器人遙操作的可行路徑時，何泰然表示他既可以實(shí)現(xiàn)機(jī)器人的全身控制，還可以用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)這一點(diǎn)。在他所探索的這條路上，不必因?yàn)榧夹g(shù)瓶頸或短期目標(biāo)而妥協(xié)，可以“既要又要”。

專訪 OmniH2O 項(xiàng)目發(fā)起人何泰然：探索人形機(jī)器人遙操作通向具身智能的可行之路

遙操作，即遠(yuǎn)程操作（Teleoperation）。在機(jī)器人領(lǐng)域，人們通過某種設(shè)備操控機(jī)器人完成指令下的各種動作，從而收集機(jī)器人的訓(xùn)練數(shù)據(jù)，為后續(xù)自動化學(xué)習(xí)提供數(shù)據(jù)。因此，機(jī)器人遙控幾乎是每一個機(jī)器人公司不可繞開的部分。

盡管市場潛力無限，但在何泰然看來，目前領(lǐng)域依然囿于技術(shù)難關(guān)，并未得到長足的發(fā)展。而現(xiàn)在，具身智能的興起，為這一領(lǐng)域帶來一些新的生機(jī)。

2015年前后，人工智能領(lǐng)域?qū)崿F(xiàn)了從“感知智能”向“認(rèn)知智能”研究范式的重大轉(zhuǎn)變。ResNet、Transformer 等創(chuàng)新架構(gòu)的提出，不僅推動了深度學(xué)習(xí)技術(shù)的飛躍，更為大模型的問世奠定了基礎(chǔ)。大模型以其空前的計算能力和數(shù)據(jù)處理能力，極大地拓展了機(jī)器學(xué)習(xí)在處理復(fù)雜任務(wù)時的邊界，尤其是在自然語言處理和計算機(jī)視覺等關(guān)鍵領(lǐng)域取得了革命性的進(jìn)步。這些技術(shù)進(jìn)步，為機(jī)器人的感知、決策和交互能力的提升，奠定了堅(jiān)實(shí)的算法基礎(chǔ)。

得益于此，自然語言處理、計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的專家學(xué)者們，與機(jī)器人方向的研究者一道，成為引領(lǐng)這一波具身智能發(fā)展浪潮的關(guān)鍵力量。他們正推動著具身智能不斷突破邊界，向著更加智能化、更具人性化的方向發(fā)展。

盡管具身智能被視為未來人工智能研究的一個重要方向，但其發(fā)展仍處于起步階段，正面臨著技術(shù)、規(guī)范、安全等多方面的挑戰(zhàn)。正如一百多年前汽車剛剛出現(xiàn)的時代，我們迫切需要打通從感知到認(rèn)知的層面，建立起一套更大、更統(tǒng)一的系統(tǒng)。

OmniH2O 項(xiàng)目正是孵化于這樣的一個時代背景之下。其發(fā)起者何泰然是卡內(nèi)基梅隆大學(xué)（CMU）的一名博士生，連同他在內(nèi)的9人小組就是一整個團(tuán)隊(duì)。在何泰然博士導(dǎo)師石冠亞、劉暢流以及之前在上海交通大學(xué)的導(dǎo)師張偉楠的指導(dǎo)和協(xié)助下，OmniH2O 不僅展示了全尺寸人形機(jī)器人的全身遙控和自主學(xué)習(xí)的能力，更是在人形機(jī)器人控制的自然性和靈活性上有所提升。

OmniH2O 項(xiàng)目的核心在于其基于學(xué)習(xí)的方法，通過使用運(yùn)動學(xué)姿勢作為通用的控制接口，實(shí)現(xiàn)多種控制人形機(jī)器人的方式。項(xiàng)目的一個關(guān)鍵貢獻(xiàn)是其開發(fā)的端到端全身策略，該策略協(xié)調(diào)了上半身和下半身的動作，以支持靈巧的操控和穩(wěn)健的移動。此外，OmniH2O項(xiàng)目還發(fā)布了首個針對人形機(jī)器人全身控制的數(shù)據(jù)集 OmniH2O-6，包含六個日常任務(wù)，并通過這些任務(wù)展示了人形機(jī)器人全身技能的學(xué)習(xí)能力。

專訪 OmniH2O 項(xiàng)目發(fā)起人何泰然：探索人形機(jī)器人遙操作通向具身智能的可行之路

在AI科技評論對何泰然博士的專訪中，我們深入了解了 OmniH2O 項(xiàng)目的成立初衷、創(chuàng)新點(diǎn)以及其在具身智能領(lǐng)域中的潛在影響。何博士分享了他們團(tuán)隊(duì)如何通過遙操作實(shí)現(xiàn)數(shù)據(jù)收集和學(xué)習(xí)，解鎖人形機(jī)器人的潛力，并討論了在這一過程中遇到的挑戰(zhàn)和解決經(jīng)驗(yàn)。

以下即為AI科技評論與何泰然就 OmniH2O 項(xiàng)目的訪談實(shí)錄，限于篇幅，AI科技評論進(jìn)行了不改原意的編輯：

不再“從頭開始”的遙操作

AI科技評論：在具身智能領(lǐng)域的生態(tài)鏈中， OmniH2O 項(xiàng)目的定位是什么？

何泰然：我們這個工作自身是一個概念驗(yàn)證（Proof of Concept）的定位。我想通過這個項(xiàng)目證明，人可以通過 VR 眼鏡或者其他的設(shè)備比如 RGB 相機(jī)遙操作一個人形機(jī)器人來收集數(shù)據(jù)，使其完成日常生活的任務(wù)。

在這過程中，我們還希望能夠有一些新發(fā)現(xiàn)，比如怎么樣可以把控制和自主性做的更好、更魯棒、更聰明。但我覺得在這一方面需要工業(yè)界的幫助，一起將整個系統(tǒng)進(jìn)行優(yōu)化升級，單憑我們學(xué)術(shù)界的實(shí)驗(yàn)室很難把這件事推動到極致。所以我稱這個工作只是一個 Proof of Concept。

AI科技評論：為什么會選擇人形機(jī)器人這個載體進(jìn)行遙操作的研究？

何泰然：因?yàn)檫@個世界的所有設(shè)計都是圍繞人類的身材和活動規(guī)律來設(shè)計的，只有人形的機(jī)器人，才能夠無縫融入我們的物理世界。

專訪 OmniH2O 項(xiàng)目發(fā)起人何泰然：探索人形機(jī)器人遙操作通向具身智能的可行之路

此外，在遙操作一個機(jī)器人去進(jìn)行學(xué)習(xí)訓(xùn)練的過程中，因?yàn)樯眢w構(gòu)造的相似，使得我們?nèi)祟愡b控人形機(jī)器人的學(xué)習(xí)成本最低，這也是關(guān)鍵因素之一。人類的大腦就是一個最強(qiáng)的預(yù)訓(xùn)練模型，我們可以將人類大腦的認(rèn)知和控制能力提煉出來以此教會人形機(jī)器人，如此便可直接將人類世界的經(jīng)驗(yàn)分享給機(jī)器人，從而進(jìn)行遙操作，沒必要再一切從頭開始從零訓(xùn)練。

AI科技評論：那么，又為何會選擇 VR 頭盔進(jìn)行遙操作？

何泰然：當(dāng)時也有使用 RGB 相機(jī)，從一些 2D 的圖像還原成 3D 的人類姿態(tài)估計，將這些數(shù)據(jù)去做遙操作然后喂給 tracking policy，這個方法可行，但精度和魯棒性不如頭戴式 VR。另外一些更好的 interface （比如動作捕捉設(shè)備或者全身的外骨骼）又太貴了，性價比不高。

后來我們發(fā)現(xiàn)使用 VR 眼鏡可以很好地平衡價格和實(shí)用性。它有得天獨(dú)厚的兩個優(yōu)勢，一是它本身就是個顯示器，可以完全代入機(jī)器人視角，相比別的設(shè)備更加直觀。二是，VR 眼鏡有非常準(zhǔn)確的頭、手追蹤和位置估計。像是蘋果就已經(jīng)把這點(diǎn)做到極致了，每個手有25個點(diǎn)位，長什么樣？分別的角度是多少？Apple Vision Pro 可以預(yù)估得非常精準(zhǔn)。所以用這個設(shè)備來做遙操作，是再合適不過了。

所以目前來看，我們認(rèn)為 VR 這個賽道很好，但如果未來有更好的設(shè)備出現(xiàn)，我們也會追求更好、更合適的設(shè)備來進(jìn)行遙操作和訓(xùn)練。

AI科技評論：ChatGPT 出現(xiàn)之后，會考慮將 ChatGPT 跟 OmniH2O 打通實(shí)現(xiàn)自主操作嗎？

何泰然：其實(shí)打通就是讓類似 GPT-4o 這樣的大模型來替換人類的遙操作員。但人類的遙操作員不管通過什么設(shè)備，其所傳輸給下游的都是人形機(jī)器人的控制策略，也就是一些人形機(jī)器人關(guān)鍵點(diǎn)（頭/手/手指）的位置。我認(rèn)為，如果下游的控制策略做得好，那么上游來自什么其實(shí)不重要。

如果我們要利用 GPT-4o 進(jìn)行遙操作，就是通過人形機(jī)器人頭上相機(jī)，將看到的東西實(shí)時傳給 GPT-4o，告訴它現(xiàn)在要怎么做。但目前如果讓 GPT-4o 直接執(zhí)行指令，它的響應(yīng)時間太長了，所以我們讓 GPT-4o 進(jìn)行行動的選擇，而不是完全自主決策，我覺得這對現(xiàn)在的方案來說是最可行的。

當(dāng)然之后我覺得像 GPT-4o 這樣的 vision language model 一定會有非常大的進(jìn)步，到時候甚至可以不用上傳到云端，不會有網(wǎng)絡(luò)的延遲，可以在機(jī)器人自己的設(shè)備上進(jìn)行 inference。那個時候就不用做選擇題了，直接做寫作題就行了。

AI科技評論：現(xiàn)在有和哪些工業(yè)界的公司進(jìn)行接觸和合作嗎？在和他們接觸的時候會如何介紹這個項(xiàng)目？

何泰然：現(xiàn)在和工業(yè)界的接觸還不多，一般我們是工業(yè)界的用戶。因?yàn)槲覀儗?shí)驗(yàn)室會買一些宇樹或是其他公司的機(jī)器人。我覺得對于每一個公司來說，人形機(jī)器人遙操作都是一個不可缺失的部分?，F(xiàn)在學(xué)術(shù)界有很多成果，來自UCSD、清華、Stanford和CMU，我相信未來工業(yè)界一定會有相當(dāng)成熟的方案整合。

但現(xiàn)在很多公司在進(jìn)行機(jī)器人遙操作過程中都有或多或少的妥協(xié)，要么是對上下半身分離控制，不做全身的控制，要么有些公司偏向于更穩(wěn)定成熟的傳統(tǒng)控制方法，不會選擇上強(qiáng)化學(xué)習(xí)。而我們現(xiàn)在在做的事就是想傳遞給工業(yè)界這樣一個信息：人形機(jī)器人遙操作可以既做全身控制又做強(qiáng)化學(xué)習(xí)，還能夠達(dá)到很好的完成度。

最珍貴的數(shù)據(jù)最難得

AI科技評論：你們是如何解決在遙操作和自主學(xué)習(xí)方面遇到的一些技術(shù)障礙？

何泰然：我們不追求一步到位的解決。首先，我們會把問題進(jìn)行拆分，比如我們會用一個很好的 interface （VR）來做遙操作，在下游用追蹤策略（tracking policy）來追蹤人類的動作。由此，我們就把這個挑戰(zhàn)拆分成身體控制和認(rèn)知的的挑戰(zhàn)，其中在認(rèn)知層面，我們就可以用遙操作來代替。

在我看來，其實(shí)遙操作和自主學(xué)習(xí)這兩類不同任務(wù)的邊界很模糊。因?yàn)楸举|(zhì)上，遙操作是為了讓機(jī)器人實(shí)現(xiàn)自主學(xué)習(xí)。而這一切的基礎(chǔ)都建立在一個非常好的控制策略上。上游的話，不論是來自人類的大腦，或是自己訓(xùn)練的自動智能體都是可行的。

AI科技評論：現(xiàn)在具身智能的發(fā)展需要各種各樣的數(shù)據(jù)集，你認(rèn)為哪些數(shù)據(jù)集比較重要？

何泰然：我覺得現(xiàn)在的問題在于每一種機(jī)器人形態(tài)都有它的數(shù)據(jù)集，但是我們很難把不同的數(shù)據(jù)整合到一起。今年年初 Stanford 發(fā)布的一個研究成果叫 UMI ，就是一個很好的 Manipulation Data 的嘗試。

我認(rèn)為，不管是狗式的機(jī)器臂，還是人形機(jī)器人的機(jī)械臂，都可以共享數(shù)據(jù)。但人形機(jī)器人不同于純機(jī)械臂的manipulation，除了臂之外，腿、腰等部位的數(shù)據(jù)我覺得也相當(dāng)重要。

AI科技評論：除了遙操作之外，我們知道還可以通過仿真獲得數(shù)據(jù)，你認(rèn)為 3D 仿真這種方式能從多大程度上解決數(shù)據(jù)問題？

何泰然：我覺得會從很大程度上解決。正是因?yàn)槲覀儧]有足夠機(jī)器人在真實(shí)世界的數(shù)據(jù)，所以才需要仿真。雖然可能通過仿真獲得的數(shù)據(jù)并不是那么準(zhǔn)確，但能夠提供足夠好的起始數(shù)據(jù)。我相信未來最好的系統(tǒng)，一定不會只由一種數(shù)據(jù)所訓(xùn)練出來。

老生常談，數(shù)據(jù)價值可以用金字塔的結(jié)構(gòu)來比喻，最易得的模擬器仿真數(shù)據(jù)在最低層，無窮無盡也大致正確；最高層的數(shù)據(jù)最難得，但價值也最高。未來最好的算法或者最強(qiáng)的機(jī)器人模型，一定會是那種完美地融合了不同數(shù)據(jù)來源的類型。

AI科技評論：這個項(xiàng)目的數(shù)據(jù)集包含了哪些任務(wù)？未來還希望達(dá)到哪些任務(wù)目標(biāo)？

何泰然：數(shù)據(jù)集包含了 6 個任務(wù)。第一個是打拳擊，我作為教練，它要能夠識別并執(zhí)行拳套顏色和左右拳的指令。

第二個是玩兒石頭剪刀布，輸入游戲規(guī)則后，通過幾次訓(xùn)練，讓它學(xué)會怎么在石頭剪刀布中贏。

第三個是關(guān)于下蹲躲避障礙物的任務(wù)。我們設(shè)置了一個長木橫杠的自動裝置不斷向人形機(jī)器人靠近，如果機(jī)器人不能夠?qū)W會下蹲進(jìn)行躲避就會一直被打。

第四、五個都是抓取的任務(wù)，機(jī)器人用右手抓取物體放置在一個盒子上，再用左手給放回原處，如此左右手重復(fù)此過程。

第六個任務(wù)是關(guān)于扔垃圾的，比如我們將垃圾遞給人形機(jī)器人，它要學(xué)會自主抓住，并使其放進(jìn)垃圾桶。

未來我們希望能將控制做得更好，在行動效率、魯棒性和準(zhǔn)確性方面都有提升，這樣收集數(shù)據(jù)的效率也會更高，我們也會更多在日常生活場景中去收集數(shù)據(jù)。

AI科技評論：你認(rèn)為上述的數(shù)據(jù)集離實(shí)際應(yīng)用還有多遠(yuǎn)？

何泰然：這個數(shù)據(jù)集雖然包含了 6 個任務(wù)的高質(zhì)量數(shù)據(jù)，但主要貢獻(xiàn)是為學(xué)術(shù)界和工業(yè)界收集數(shù)據(jù)，驗(yàn)證機(jī)器人是否能擺脫遙操作進(jìn)行自主學(xué)習(xí)。

實(shí)際上這個數(shù)據(jù)量總共加起來其實(shí)不到一個小時的操作數(shù)據(jù)。若要真正實(shí)際應(yīng)用，可能需要收集幾千上萬人長時間的遙操作數(shù)據(jù)，沒有人知道準(zhǔn)確答案。我認(rèn)為需要工業(yè)界和學(xué)術(shù)界一起去回答，要怎么樣更高效地收集、利用這些數(shù)據(jù)，要怎么設(shè)計數(shù)據(jù)結(jié)構(gòu)，才能使數(shù)據(jù)得到最大化使用。

形成具身智能的數(shù)據(jù)飛輪

AI科技評論：什么時候開始對人形機(jī)器人遙操作這一領(lǐng)域產(chǎn)生興趣？在哪個階段有了想做 OmniH2O 項(xiàng)目的想法？

何泰然：我的興趣是從小時候那部科幻電影《鐵甲鋼拳》開始的。那部電影講述了人類通過遙操作機(jī)器人來代替自己進(jìn)行拳擊賽的未來?？催^電影之后，我心里就埋下了種子，希望自己未來也能夠設(shè)計出電影里的那套機(jī)器人系統(tǒng)。

我在上海交通大學(xué)完成了我的本科學(xué)位，然后在2023年8月份來到 CMU 開始我的博士生涯，也是在這里我正式開始準(zhǔn)備 OmniH2O 項(xiàng)目。在 CMU 入學(xué)后，我就和導(dǎo)師石冠亞教授溝通了這個想法。除了個人興趣的原因，開展 OmniH2O 項(xiàng)目也有一定的研究意義。這個項(xiàng)目可以利用遙操作技術(shù)收集到驅(qū)動機(jī)器人的數(shù)據(jù)飛輪。

因?yàn)樵谟嬎銠C(jī)視覺和自然語言處理領(lǐng)域，可以通過網(wǎng)絡(luò)等方式找到語料庫作為數(shù)據(jù)，但是在機(jī)器人領(lǐng)域目前并沒有現(xiàn)成的數(shù)據(jù)可以獲取。我認(rèn)為遙操作可以作為一種解決辦法，由人來控制機(jī)器人完成一些日常的重要任務(wù)，以此收集數(shù)據(jù)，開啟研發(fā)自動版機(jī)器人第一步，然后再讓自動版機(jī)器人去迭代更多的數(shù)據(jù)，形成數(shù)據(jù)飛輪。這是我認(rèn)為真正可以讓具身智能實(shí)現(xiàn)的一條路。

專訪 OmniH2O 項(xiàng)目發(fā)起人何泰然：探索人形機(jī)器人遙操作通向具身智能的可行之路

AI科技評論：在你看來的話，近十年來，機(jī)器人的進(jìn)步主要體現(xiàn)在哪些方面？

何泰然：其實(shí)這十年來機(jī)器人的突破，比起 AI 的其他領(lǐng)域還是遠(yuǎn)遠(yuǎn)不足的。實(shí)話說，我認(rèn)為機(jī)器人的突破主要來自 AI 其他社區(qū)的進(jìn)步。

機(jī)器人領(lǐng)域主要分為感知、規(guī)劃和控制。我覺得第一大進(jìn)步是感知，第二個是硬件，如國內(nèi)的宇樹公司所造的人形機(jī)器人，成本低，性能也非常好。

另外，在控制上，我看到了強(qiáng)化學(xué)習(xí)在控制機(jī)器人上面的潛力。在10年前，世界上能夠讓一個人形機(jī)器人走起來的專家，一只手都數(shù)得過來?，F(xiàn)在因?yàn)樯疃葟?qiáng)化學(xué)習(xí)在 AlphaGo 之后得到了長足的發(fā)展，使這項(xiàng)任務(wù)難度大大降低。

此外，芯片方面的支持也是一大助力。如果只是用單線程在 CPU 上跑模擬器的速度是做不了機(jī)器人的控制的。但是英偉達(dá)的 Isaac gym，包括像 Mujoco3，可以同時跑幾千甚至上萬個 environment，一秒可以跑幾十萬甚至幾百萬步，這在以前是不可想象的。

所以我認(rèn)為，近十年來機(jī)器人的進(jìn)步來自于計算機(jī)視覺的認(rèn)知能力，強(qiáng)化學(xué)習(xí)算法的進(jìn)步，以及機(jī)器人硬件和高度并行的 GPU 模擬環(huán)境的進(jìn)步。

AI科技評論：你怎么看待不同領(lǐng)域的研究者參與到具身智能領(lǐng)域的研究中？

何泰然：我覺得這是好事。如果一個人只懂計算機(jī)視覺或者只懂強(qiáng)化學(xué)習(xí)、NLP，那么具身智能都沒有辦法實(shí)現(xiàn)。不管是系統(tǒng)的設(shè)計控制，還是更高層的智能連接，要怎么實(shí)現(xiàn)最優(yōu)機(jī)器人系統(tǒng)需要大家一起討論。

在整個討論過程中，不同研究背景的人是如何思考問題的，他們有什么好的解決方案，這背后有沒有什么共通的能夠讓機(jī)器人變得更好的邏輯等等，能碰撞出不同的火花。比如我們從 ChatGPT 里面學(xué)到 Scaling Law，數(shù)據(jù)越多，模型越大，表現(xiàn)越好。但是同樣的 Scaling Law 我們怎么讓它在機(jī)器人領(lǐng)域也同樣適用，怎么去獲得這個量級的數(shù)據(jù)，怎么獲得一個機(jī)器人版本的 GPT？我非常喜歡大家沒有確定性答案的這種研究領(lǐng)域。大家擁有不同的背景，但都有對研究問題的共同信仰——讓機(jī)器人變得更好，讓每個人的生活變得更好。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

饒舒瑋

編輯

發(fā)私信

當(dāng)月熱門文章