如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

本文作者：我在思考中

2021-11-19 18:09

導(dǎo)語：人還能模仿獵豹走路？Gromov-Wasserstein模仿學(xué)習(xí)了解一下。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

Stuart Russell等人使用Gromov-Wasserstein距離來對齊和比較智能體不同空間之間的狀態(tài)，從而使人模仿獵豹走路成為可能。

編譯 | 杏花

編輯 | 青暮

跨域模仿學(xué)習(xí)研究的是如何利用一個智能體的專家演示來訓(xùn)練一個具有不同實施方式或形態(tài)的模仿智能體。比較專家智能體和模仿智能體之間的軌跡和平穩(wěn)分布是具有挑戰(zhàn)性的，因為它們生活在不同的系統(tǒng)中，甚至可能不具有相同的維數(shù)。

近日，來自加州大學(xué)伯克利分校人工智能實驗室、倫敦大學(xué)學(xué)院和 Facebook AI 的研究人員在一篇論文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿學(xué)習(xí)（GWIL），這是一種跨域模仿的方法，使用 Gromov-Wasserstein 距離來對齊和比較智能體不同空間之間的狀態(tài)。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

論文地址：https://arxiv.org/pdf/2110.03684v1.pdf

研究背景

強化學(xué)習(xí)（RL）已經(jīng)在許多領(lǐng)域取得了令人驚艷的成果。然而，當前RL的有效性與訓(xùn)練獎勵的質(zhì)量密切相關(guān)。但是，對于許多現(xiàn)實世界的任務(wù)來說，設(shè)計密集且信息豐富的獎勵需要大量的工程工作。為了減輕這種工作量，模仿學(xué)習(xí)（IL）建議直接從專家演示中學(xué)習(xí)。

但是，當前大多數(shù)的 IL 方法僅可以應(yīng)用于最簡單的設(shè)置，在這種設(shè)置中，專家和智能體共享相同的實施和轉(zhuǎn)換動態(tài)，它們生活在相同的狀態(tài)和動作空間。尤其是這些方法需要來自智能體域的專家演示。

因此，論文的研究人員重新考慮了 IL 的效用，因為它似乎只是將問題從設(shè)計信息性獎勵遷移到提供專家演示，而不是解決問題。然而，如果放寬當前 IL 方法的約束設(shè)置，那么真正減輕工程量的自然模仿場景就會出現(xiàn)。事實上，不需要相同的動力學(xué)就能使智能體模仿不同形態(tài)的人類和機器人，從而廣泛擴大 IL 的適用性，并減輕對域內(nèi)專家演示的需求。

這種專家演示來自另一個域的寬松設(shè)置已成為更具現(xiàn)實假設(shè)意義的新興領(lǐng)域，被稱為跨域模仿學(xué)習(xí)。這些工作的一個共同策略是學(xué)習(xí)專家域和智能體域之間的映射。為此，它們需要訪問智能體任務(wù)，在這些任務(wù)中，專家和智能體都在各自的域中發(fā)揮最優(yōu)作用。在一定的結(jié)構(gòu)假設(shè)下，該映射能夠在保持最優(yōu)性的前提下，將專家域內(nèi)的軌跡轉(zhuǎn)化為智能體域內(nèi)的軌跡。雖然這些方法確實放寬了 IL 的典型設(shè)置，但對代理任務(wù)的要求嚴重限制了跨域 IL 的適用性。例如，它排除了模仿以前從未見過的專家以及轉(zhuǎn)移到新機器人的可能性。

本篇論文中，研究人員放寬了跨域 IL 的假設(shè)，提出了一個不需要訪問智能體任務(wù)的基準和方法。為此，研究人員脫離了先前工作的觀點，將跨域 IL 形式化為最優(yōu)傳輸問題，提出了一種Gromov-Wasserstein模仿學(xué)習(xí)方法（GWIL），該方法使用 Gromov-Wasserstein 距離來求解基準。研究者們論文里正式描述了 GWIL 保持最優(yōu)性的場景，揭示了其可能性和局限性。實驗表明，在非平凡連續(xù)控制設(shè)置中，GWIL通過一個單一的演示從另一個域?qū)W習(xí)最優(yōu)行為，而不需要任何智能體任務(wù)。

相關(guān)工作

模仿學(xué)習(xí)。IL 的早期研究方法是行為克隆，這相當于通過監(jiān)督學(xué)習(xí)訓(xùn)練分類器或回歸器來復(fù)制專家的演示。另一種關(guān)鍵方法是逆強化學(xué)習(xí)，它旨在學(xué)習(xí)一個獎勵函數(shù)，在該獎勵函數(shù)下觀察到的演示是最優(yōu)的，然后可以通過 RL 來訓(xùn)練智能體。

為了跳過學(xué)習(xí)專家獎勵函數(shù)，Ho & Ermon 證明了 RL 是占用度量匹配問題的對偶，并提出了一個對抗性目標，該目標的優(yōu)化近似恢復(fù)專家的狀態(tài)-動作占用度量，以及使用生成式對抗網(wǎng)絡(luò)的實用算法。雖然最近的一些工作旨在改進該算法相對于由極大極小優(yōu)化引起的訓(xùn)練不穩(wěn)定性，Primal Wasserstein模仿學(xué)習(xí)（PWIL）和 Sinkhorn 模仿學(xué)習(xí)（SIL）將 IL視為占用措施之間的最優(yōu)傳輸問題，以完全消除極大極小目標，并在樣本效率方面優(yōu)于對抗性方法。

還有其他研究人員將模仿學(xué)習(xí)擴展到復(fù)雜的類人運動和非瑣碎設(shè)置中的游戲行為。從 Wasserstein 到 Gromov-Wasserstein，該論文工作是對 Dadashi 等人以及 Papagiannis 和 Li 的延伸，從而超越了專家和模仿者在同一域中的限制，并進入了生活在不同空間中的智能體之間的跨域設(shè)置。

跨域和形態(tài)的遷移學(xué)習(xí)。在 RL 中，不同域之間傳遞知識的工作通常會學(xué)習(xí)狀態(tài)空間和動作空間之間的映射。Ammar 等人使用無監(jiān)督流形對齊，在具有相似局部幾何形狀但假定可以獲得手工制作特征的狀態(tài)之間找到線性映射。最近在跨視點遷移學(xué)習(xí)和實施例不匹配方面的工作學(xué)習(xí)了不需要手工特性的狀態(tài)映射，但假設(shè)可以從兩個領(lǐng)域獲得成對和時間對齊的演示。

此外，Kim 等人和 Raychaudhuri 等人提出了從未配對和未對齊任務(wù)中學(xué)習(xí)狀態(tài)映射的方法。所有這些方法都需要智能體任務(wù)，即來自兩個域的一組專家演示，這限制了這些方法在現(xiàn)實世界中的適用性。Stadie等人提出將對抗學(xué)習(xí)和域混淆結(jié)合起來，在不需要智能體任務(wù)的情況下在智能體域?qū)W習(xí)策略，但他們的方法僅適用于小視點不匹配的情況。Zakka等人采用目標驅(qū)動的觀點，試圖模擬任務(wù)進程，而不是匹配細粒度的結(jié)構(gòu)細節(jié)，以便在物理機器人之間轉(zhuǎn)換。

相比之下，這篇論文的方法不依賴于學(xué)習(xí)智能體之間的顯式跨域潛在空間，也不依賴于智能體任務(wù)。GromovWasserstein 距離使研究人員能夠在沒有共享空間的情況下直接比較不同的空間?，F(xiàn)有基準測試任務(wù)假設(shè)可以訪問來自兩個智能體的一組演示，而這篇論文中的實驗僅假設(shè)可以訪問專家演示。

圖注：等距策略在平穩(wěn)分布的狀態(tài)-動作空間內(nèi)具有相同的成對距離。在歐幾里得空間中，等距變換保留了這些成對距離并包括旋轉(zhuǎn)、平移和反射。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

圖注：Gromov-Wasserstein 距離使我們能夠比較具有不同動態(tài)和狀態(tài)-動作空間的兩個智能體的平穩(wěn)的狀態(tài)-動作分布。我們將其用作跨域模仿學(xué)習(xí)的偽獎勵。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

圖注：給定專家域（a）中的單個專家軌跡，GWIL 在沒有任何外部獎勵的情況下恢復(fù)智能體域（b）中的最優(yōu)策略。綠點表示初始狀態(tài)位置，當智能體達到紅色方塊表示的目標時，事件結(jié)束。

實驗結(jié)果

論文的研究人員提出了一個由 3 個任務(wù)組成的跨域 IL 方法的基準集，旨在回答以下問題：

1. 當智能體域是專家域的剛性變換時，GWIL能否恢復(fù)最優(yōu)行為？這是可以的，論文的作者們用迷宮證明了這一點。

2. 當智能體的狀態(tài)和行動空間與專家不同時，GWIL能否恢復(fù)最優(yōu)行為？這也是可以的，本篇論文中，作者們展示了倒立擺（cartpole）和鐘擺（pendulum）之間輕微不同的狀態(tài)-動作空間以及步行者（walker）和獵豹（cheetah）之間顯著不同的空間。

為了回答這兩個問題，研究人員使用了在 Mujoco 和 DeepMind 控制套件中實現(xiàn)的模擬連續(xù)控制任務(wù)。該學(xué)習(xí)策略的視頻可在論文的項目網(wǎng)站上訪問。在所有設(shè)置中，作者在dE和dA的專家和智能體空間中使用歐幾里得度量。

學(xué)習(xí)策略地址：https://arnaudfickinger.github.io/gwil/

圖注：給定鐘擺域（上圖）中的單個專家軌跡，GWIL 在沒有任何外部獎勵的情況下恢復(fù)智能體域（倒立擺，下圖）中的最優(yōu)行為。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

圖注：給定獵豹域（上圖）中的單個專家軌跡，GWIL 恢復(fù)智能體域（步行者）中最優(yōu)策略等距類的兩個元素，向前移動是最優(yōu)的（中間），向后移動是次優(yōu)的（下圖）。有趣的是，由此產(chǎn)生的步行者的行為就像一只獵豹。

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運營

發(fā)私信

當月熱門文章

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)

如何讓人模仿獵豹走路？Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰７聦W(xué)習(xí)