日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

本文作者: 我在思考中 2021-11-19 18:09
導(dǎo)語:人還能模仿獵豹走路?Gromov-Wasserstein模仿學(xué)習(xí)了解一下。
如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)
Stuart Russell等人使用Gromov-Wasserstein距離來對齊和比較智能體不同空間之間的狀態(tài),從而使人模仿獵豹走路成為可能。
編譯 | 杏花

編輯 | 青暮

跨域模仿學(xué)習(xí)研究的是如何利用一個智能體的專家演示來訓(xùn)練一個具有不同實施方式或形態(tài)的模仿智能體。比較專家智能體和模仿智能體之間的軌跡和平穩(wěn)分布是具有挑戰(zhàn)性的,因為它們生活在不同的系統(tǒng)中,甚至可能不具有相同的維數(shù)。

近日,來自加州大學(xué)伯克利分校人工智能實驗室、倫敦大學(xué)學(xué)院和 Facebook AI 的研究人員在一篇論文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿學(xué)習(xí)(GWIL),這是一種跨域模仿的方法,使用 Gromov-Wasserstein 距離來對齊和比較智能體不同空間之間的狀態(tài)。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

論文地址:https://arxiv.org/pdf/2110.03684v1.pdf


1

研究背景

強化學(xué)習(xí)(RL)已經(jīng)在許多領(lǐng)域取得了令人驚艷的成果。然而,當前RL的有效性與訓(xùn)練獎勵的質(zhì)量密切相關(guān)。但是,對于許多現(xiàn)實世界的任務(wù)來說,設(shè)計密集且信息豐富的獎勵需要大量的工程工作。為了減輕這種工作量,模仿學(xué)習(xí)(IL)建議直接從專家演示中學(xué)習(xí)。

但是,當前大多數(shù)的 IL 方法僅可以應(yīng)用于最簡單的設(shè)置,在這種設(shè)置中,專家和智能體共享相同的實施和轉(zhuǎn)換動態(tài),它們生活在相同的狀態(tài)和動作空間。尤其是這些方法需要來自智能體域的專家演示。

因此,論文的研究人員重新考慮了 IL 的效用,因為它似乎只是將問題從設(shè)計信息性獎勵遷移到提供專家演示,而不是解決問題。然而,如果放寬當前 IL 方法的約束設(shè)置,那么真正減輕工程量的自然模仿場景就會出現(xiàn)。事實上,不需要相同的動力學(xué)就能使智能體模仿不同形態(tài)的人類和機器人,從而廣泛擴大 IL 的適用性,并減輕對域內(nèi)專家演示的需求。

這種專家演示來自另一個域的寬松設(shè)置已成為更具現(xiàn)實假設(shè)意義的新興領(lǐng)域,被稱為跨域模仿學(xué)習(xí)。這些工作的一個共同策略是學(xué)習(xí)專家域和智能體域之間的映射。為此,它們需要訪問智能體任務(wù),在這些任務(wù)中,專家和智能體都在各自的域中發(fā)揮最優(yōu)作用。在一定的結(jié)構(gòu)假設(shè)下,該映射能夠在保持最優(yōu)性的前提下,將專家域內(nèi)的軌跡轉(zhuǎn)化為智能體域內(nèi)的軌跡。雖然這些方法確實放寬了 IL 的典型設(shè)置,但對代理任務(wù)的要求嚴重限制了跨域 IL 的適用性。例如,它排除了模仿以前從未見過的專家以及轉(zhuǎn)移到新機器人的可能性。

本篇論文中,研究人員放寬了跨域 IL 的假設(shè),提出了一個不需要訪問智能體任務(wù)的基準和方法。為此,研究人員脫離了先前工作的觀點,將跨域 IL 形式化為最優(yōu)傳輸問題,提出了一種Gromov-Wasserstein模仿學(xué)習(xí)方法(GWIL),該方法使用 Gromov-Wasserstein 距離來求解基準。研究者們論文里正式描述了 GWIL 保持最優(yōu)性的場景,揭示了其可能性和局限性。實驗表明,在非平凡連續(xù)控制設(shè)置中,GWIL通過一個單一的演示從另一個域?qū)W習(xí)最優(yōu)行為,而不需要任何智能體任務(wù)。



2

相關(guān)工作

模仿學(xué)習(xí)。IL 的早期研究方法是行為克隆,這相當于通過監(jiān)督學(xué)習(xí)訓(xùn)練分類器或回歸器來復(fù)制專家的演示。另一種關(guān)鍵方法是逆強化學(xué)習(xí),它旨在學(xué)習(xí)一個獎勵函數(shù),在該獎勵函數(shù)下觀察到的演示是最優(yōu)的,然后可以通過 RL 來訓(xùn)練智能體。

為了跳過學(xué)習(xí)專家獎勵函數(shù),Ho & Ermon 證明了 RL 是占用度量匹配問題的對偶,并提出了一個對抗性目標,該目標的優(yōu)化近似恢復(fù)專家的狀態(tài)-動作占用度量,以及使用生成式對抗網(wǎng)絡(luò)的實用算法。雖然最近的一些工作旨在改進該算法相對于由極大極小優(yōu)化引起的訓(xùn)練不穩(wěn)定性,Primal Wasserstein模仿學(xué)習(xí)(PWIL)和 Sinkhorn 模仿學(xué)習(xí)(SIL)將 IL視為占用措施之間的最優(yōu)傳輸問題,以完全消除極大極小目標,并在樣本效率方面優(yōu)于對抗性方法。

還有其他研究人員將模仿學(xué)習(xí)擴展到復(fù)雜的類人運動和非瑣碎設(shè)置中的游戲行為。從 Wasserstein 到 Gromov-Wasserstein,該論文工作是對 Dadashi 等人以及 Papagiannis 和 Li 的延伸,從而超越了專家和模仿者在同一域中的限制,并進入了生活在不同空間中的智能體之間的跨域設(shè)置。

跨域和形態(tài)的遷移學(xué)習(xí)。在 RL 中,不同域之間傳遞知識的工作通常會學(xué)習(xí)狀態(tài)空間和動作空間之間的映射。Ammar 等人使用無監(jiān)督流形對齊,在具有相似局部幾何形狀但假定可以獲得手工制作特征的狀態(tài)之間找到線性映射。最近在跨視點遷移學(xué)習(xí)和實施例不匹配方面的工作學(xué)習(xí)了不需要手工特性的狀態(tài)映射,但假設(shè)可以從兩個領(lǐng)域獲得成對和時間對齊的演示。

此外,Kim 等人和 Raychaudhuri 等人提出了從未配對和未對齊任務(wù)中學(xué)習(xí)狀態(tài)映射的方法。所有這些方法都需要智能體任務(wù),即來自兩個域的一組專家演示,這限制了這些方法在現(xiàn)實世界中的適用性。Stadie等人提出將對抗學(xué)習(xí)和域混淆結(jié)合起來,在不需要智能體任務(wù)的情況下在智能體域?qū)W習(xí)策略,但他們的方法僅適用于小視點不匹配的情況。Zakka等人采用目標驅(qū)動的觀點,試圖模擬任務(wù)進程,而不是匹配細粒度的結(jié)構(gòu)細節(jié),以便在物理機器人之間轉(zhuǎn)換。

相比之下,這篇論文的方法不依賴于學(xué)習(xí)智能體之間的顯式跨域潛在空間,也不依賴于智能體任務(wù)。GromovWasserstein 距離使研究人員能夠在沒有共享空間的情況下直接比較不同的空間?,F(xiàn)有基準測試任務(wù)假設(shè)可以訪問來自兩個智能體的一組演示,而這篇論文中的實驗僅假設(shè)可以訪問專家演示。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

圖注:等距策略在平穩(wěn)分布的狀態(tài)-動作空間內(nèi)具有相同的成對距離。在歐幾里得空間中,等距變換保留了這些成對距離并包括旋轉(zhuǎn)、平移和反射。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

圖注:Gromov-Wasserstein 距離使我們能夠比較具有不同動態(tài)和狀態(tài)-動作空間的兩個智能體的平穩(wěn)的狀態(tài)-動作分布。我們將其用作跨域模仿學(xué)習(xí)的偽獎勵。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

圖注:給定專家域(a)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復(fù)智能體域(b)中的最優(yōu)策略。綠點表示初始狀態(tài)位置,當智能體達到紅色方塊表示的目標時,事件結(jié)束。



3

實驗結(jié)果

論文的研究人員提出了一個由 3 個任務(wù)組成的跨域 IL 方法的基準集,旨在回答以下問題:

1. 當智能體域是專家域的剛性變換時,GWIL能否恢復(fù)最優(yōu)行為?這是可以的,論文的作者們用迷宮證明了這一點。

2. 當智能體的狀態(tài)和行動空間與專家不同時,GWIL能否恢復(fù)最優(yōu)行為?這也是可以的,本篇論文中,作者們展示了倒立擺(cartpole)和鐘擺(pendulum)之間輕微不同的狀態(tài)-動作空間以及步行者(walker)和獵豹(cheetah)之間顯著不同的空間。

為了回答這兩個問題,研究人員使用了在 Mujoco 和 DeepMind 控制套件中實現(xiàn)的模擬連續(xù)控制任務(wù)。該學(xué)習(xí)策略的視頻可在論文的項目網(wǎng)站上訪問。在所有設(shè)置中,作者在dE和dA的專家和智能體空間中使用歐幾里得度量。

學(xué)習(xí)策略地址:https://arnaudfickinger.github.io/gwil/

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

圖注:給定鐘擺域(上圖)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復(fù)智能體域(倒立擺,下圖)中的最優(yōu)行為。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

圖注:給定獵豹域(上圖)中的單個專家軌跡,GWIL 恢復(fù)智能體域(步行者)中最優(yōu)策略等距類的兩個元素,向前移動是最優(yōu)的(中間),向后移動是次優(yōu)的(下圖)。有趣的是,由此產(chǎn)生的步行者的行為就像一只獵豹。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W(xué)習(xí)

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說