中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

本文作者：鄭佳美

2026-04-22 15:14

導(dǎo)語：MangoBench：評估多智能體在多目標(biāo)任務(wù)中協(xié)作能力的離線基準(zhǔn)。

很多人其實已經(jīng)在不知不覺中接觸到了多智能體協(xié)作帶來的變化。

電商大促時，倉庫里往往不是一臺機(jī)器人在工作，而是一整組機(jī)器人同時分揀、運輸、避讓和交接。自動駕駛真正困難的地方，也不只是讓一輛車學(xué)會開，而是讓很多輛車在同一條路上彼此配合?，F(xiàn)實中的很多復(fù)雜任務(wù)，本質(zhì)上都不是單個智能體可以獨立完成的，智能系統(tǒng)也是一樣。

但現(xiàn)實世界并不會給這些系統(tǒng)太多試錯機(jī)會。倉庫機(jī)器人撞一次貨架，工業(yè)機(jī)械臂裝錯一次零件，代價都是真實的。也正因為如此，越來越多研究開始轉(zhuǎn)向離線強(qiáng)化學(xué)習(xí)，也就是先利用已有數(shù)據(jù)訓(xùn)練策略，而不是依賴實時試錯。

可一旦從單智能體走向多智能體，難度會迅速上升，因為系統(tǒng)不僅要學(xué)會做決策，還要在反饋有限的條件下學(xué)會協(xié)作。

這正是當(dāng)前行業(yè)里的一個現(xiàn)實瓶頸。很多方法在實驗環(huán)境里效果不錯，但到了離線多智能體場景中，往往很快暴露出問題。

一方面，真實任務(wù)里的獎勵通常非常稀疏，模型很難知道自己到底哪一步做對了。另一方面，多智能體協(xié)作還會帶來責(zé)任分配問題，也就是最后成功了，卻很難判斷到底是哪一個智能體起了關(guān)鍵作用。結(jié)果就是，系統(tǒng)明明有大量歷史數(shù)據(jù)，卻依然學(xué)不會穩(wěn)定協(xié)作，更談不上面對新任務(wù)時的泛化能力。

在這樣的背景下，來自中山大學(xué)的郭裕蘭團(tuán)隊提出了 MangoBench，并在研究《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中，嘗試重新回答一個關(guān)鍵問題，也就是當(dāng)多個智能體不能隨便試錯時，怎樣才能真正學(xué)會協(xié)作。

研究團(tuán)隊沒有繼續(xù)依賴傳統(tǒng)獎勵驅(qū)動，而是把問題改寫成目標(biāo)驅(qū)動，讓模型圍繞應(yīng)該到達(dá)什么狀態(tài)去學(xué)習(xí)，從而為離線多智能體強(qiáng)化學(xué)習(xí)提供了一條更清晰的研究路徑。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

論文地址：https://wendyeewang.github.io/MangoBench/

性能分化的關(guān)鍵拐點

在難度適中的導(dǎo)航任務(wù)里，不同方法的表現(xiàn)差距已經(jīng)很明顯了。中山大學(xué)團(tuán)隊提出的 IHIQL 的成功率能達(dá)到 80% 到 95%，說明它大多數(shù)時候都能把任務(wù)完成好。相比之下，ICRL 只有 40% 到 60%，GCMBC 只有 20% 到 40%，而 GCOMIGA 和 GCOMAR 基本接近 0%，幾乎等于沒學(xué)會。

換句話說，同樣是面對離線數(shù)據(jù)，有的方法已經(jīng)能比較穩(wěn)定地找到路，有的方法卻連基本方向都抓不住。這說明在獎勵很少、反饋很弱的情況下，傳統(tǒng)的離線多智能體方法其實很容易失靈，而分層強(qiáng)化學(xué)習(xí)方法更容易學(xué)出效果。

當(dāng)任務(wù)再變難一點，這種差距會被進(jìn)一步放大。所有方法的表現(xiàn)都會下降，但下降的程度并不一樣。IHIQL 雖然也會掉到 30% 到 40%，但至少還保留了一部分完成任務(wù)的能力。

ICRL 和 GCMBC 會掉到 10% 到 20% 左右，其他方法則幾乎完全不行了。可以把它理解成，一開始大家都在考試，題目簡單的時候還能看出誰強(qiáng)誰弱，題目一難，很多方法就直接交白卷了，只有少數(shù)方法還能繼續(xù)答題。IHIQL 的優(yōu)勢，正體現(xiàn)在它遇到更復(fù)雜的環(huán)境時沒有一下子垮掉。

研究人員還專門看了另一件事，也就是把一個任務(wù)交給多個智能體時，具體怎么分工會不會影響結(jié)果。比如有的設(shè)置是每個智能體負(fù)責(zé) 4 個部分，有的是每個智能體只負(fù)責(zé) 2 個部分。

結(jié)果發(fā)現(xiàn)，不管是 2×4 還是 4×2，IHIQL 在中等難度任務(wù)里都能穩(wěn)定在約 90% 左右。這個結(jié)果可以理解成，它不是只會適應(yīng)某一種固定分工，而是更像抓住了任務(wù)本身該怎么完成，所以換一種分工方式，它照樣能做得不錯。

到了機(jī)械臂任務(wù)，這種差別就更容易看出來了。在同步協(xié)作的抬欄桿任務(wù)里，IHIQL 的成功率在 80% 以上，GCMBC 大約 60%，ICRL 大約 50%，模仿學(xué)習(xí)方法大約 40%。如果把這些方法想成幾組不同水平的工人，那么 IHIQL 這一組不但完成任務(wù)的概率更高，而且訓(xùn)練時間只有模仿學(xué)習(xí)方法的約 5%。

這說明它不只是做得更好，而且學(xué)得更快，效率也更高。通俗一點說，就是它不但更會做事，而且更快進(jìn)入狀態(tài)。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

到了更復(fù)雜的異步協(xié)作任務(wù)，情況就不一樣了，原本領(lǐng)先的方法不一定還能繼續(xù)領(lǐng)先。以放置食物這個任務(wù)為例，這類任務(wù)不是大家一起同時發(fā)力，而是要一個智能體先完成前面的動作，另一個再接著往下做，所以更考驗先后配合。

在這種情況下，ICRL 的表現(xiàn)最好，成功率大約在 30% 到 40% 之間，明顯高于 IHIQL 和 GCMBC，模仿學(xué)習(xí)方法甚至不到 10%。這說明當(dāng)任務(wù)強(qiáng)調(diào)步驟之間的銜接時，對比學(xué)習(xí)方法更容易學(xué)到這種順序關(guān)系。更重要的是，它不僅做得更好，訓(xùn)練時間還比模仿學(xué)習(xí)少了約 93%，也就是說，它不只是更會學(xué)，而且學(xué)得還更快。

多目標(biāo)和單目標(biāo)的對比，則說明了另一件很容易被忽視的事，那就是測試方式本身也會影響我們對模型的判斷。如果只用一個目標(biāo)去測試，同一個任務(wù)里，IHIQL 是 78%，GCMBC 是 22%，ICRL 是 37%。但換成多目標(biāo)評估后，它們分別提升到 82%、47% 和 56%。

這意味著很多方法其實并沒有我們原來想的那么差，只是單目標(biāo)測試把它們的能力看窄了。換句話說，這些方法學(xué)到的并不只是某一個固定動作，而是面對不同目標(biāo)時，仍然能夠做出調(diào)整的能力，也就是更接近真正的泛化。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

在訓(xùn)練方式的對比里，研究人員發(fā)現(xiàn)，并不是拿到更多全局信息，效果就一定更好。分布式方法 IHIQL 在中等任務(wù)里成功率大約是 95%，任務(wù)規(guī)模變大后還有大約 85%，到了超大規(guī)模任務(wù)也還能保持在 50% 左右。

相比之下，集中訓(xùn)練方法 HIQL-CTDE 在中等任務(wù)里還有大約 70%，但任務(wù)一變復(fù)雜，很快就掉到 44%，再往上甚至只剩下 1%，幾乎等于學(xué)不動了。

這個結(jié)果可以理解成，分布式方法更像是把問題拆開來，各個智能體先管好自己那一部分，所以任務(wù)變難時還能穩(wěn)住。集中訓(xùn)練方法看起來掌握的信息更多，但也正因為要同時處理太多全局信息，任務(wù)一復(fù)雜就容易顧不過來，最后訓(xùn)練變得越來越不穩(wěn)定。

也就是說，在多智能體任務(wù)里，信息更多不一定更占優(yōu)勢，關(guān)鍵還是系統(tǒng)能不能把復(fù)雜問題處理得足夠清楚。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

把所有實驗結(jié)果放在一起看，其實能得出幾個很清楚的判斷。首先，很多方法之所以一到復(fù)雜任務(wù)就失效，最根本的原因不是模型太弱，而是獎勵信號太少。

因為在稀疏獎勵條件下，系統(tǒng)大部分時候都得不到明確反饋，很難知道自己到底哪一步做對了，所以訓(xùn)練很容易陷入混亂。一旦把獎勵變得更密集，性能就會明顯恢復(fù)，這說明問題的關(guān)鍵不在模型本身，而在學(xué)習(xí)信號不夠。

其次，目前表現(xiàn)最穩(wěn)的還是分層方法。以 IHIQL 為代表的方法之所以更有效，是因為它不是讓模型一次性去解決整個復(fù)雜任務(wù)，而是把大任務(wù)拆成多個更小的步驟來學(xué)。

這樣做的好處是，模型更容易在中間過程里得到反饋，也更不容易在任務(wù)變復(fù)雜時一下子崩掉。所以從實驗結(jié)果來看，分層策略更像是一種讓系統(tǒng)先學(xué)會一步一步完成任務(wù)的方法，而不是一上來就要求它掌握全部。

最后，這項研究還說明了多智能體系統(tǒng)最難的地方，其實不只是學(xué)會做動作，而是學(xué)會彼此配合。在簡單任務(wù)里，多智能體有時還能比單智能體做得更好，因為大家分工之后效率更高。

但一旦任務(wù)變復(fù)雜，需要更精細(xì)的協(xié)作和銜接時，問題就會立刻暴露出來。也就是說，真正卡住多智能體系統(tǒng)的，不只是學(xué)習(xí)能力，而是協(xié)同能力，這也是為什么協(xié)作會成為整個系統(tǒng)進(jìn)一步提升表現(xiàn)的最大瓶頸。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

從獎勵驅(qū)動到目標(biāo)驅(qū)動

在實驗設(shè)計上，研究團(tuán)隊先做了一件很關(guān)鍵的事，就是把原本的離線數(shù)據(jù)重新整理了一遍。原始數(shù)據(jù)里只有狀態(tài)和動作，記錄的是系統(tǒng)當(dāng)時看到了什么、做了什么。

研究人員在這個基礎(chǔ)上又加進(jìn)了目標(biāo)和獎勵，也就是把原來的數(shù)據(jù)改造成了狀態(tài)、動作、目標(biāo)、獎勵這樣的形式。具體來說，他們會從已有軌跡里隨機(jī)挑出一個狀態(tài)當(dāng)作目標(biāo)，再去判斷當(dāng)前行為有沒有朝這個目標(biāo)靠近，然后自動生成對應(yīng)的獎勵。

這樣一來，同一批歷史數(shù)據(jù)就不再只能拿來學(xué)一個任務(wù)，而是可以圍繞不同目標(biāo)反復(fù)使用，相當(dāng)于把原有數(shù)據(jù)的價值放大了。

這樣做的意義在于，它把原來的學(xué)習(xí)方式換了一種思路。傳統(tǒng)強(qiáng)化學(xué)習(xí)更像是讓模型一邊做一邊等反饋，問題是這種反饋往往很少，很多時候模型根本不知道自己到底做得對不對。

加入目標(biāo)之后，情況就不一樣了。模型不再只是被動等獎勵，而是會一直圍繞一個明確目標(biāo)去行動，判斷自己是不是在一步步接近它。換句話說，原本那種模糊又稀少的反饋，被變成了更直接、更容易理解的學(xué)習(xí)信號，所以模型更容易學(xué)出有效策略。

為了讓結(jié)果更可靠，研究團(tuán)隊在實驗設(shè)置上也做得比較嚴(yán)謹(jǐn)。運動任務(wù)一共訓(xùn)練了 100 萬步，測試時還會換 5 個不同目標(biāo)，并用 5 個隨機(jī)種子反復(fù)驗證，也就是不只看一次結(jié)果，而是看它在不同條件下是不是都能穩(wěn)定表現(xiàn)。

操作任務(wù)也一樣，訓(xùn)練步數(shù)分別是 1.5 萬和 3.88 萬，測試時還用了 100 個隨機(jī)種子。這樣做的目的很明確，就是盡量避免某一次訓(xùn)練碰巧表現(xiàn)好，確保最后看到的結(jié)果是穩(wěn)定的，而不是偶然的。

在任務(wù)安排上，研究人員也不是隨便選幾個場景，而是故意把難度一點點往上加。運動任務(wù)從較簡單的迷宮開始，逐漸增加到更復(fù)雜的迷宮，最后再加入隨機(jī)傳送這樣的高難度設(shè)置。

操作任務(wù)則從需要同時配合的同步任務(wù)，發(fā)展到需要講究先后順序的異步任務(wù)。這樣設(shè)計，其實是想更系統(tǒng)地觀察模型在不同復(fù)雜度下的表現(xiàn)，不只是看它能不能完成任務(wù)，更想看它在任務(wù)越來越難時，是否還具備泛化能力、長期規(guī)劃能力和協(xié)作能力。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

換句話說，研究團(tuán)隊想測試的不是模型會不會做一道題，而是題目一旦變難，它還能不能繼續(xù)做下去。

中山大學(xué)郭裕蘭團(tuán)隊：數(shù)據(jù)充足卻訓(xùn)練失敗，多智能體到底卡在哪丨CVPR 2026

研究人員還專門分析了，為什么 CTDE 這種看上去信息更多的方法，最后反而表現(xiàn)不好。按直覺來說，既然它在訓(xùn)練時能看到更多全局信息，效果似乎應(yīng)該更好，但問題恰恰也出在這里。

因為它看到的東西太多了，全局狀態(tài)本質(zhì)上就是把所有智能體的狀態(tài)都拼在一起，這會讓問題一下子變得非常大、非常復(fù)雜，模型需要同時處理的內(nèi)容也會迅速增加。

除此之外，CTDE 在訓(xùn)練時和執(zhí)行時其實并不是完全一致的。訓(xùn)練階段，模型會利用全局信息來學(xué)習(xí)；但真正做決策時，每個智能體又只能根據(jù)自己的局部信息行動。這樣一來，就會出現(xiàn)一種情況：訓(xùn)練時學(xué)到的東西，到了實際執(zhí)行時不一定能順利用上，這會讓優(yōu)化過程變得更困難。

還有一個更隱蔽的問題在于目標(biāo)本身。CTDE 一方面要處理整體任務(wù)的全局目標(biāo)，另一方面又要讓每個智能體根據(jù)自己的局部目標(biāo)去行動。這樣就容易出現(xiàn)兩套目標(biāo)之間對不上的情況，也就是模型的一部分在學(xué)整體方向，另一部分卻在學(xué)局部細(xì)節(jié)，最后很難配合到一起。

所以，CTDE 的問題并不是信息不夠，而是信息太多、結(jié)構(gòu)太復(fù)雜，最后讓訓(xùn)練變得不穩(wěn)定。表面上看，它像是在幫模型看到更完整的全局；但實際上，正是這種額外的復(fù)雜性，讓它在任務(wù)一變難時更容易失效。

從方法到問題本質(zhì)

從實驗意義來看，研究團(tuán)隊最重要的貢獻(xiàn)，不只是提出了一套新方法，而是更清楚地揭示了 Offline MARL 為什么一直很難真正做好。

研究結(jié)果說明，問題的核心并不只是模型能力強(qiáng)不強(qiáng)，而是在訓(xùn)練過程中存在兩個更根本的障礙。第一個障礙是學(xué)習(xí)信號太弱，因為 reward 很稀疏，模型在大多數(shù)時候得不到明確反饋，Q- function 很難穩(wěn)定收斂，所以很多方法即使訓(xùn)練很久，效果仍然很差。

第二個障礙是責(zé)任分配問題，也就是在多智能體協(xié)作中，很難判斷到底是哪一個 agent 對最后的成功起了關(guān)鍵作用。一旦這個貢獻(xiàn)關(guān)系分不清，梯度更新就容易出錯，最后就會出現(xiàn)協(xié)作失敗。研究的價值就在于，它把多智能體離線強(qiáng)化學(xué)習(xí)最深層的困難點明確指出來了。

研究團(tuán)隊還說明了 goal-conditioned 真正有效的原因。它的作用并不只是給模型多加一個目標(biāo)輸入，而是改變了整個學(xué)習(xí)方式。原來模型主要依賴 reward 來判斷行為好壞，這種信號很少，也不穩(wěn)定。

加入目標(biāo)之后，每個 state 都能和某個 goal 聯(lián)系起來，學(xué)習(xí)信號就明顯變多了，模型也更容易知道自己應(yīng)該往什么方向調(diào)整。

這樣一來，強(qiáng)化學(xué)習(xí)就不再只是盲目地追逐獎勵，而更像是在學(xué)習(xí)如何從當(dāng)前位置到達(dá)目標(biāo)位置。這種形式比單純依賴 reward 更穩(wěn)定，也更容易訓(xùn)練。

更重要的是，同一個模型可以面對不同目標(biāo)完成不同任務(wù)，這說明模型學(xué)到的不是死記硬背的固定動作，而是具有一定泛化能力的行為策略。

研究人員進(jìn)一步說明了為什么分層方法會更有效。原因在于，分層方法同時解決了兩個難題。一方面，它通過設(shè)置中間目標(biāo)緩解了稀疏獎勵問題，讓模型在任務(wù)還沒有最終完成之前，就已經(jīng)能得到階段性的反饋。

另一方面，它把原本很長、很復(fù)雜的任務(wù)拆成多個更短、更容易處理的小任務(wù)，從而減輕了長時間依賴帶來的學(xué)習(xí)難度。換句話說，分層方法之所以有效，本質(zhì)上是因為它把一個很難直接學(xué)會的大問題，拆成了多個更容易逐步解決的小問題。雷峰網(wǎng)

這一點對于多智能體任務(wù)尤其重要，因為多智能體系統(tǒng)本來就比單智能體更難協(xié)調(diào)，如果沒有這種結(jié)構(gòu)化拆分，訓(xùn)練會更加不穩(wěn)定。

這項研究對普通人的影響也很實際?，F(xiàn)實生活中很多場景并不允許系統(tǒng)反復(fù)試錯，比如自動駕駛、倉儲物流、工廠機(jī)械臂、醫(yī)院輔助機(jī)器人等。這些系統(tǒng)一旦出錯，代價往往很高，所以很多時候只能依賴已經(jīng)收集好的歷史數(shù)據(jù)進(jìn)行訓(xùn)練，也就是離線學(xué)習(xí)。

研究團(tuán)隊所做的工作，本質(zhì)上是在探索怎樣讓多個智能體在不能隨便試錯的情況下，依然學(xué)會穩(wěn)定協(xié)作。這個方向如果繼續(xù)發(fā)展，未來普通人可能會直接受益于更安全的自動駕駛系統(tǒng)、更高效的物流配送機(jī)器人、更穩(wěn)定的工業(yè)自動化設(shè)備，以及更可靠的醫(yī)療和家庭輔助機(jī)器人。

MangoBench 背后的科研工作者

汪怡，中山大學(xué)在讀一年級博士生，主要研究方向為三維視覺和強(qiáng)化學(xué)習(xí)，師從郭裕蘭教授，于深圳河套學(xué)院實習(xí)，完成此論文時期在中山大學(xué)讀本科。在 CVPR 等 CCF A 類會議發(fā)表多篇論文，參與中國圖學(xué)學(xué)會“奮發(fā)圖強(qiáng)”博士生 workshop，參與 China3DV 墻報展示，曾獲中山大學(xué)研究生校長獎學(xué)金等。

鐘檸澤，完成此論文時期在中山大學(xué)讀本科，與郭裕蘭教授合作，主要研究方向為機(jī)器人，三維視覺和強(qiáng)化學(xué)習(xí)。在 CVPR/ICLR/ACM MM 等 CCF A 類會議等發(fā)表論文，CVPR/NeurIPS/ECCV 審稿人，論文在China3DV/ChinaGraph 大會等展示，現(xiàn)在美國賓夕法尼亞大學(xué) GRASP Lab 讀研究生，與 Vijay Kumar 院長合作。

符智恒，西澳大學(xué)博士，香港理工大學(xué)博士后，主要研究方向為三維重建與生成。發(fā)表論文共 20 余篇（包括CVPR、ICCV、TIP、ECCV、IJCAI等），英文著作一部 Point Cloud Intelligence 。

王龍光，中山大學(xué)博士后，主要研究方向為底層視覺和三維視覺。以第一作者身份發(fā)表 CCF A 類論文共 11 篇，谷歌學(xué)術(shù)總引用數(shù)為 7100 余次。入選中國科協(xié)青年人才托舉工程，連續(xù)三年入選全球前 2% 頂尖科學(xué)家榜單；主持國家及省部級項目 9 項。

張曄，中山大學(xué)副研究員，主要研究方向為空間智能與三維視覺。發(fā)表學(xué)術(shù)論文 30 余篇，主持國家級和省部級項目3項，曾擔(dān)任首屆中國空間智能大會本地主席。

郭裕蘭，中山大學(xué)教授，主要研究空間智能與三維視覺。主持國家自然科學(xué)基金聯(lián)合重點項目等 10 余項，發(fā)表學(xué)術(shù)論文 200 余篇，谷歌學(xué)術(shù)引用 2 萬余次，入選Clarivate全球高被引科學(xué)家。擔(dān)任中國圖象圖形學(xué)學(xué)會三維視覺專委會副主任，IEEE TIP 高級領(lǐng)域編輯（SAE）。曾擔(dān)任首屆中國空間智能大會主席，歷屆中國三維視覺大會組委會主席。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。