東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

本文作者：鄭佳美

2026-04-22 14:44

導(dǎo)語：ESM：阻斷子空間干擾，實(shí)現(xiàn)多任務(wù)能力穩(wěn)定共存。

你可能遇到過這樣一種情況，一個(gè)模型原本只做一件事的時(shí)候表現(xiàn)很好，但一旦不斷往里面加新任務(wù)，它反而開始變差了。不是徹底失效，而是變得不穩(wěn)定，有些能力開始下降，有些結(jié)果開始波動(dòng)。問題不在于模型不會(huì)，而在于它原本會(huì)的東西，被后來加入的任務(wù)“擠掉了一部分”。

這背后其實(shí)有一個(gè)很少被說清楚的問題。模型的能力并不是一塊一塊獨(dú)立放進(jìn)去的，而是共享同一套內(nèi)部表示空間。簡單理解，就是所有任務(wù)都在“用同一塊地方存信息”。

當(dāng)任務(wù)變多時(shí)，它們不是并排存在，而是在爭這塊空間里最重要的那些位置。誰占得多，誰就更穩(wěn)定；誰被擠掉，誰的性能就下降。這就是為什么，多任務(wù)融合經(jīng)常不是越多越強(qiáng)，而是越多越亂。

現(xiàn)實(shí)中，這種問題其實(shí)非常普遍。比如一個(gè)持續(xù)迭代的系統(tǒng)，不斷往里加新能力，每一次看起來只是“多做了一件事”，但實(shí)際上是在重新分配內(nèi)部的表示空間。如果沒有好的機(jī)制，新的能力往往會(huì)影響舊的能力，最后系統(tǒng)變成一個(gè)需要不斷修補(bǔ)的狀態(tài)，而不是自然擴(kuò)展。

在這樣的背景下，來自東南大學(xué)的耿新團(tuán)隊(duì)提出了論文《Model Merging in the Essential Subspace》。他們沒有再去做更復(fù)雜的參數(shù)融合，而是換了一個(gè)更關(guān)鍵的問題來思考，也就是模型里的“重要信息到底在哪里”。

近年來，耿新團(tuán)隊(duì)提出的“學(xué)習(xí)基因”思想（即在多任務(wù)之間共享核心的關(guān)鍵模型參數(shù)）為這一問題提供新的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn)，模型的有效能力其實(shí)并不是均勻分布在所有參數(shù)里，而是集中在少數(shù)幾個(gè)關(guān)鍵方向上，這些方向才是真正決定任務(wù)表現(xiàn)的部分。

一旦這樣理解，問題就變清楚了。多任務(wù)融合失敗，不是因?yàn)閰?shù)沒合好，而是因?yàn)檫@些關(guān)鍵方向發(fā)生了重疊和沖突。于是，這項(xiàng)研究做的事情就變成兩步，一步是把不同任務(wù)的重要方向盡量分開，避免它們互相擠占；另一步是讓更重要的信息被保留下來，而不重要的部分被壓下去。這樣一來，不同任務(wù)就有可能在同一個(gè)模型里穩(wěn)定共存。

從這個(gè)角度看，這篇工作真正改變的，不只是方法本身，而是看問題的方式。它把模型融合從簡單的參數(shù)操作，變成了一個(gè)關(guān)于信息如何分配、如何共存的問題，也讓多任務(wù)系統(tǒng)不再只是不斷疊加能力，而開始有可能真正“長”出更多能力，而不互相干擾。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

論文鏈接：https://arxiv.org/pdf/2602.20208

模型融合失敗，根源子空間沖突

從實(shí)驗(yàn)結(jié)果來看，研究團(tuán)隊(duì)真正想說明的，不是方法在某一個(gè)設(shè)置下偶然更高，而是隨著多任務(wù)融合難度上升，ESM (Essential Subspace Merging）仍然能夠保持更穩(wěn)定的性能。

傳統(tǒng)方法在任務(wù)不斷增加時(shí)，往往會(huì)出現(xiàn)明顯的性能滑坡，任務(wù)越多，任務(wù)之間的互相干擾則越強(qiáng)，最終導(dǎo)致融合效果快速下降。相比之下，ESM的表現(xiàn)更穩(wěn)定，當(dāng)其他基線的性能損耗通常達(dá)到 8% 到 9% 時(shí)，ESM 的損耗幅度明顯更小，整體損耗率相比基線低了約 20%。這說明 ESM 更能抵抗多任務(wù)增加后帶來的相互干擾，能夠保住更多原本屬于各個(gè)任務(wù)的有效知識。

如果把模型規(guī)模一起看，研究結(jié)果還能說明另一點(diǎn)。在更大的模型上，各種方法本來就已經(jīng)能做到 90 以上，ESM 相比現(xiàn)有強(qiáng)方法的提升會(huì)縮小到大約 0.3 到 0.5。

這并不表示 ESM 作用變?nèi)?，反而說明大模型本身就有更強(qiáng)的表示容量和更自然的子空間分離能力，因此 ESM 的價(jià)值，本質(zhì)上就是人為構(gòu)造一種更清晰的子空間解耦機(jī)制，而這種機(jī)制在模型容量有限時(shí)更重要。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

研究還給出了一個(gè)很關(guān)鍵的上下界參照。未微調(diào)模型的性能大約在 50% 到 65% 之間，單任務(wù)微調(diào)后的專家模型大約在 90% 以上，而 ESM 能達(dá)到 81% 到 91%。

這說明 ESM 已經(jīng)不只是比基線略好一點(diǎn)，而是在明顯逼近多任務(wù)融合的理想上界。換句話說，ESM 已經(jīng)相當(dāng)接近“多個(gè)任務(wù)合并后仍盡量保持單任務(wù)效”的目標(biāo)。

為了說明為什么會(huì)更好，研究人員又做了拆解實(shí)驗(yàn)。只把分解方式從 SVD 換成 ESD，性能就會(huì)從 89.0 提升到 90.9，增幅達(dá)到 1.9，這說明問題的關(guān)鍵首先在于子空間選擇。

之后再加入 Polarized Scaling，性能又從 90.9 提升到 91.8，再提高 0.9，這表明 ESD 主要解決信息丟失問題，而 Polarized Scaling 主要解決信息競爭問題。也就是說，整個(gè)方法之所以有效，是因?yàn)樗瑫r(shí)處理了“保留什么信息”和“怎樣讓這些信息共存”這兩個(gè)核心問題。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

進(jìn)一步看內(nèi)部機(jī)制，研究發(fā)現(xiàn) ESD 在只保留較少成分時(shí)，仍然能留下更多有效信息，而傳統(tǒng)的 SVD 需要保留更多維度才能達(dá)到相近效果。這說明 ESD 找到的是更集中、更高效的信息表示，真正關(guān)鍵的任務(wù)知識并不是均勻分布在所有方向上，而是集中在少數(shù)功能性更強(qiáng)的方向里。

研究還發(fā)現(xiàn)，即使只保留 5% 的成分，ESD 得到的融合模型與原專家模型之間仍然有更高的特征一致性，這說明 ESD 保留下來的不是表面的參數(shù)結(jié)構(gòu)，而是更接近任務(wù)語義和模型行為本身的東西。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

在數(shù)據(jù)依賴性上，研究團(tuán)隊(duì)也給出了很強(qiáng)的證據(jù)。無論使用正常采樣的數(shù)據(jù)、只包含單一類別的偏置數(shù)據(jù)，還是完全無關(guān)的外部分布數(shù)據(jù)，結(jié)果幾乎都沒有明顯差異。

同時(shí)，只用 1 個(gè)樣本時(shí)效果就已經(jīng)超過 baseline，只用 4 個(gè)樣本時(shí)就已經(jīng)接近最優(yōu)，增加到 32 個(gè)樣本后基本收斂。這說明任務(wù)子空間本身是一種低維結(jié)構(gòu)，不需要大量數(shù)據(jù)去估計(jì)，模型內(nèi)部其實(shí)已經(jīng)編碼了穩(wěn)定的任務(wù)響應(yīng)模式。

最后，關(guān)于 Polarized Scaling，研究表明單獨(dú)放大強(qiáng)信號會(huì)提升性能，單獨(dú)抑制弱噪聲也會(huì)提升性能，而兩者結(jié)合時(shí)效果最好。這說明多任務(wù)融合本質(zhì)上不是簡單做參數(shù)平均，而更像一個(gè)信號篩選與重加權(quán)過程。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

在模型內(nèi)部重建知識邊界

實(shí)驗(yàn)中，研究團(tuán)隊(duì)其實(shí)是在系統(tǒng)控制三個(gè)核心變量，目的是檢驗(yàn)?zāi)囊环N組合最接近“無損融合”。

第一個(gè)變量是子空間構(gòu)造方式，也就是比較 SVD 和 ESD，前者建立在參數(shù)空間上，后者建立在輸出空間上，這也是整項(xiàng)研究最核心的對比。

第二個(gè)變量是融合方式，也就是比較直接拼接和正交化處理，前者更直接，后者則試圖消除不同任務(wù)表示之間的相關(guān)性。第三個(gè)變量是權(quán)重分配，也就是比較不加權(quán)融合和基于 norm 的 scaling，核心問題在于，不同任務(wù)信息在合并時(shí)是否應(yīng)該被同等對待。

研究團(tuán)隊(duì)在數(shù)據(jù)設(shè)計(jì)上也有很強(qiáng)的針對性，所選任務(wù)覆蓋圖像、文本和數(shù)字等差異很大的類型，例如 Cars、SUN397、SST2 和 MNIST，目的不是追求任務(wù)豐富本身，而是盡量放大任務(wù)之間的差異與沖突，因?yàn)橹挥性谶@種高異質(zhì)性條件下方法仍然有效，才能說明研究人員真正解決的是干擾問題，而不是只在相近任務(wù)上取得局部改進(jìn)。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

與此同時(shí)，研究人員在構(gòu)造 proxy 數(shù)據(jù)時(shí)刻意把數(shù)據(jù)規(guī)模壓到很小，每個(gè)任務(wù)只使用 32 個(gè)無標(biāo)簽樣本，這種設(shè)計(jì)不是為了節(jié)省計(jì)算而已，更重要的是驗(yàn)證子空間究竟來自模型內(nèi)在結(jié)構(gòu)，還是只是來自數(shù)據(jù)統(tǒng)計(jì)結(jié)果，后續(xù)實(shí)驗(yàn)結(jié)果表明，研究人員提取到的確實(shí)更接近模型內(nèi)部已經(jīng)形成的任務(wù)結(jié)構(gòu)。

為了保證不同任務(wù)在融合中擁有相對公平的表達(dá)容量，研究團(tuán)隊(duì)又設(shè)計(jì)了 rank 分配策略，讓每個(gè)任務(wù)分配到的維度滿足 k = 總維度 / 任務(wù)數(shù)，這一步本質(zhì)上是在做資源公平分配，因?yàn)槿绻麤]有這種約束，強(qiáng)任務(wù)更容易占據(jù)更多表示空間，弱任務(wù)則可能被淹沒。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

進(jìn)入融合階段之后，研究人員發(fā)現(xiàn)簡單拼接會(huì)帶來兩個(gè)直接問題，一是不同任務(wù)子空間可能發(fā)生重疊，二是重疊之后會(huì)引發(fā)信息沖突，因此又加入正交化步驟，其本質(zhì)作用就是強(qiáng)制不同任務(wù)子空間盡量獨(dú)立，這個(gè)過程在思想上很接近 PCA whitening 或信號去相關(guān)。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

最后，在權(quán)重調(diào)整上，研究團(tuán)隊(duì)進(jìn)一步從實(shí)驗(yàn)中發(fā)現(xiàn)，高 norm 往往對應(yīng)更重要的參數(shù)變化，而低 norm 更接近噪聲，因此設(shè)計(jì)出 scaling ∝ (norm / 平均值)^2 這樣的規(guī)則，并且把這種縮放分成三個(gè)層面來實(shí)施，也就是任務(wù)層上防止某些任務(wù)被淹沒，維度層上突出更關(guān)鍵的特征方向，層級上減少殘差結(jié)構(gòu)帶來的干擾。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

有限空間里的多任務(wù)共存機(jī)制

整體來看，這項(xiàng)研究的價(jià)值不只是提出了一種更強(qiáng)的模型融合方法，而是把模型融合從參數(shù)拼接，推進(jìn)到了知識結(jié)構(gòu)重組這一層。過去很多方法默認(rèn)，多個(gè)模型能不能融合，關(guān)鍵在參數(shù)能不能平均好，但這項(xiàng)研究說明，真正需要被保留的其實(shí)是模型處理輸入時(shí)依賴的關(guān)鍵功能方向。

也就是說，研究人員重新定義了模型融合問題，關(guān)注點(diǎn)不再只是參數(shù)本身，而是模型能力在表示空間里如何存在、如何共存。雷峰網(wǎng)

這項(xiàng)研究還把多任務(wù)干擾解釋得更清楚了。過去大家知道任務(wù)一多就容易互相拖累，但往往只能停留在沖突這個(gè)現(xiàn)象層面。研究團(tuán)隊(duì)進(jìn)一步指出，干擾主要來自兩個(gè)原因，一是不同任務(wù)會(huì)擠占相近的表示方向，二是強(qiáng)信息和弱信息在融合時(shí)會(huì)相互競爭，結(jié)果就是重要知識容易被噪聲淹沒。

ESD 的意義在于把不同任務(wù)的核心方向盡量分開，PS 的意義在于把更重要的信號放大、把不重要的部分壓下去，所以這項(xiàng)研究真正完成的，是把干擾的來源和解決路徑連成了一個(gè)完整解釋。

更深一層看，研究結(jié)果還揭示了深度模型內(nèi)部一個(gè)很重要的性質(zhì)，也就是任務(wù)知識雖然存在于高維參數(shù)里，但真正決定性能的變化往往集中在少數(shù)方向上，而且這種結(jié)構(gòu)對具體數(shù)據(jù)并不敏感。

這說明大模型內(nèi)部并不是雜亂無章的，而是存在一種可以被提煉、被壓縮、被重新組合的低維結(jié)構(gòu)。這個(gè)發(fā)現(xiàn)的意義很大，因?yàn)樗馕吨磥砀倪M(jìn)模型，不一定總要靠更大數(shù)據(jù)和更長訓(xùn)練，也可以通過理解模型內(nèi)部已有的知識組織方式來提升能力。

這項(xiàng)研究對普通人的影響也很現(xiàn)實(shí)。它意味著未來的 AI 系統(tǒng)更有可能在不反復(fù)重訓(xùn)的情況下，把多種能力整合到同一個(gè)模型里，而且整合之后更穩(wěn)定，不容易因?yàn)樵黾右粋€(gè)新功能就損傷原來的能力。

對普通用戶來說，這會(huì)讓 AI 工具更像一個(gè)能力完整的通用助手，而不是很多彼此割裂的小工具。對企業(yè)和平臺(tái)來說，這也可能降低部署成本和算力消耗，最后體現(xiàn)在更便宜的服務(wù)、更快的響應(yīng)，以及更多設(shè)備本地就能運(yùn)行的智能功能。

所以，這項(xiàng)研究真正重要的地方，不只是把結(jié)果做高了一些，而是證明了模型融合可以從經(jīng)驗(yàn)式參數(shù)處理，走向?qū)χR結(jié)構(gòu)的理解與重組，這既推動(dòng)了學(xué)術(shù)上對模型內(nèi)部機(jī)制的認(rèn)識，也會(huì)影響普通人未來使用 AI 的方式。

ESM 背后的研究者

這篇論文通訊作者為耿新，他是東南大學(xué)首席教授、東南大學(xué)研究生院常務(wù)副院長，以及新一代人工智能技術(shù)與交叉應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室主任。

他分別于 2001 年和 2004 年在南京大學(xué)獲得學(xué)士、碩士學(xué)位，2008 年在澳大利亞 Deakin 大學(xué)獲得博士學(xué)位，之后長期在東南大學(xué)從事教學(xué)與科研工作，并創(chuàng)建了模式學(xué)習(xí)與挖掘（PALM）實(shí)驗(yàn)室。

在學(xué)術(shù)成果方面，他長期深耕機(jī)器學(xué)習(xí)、大模型、模式識別、計(jì)算機(jī)視覺等方向，在重要國際期刊和會(huì)議發(fā)表論文 230 余篇，獲得國家杰出青年科學(xué)基金、國家優(yōu)秀青年科學(xué)基金、國家自然科學(xué)二等獎(jiǎng)、教育部自然科學(xué)一等獎(jiǎng)、國家級教學(xué)成果一等獎(jiǎng)和二等獎(jiǎng)、科學(xué)探索獎(jiǎng)、吳文俊人工智能自然科學(xué)一等獎(jiǎng)等榮譽(yù)，同時(shí)擔(dān)任多個(gè)國際會(huì)議程序委員會(huì)主席、領(lǐng)域主席及多個(gè)期刊編委。

在研究工作上，他圍繞模型中的知識表示與重組展開，早期代表性工作集中在標(biāo)記分布學(xué)習(xí)，也就是把傳統(tǒng)單標(biāo)記或多標(biāo)記學(xué)習(xí)問題推進(jìn)到具有更細(xì)粒度表示的標(biāo)記分布學(xué)習(xí)，之后又把研究重心逐步擴(kuò)展到端側(cè)大模型和學(xué)習(xí)基因（ Learngene）等方向，探索從基礎(chǔ)模型中提取可繼承、可復(fù)用的核心能力，實(shí)現(xiàn)面向不同任務(wù)和不同硬件條件的高效部署。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026

參考鏈接：https://palm.seu.edu.cn/xgeng/

另一位通訊作者為祁磊，東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副研究員、碩士生導(dǎo)師。早期在南京師范大學(xué)獲得學(xué)士學(xué)位，在南京理工大學(xué)獲得碩士學(xué)位，之后于 2020 年在南京大學(xué)獲得博士學(xué)位，并在讀博期間赴澳大利亞 University of Wollongong 進(jìn)行訪問交流。

在學(xué)術(shù)成果方面，祁磊在 ACM/IEEE 匯刊以及 CCF-A 類會(huì)議上發(fā)表 60 余篇論文， Google 學(xué)術(shù)引用 5300 余次，并主持多項(xiàng)國家級和省部級科研項(xiàng)目。同時(shí)，他還入選國家資助博士后研究人員計(jì)劃、江蘇省卓越博士后、東南大學(xué)紫金學(xué)者等人才計(jì)劃，并獲 CCF 產(chǎn)學(xué)合作基金優(yōu)秀項(xiàng)目案例、江蘇省人工智能學(xué)會(huì)優(yōu)秀博士論文等獎(jiǎng)項(xiàng)。

在研究方向上，祁磊的工作主要集中在計(jì)算機(jī)視覺與模式識別領(lǐng)域，近年來主要關(guān)注于異常檢測、語義分割，以及領(lǐng)域泛化和視覺語言模型等方向。

東南大學(xué)耿新團(tuán)隊(duì)：模型不是不會(huì)做，而是被「擠掉了能力」丨CVPR 2026