日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

導(dǎo)語:ESM:阻斷子空間干擾,實(shí)現(xiàn)多任務(wù)能力穩(wěn)定共存。

你可能遇到過這樣一種情況,一個(gè)模型原本只做一件事的時(shí)候表現(xiàn)很好,但一旦不斷往里面加新任務(wù),它反而開始變差了。不是徹底失效,而是變得不穩(wěn)定,有些能力開始下降,有些結(jié)果開始波動(dòng)。問題不在于模型不會(huì),而在于它原本會(huì)的東西,被后來加入的任務(wù)“擠掉了一部分”。

這背后其實(shí)有一個(gè)很少被說清楚的問題。模型的能力并不是一塊一塊獨(dú)立放進(jìn)去的,而是共享同一套內(nèi)部表示空間。簡單理解,就是所有任務(wù)都在“用同一塊地方存信息”。

當(dāng)任務(wù)變多時(shí),它們不是并排存在,而是在爭這塊空間里最重要的那些位置。誰占得多,誰就更穩(wěn)定;誰被擠掉,誰的性能就下降。這就是為什么,多任務(wù)融合經(jīng)常不是越多越強(qiáng),而是越多越亂。

現(xiàn)實(shí)中,這種問題其實(shí)非常普遍。比如一個(gè)持續(xù)迭代的系統(tǒng),不斷往里加新能力,每一次看起來只是“多做了一件事”,但實(shí)際上是在重新分配內(nèi)部的表示空間。如果沒有好的機(jī)制,新的能力往往會(huì)影響舊的能力,最后系統(tǒng)變成一個(gè)需要不斷修補(bǔ)的狀態(tài),而不是自然擴(kuò)展。

在這樣的背景下,來自東南大學(xué)的耿新團(tuán)隊(duì)提出了論文《Model Merging in the Essential Subspace》。他們沒有再去做更復(fù)雜的參數(shù)融合,而是換了一個(gè)更關(guān)鍵的問題來思考,也就是模型里的“重要信息到底在哪里”。

近年來,耿新團(tuán)隊(duì)提出的“學(xué)習(xí)基因”思想(即在多任務(wù)之間共享核心的關(guān)鍵模型參數(shù))為這一問題提供新的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn),模型的有效能力其實(shí)并不是均勻分布在所有參數(shù)里,而是集中在少數(shù)幾個(gè)關(guān)鍵方向上,這些方向才是真正決定任務(wù)表現(xiàn)的部分。

一旦這樣理解,問題就變清楚了。多任務(wù)融合失敗,不是因?yàn)閰?shù)沒合好,而是因?yàn)檫@些關(guān)鍵方向發(fā)生了重疊和沖突。于是,這項(xiàng)研究做的事情就變成兩步,一步是把不同任務(wù)的重要方向盡量分開,避免它們互相擠占;另一步是讓更重要的信息被保留下來,而不重要的部分被壓下去。這樣一來,不同任務(wù)就有可能在同一個(gè)模型里穩(wěn)定共存。

從這個(gè)角度看,這篇工作真正改變的,不只是方法本身,而是看問題的方式。它把模型融合從簡單的參數(shù)操作,變成了一個(gè)關(guān)于信息如何分配、如何共存的問題,也讓多任務(wù)系統(tǒng)不再只是不斷疊加能力,而開始有可能真正“長”出更多能力,而不互相干擾。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

論文鏈接:https://arxiv.org/pdf/2602.20208

模型融合失敗,根源子空間沖突

從實(shí)驗(yàn)結(jié)果來看,研究團(tuán)隊(duì)真正想說明的,不是方法在某一個(gè)設(shè)置下偶然更高,而是隨著多任務(wù)融合難度上升,ESM (Essential Subspace Merging)仍然能夠保持更穩(wěn)定的性能。

傳統(tǒng)方法在任務(wù)不斷增加時(shí),往往會(huì)出現(xiàn)明顯的性能滑坡,任務(wù)越多,任務(wù)之間的互相干擾則越強(qiáng),最終導(dǎo)致融合效果快速下降。相比之下,ESM的表現(xiàn)更穩(wěn)定,當(dāng)其他基線的性能損耗通常達(dá)到 8% 到 9% 時(shí),ESM 的損耗幅度明顯更小,整體損耗率相比基線低了約 20%。這說明 ESM 更能抵抗多任務(wù)增加后帶來的相互干擾,能夠保住更多原本屬于各個(gè)任務(wù)的有效知識。

如果把模型規(guī)模一起看,研究結(jié)果還能說明另一點(diǎn)。在更大的模型上,各種方法本來就已經(jīng)能做到 90 以上,ESM 相比現(xiàn)有強(qiáng)方法的提升會(huì)縮小到大約 0.3 到 0.5。

這并不表示 ESM 作用變?nèi)?,反而說明大模型本身就有更強(qiáng)的表示容量和更自然的子空間分離能力,因此 ESM 的價(jià)值,本質(zhì)上就是人為構(gòu)造一種更清晰的子空間解耦機(jī)制,而這種機(jī)制在模型容量有限時(shí)更重要。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

研究還給出了一個(gè)很關(guān)鍵的上下界參照。未微調(diào)模型的性能大約在 50% 到 65% 之間,單任務(wù)微調(diào)后的專家模型大約在 90% 以上,而 ESM 能達(dá)到 81% 到 91%。

這說明 ESM 已經(jīng)不只是比基線略好一點(diǎn),而是在明顯逼近多任務(wù)融合的理想上界。換句話說,ESM 已經(jīng)相當(dāng)接近“多個(gè)任務(wù)合并后仍盡量保持單任務(wù)效”的目標(biāo)。

為了說明為什么會(huì)更好,研究人員又做了拆解實(shí)驗(yàn)。只把分解方式從 SVD 換成 ESD,性能就會(huì)從 89.0 提升到 90.9,增幅達(dá)到 1.9,這說明問題的關(guān)鍵首先在于子空間選擇。

之后再加入 Polarized Scaling,性能又從 90.9 提升到 91.8,再提高 0.9,這表明 ESD 主要解決信息丟失問題,而 Polarized Scaling 主要解決信息競爭問題。也就是說,整個(gè)方法之所以有效,是因?yàn)樗瑫r(shí)處理了“保留什么信息”和“怎樣讓這些信息共存”這兩個(gè)核心問題。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

進(jìn)一步看內(nèi)部機(jī)制,研究發(fā)現(xiàn) ESD 在只保留較少成分時(shí),仍然能留下更多有效信息,而傳統(tǒng)的 SVD 需要保留更多維度才能達(dá)到相近效果。這說明 ESD 找到的是更集中、更高效的信息表示,真正關(guān)鍵的任務(wù)知識并不是均勻分布在所有方向上,而是集中在少數(shù)功能性更強(qiáng)的方向里。

研究還發(fā)現(xiàn),即使只保留 5% 的成分,ESD 得到的融合模型與原專家模型之間仍然有更高的特征一致性,這說明 ESD 保留下來的不是表面的參數(shù)結(jié)構(gòu),而是更接近任務(wù)語義和模型行為本身的東西。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

在數(shù)據(jù)依賴性上,研究團(tuán)隊(duì)也給出了很強(qiáng)的證據(jù)。無論使用正常采樣的數(shù)據(jù)、只包含單一類別的偏置數(shù)據(jù),還是完全無關(guān)的外部分布數(shù)據(jù),結(jié)果幾乎都沒有明顯差異。

同時(shí),只用 1 個(gè)樣本時(shí)效果就已經(jīng)超過 baseline,只用 4 個(gè)樣本時(shí)就已經(jīng)接近最優(yōu),增加到 32 個(gè)樣本后基本收斂。這說明任務(wù)子空間本身是一種低維結(jié)構(gòu),不需要大量數(shù)據(jù)去估計(jì),模型內(nèi)部其實(shí)已經(jīng)編碼了穩(wěn)定的任務(wù)響應(yīng)模式。

最后,關(guān)于 Polarized Scaling,研究表明單獨(dú)放大強(qiáng)信號會(huì)提升性能,單獨(dú)抑制弱噪聲也會(huì)提升性能,而兩者結(jié)合時(shí)效果最好。這說明多任務(wù)融合本質(zhì)上不是簡單做參數(shù)平均,而更像一個(gè)信號篩選與重加權(quán)過程。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

在模型內(nèi)部重建知識邊界

實(shí)驗(yàn)中,研究團(tuán)隊(duì)其實(shí)是在系統(tǒng)控制三個(gè)核心變量,目的是檢驗(yàn)?zāi)囊环N組合最接近“無損融合”。

第一個(gè)變量是子空間構(gòu)造方式,也就是比較 SVD 和 ESD,前者建立在參數(shù)空間上,后者建立在輸出空間上,這也是整項(xiàng)研究最核心的對比。

第二個(gè)變量是融合方式,也就是比較直接拼接和正交化處理,前者更直接,后者則試圖消除不同任務(wù)表示之間的相關(guān)性。第三個(gè)變量是權(quán)重分配,也就是比較不加權(quán)融合和基于 norm 的 scaling,核心問題在于,不同任務(wù)信息在合并時(shí)是否應(yīng)該被同等對待。

研究團(tuán)隊(duì)在數(shù)據(jù)設(shè)計(jì)上也有很強(qiáng)的針對性,所選任務(wù)覆蓋圖像、文本和數(shù)字等差異很大的類型,例如 Cars、SUN397、SST2 和 MNIST,目的不是追求任務(wù)豐富本身,而是盡量放大任務(wù)之間的差異與沖突,因?yàn)橹挥性谶@種高異質(zhì)性條件下方法仍然有效,才能說明研究人員真正解決的是干擾問題,而不是只在相近任務(wù)上取得局部改進(jìn)。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

與此同時(shí),研究人員在構(gòu)造 proxy 數(shù)據(jù)時(shí)刻意把數(shù)據(jù)規(guī)模壓到很小,每個(gè)任務(wù)只使用 32 個(gè)無標(biāo)簽樣本,這種設(shè)計(jì)不是為了節(jié)省計(jì)算而已,更重要的是驗(yàn)證子空間究竟來自模型內(nèi)在結(jié)構(gòu),還是只是來自數(shù)據(jù)統(tǒng)計(jì)結(jié)果,后續(xù)實(shí)驗(yàn)結(jié)果表明,研究人員提取到的確實(shí)更接近模型內(nèi)部已經(jīng)形成的任務(wù)結(jié)構(gòu)。

為了保證不同任務(wù)在融合中擁有相對公平的表達(dá)容量,研究團(tuán)隊(duì)又設(shè)計(jì)了 rank 分配策略,讓每個(gè)任務(wù)分配到的維度滿足 k = 總維度 / 任務(wù)數(shù),這一步本質(zhì)上是在做資源公平分配,因?yàn)槿绻麤]有這種約束,強(qiáng)任務(wù)更容易占據(jù)更多表示空間,弱任務(wù)則可能被淹沒。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

進(jìn)入融合階段之后,研究人員發(fā)現(xiàn)簡單拼接會(huì)帶來兩個(gè)直接問題,一是不同任務(wù)子空間可能發(fā)生重疊,二是重疊之后會(huì)引發(fā)信息沖突,因此又加入正交化步驟,其本質(zhì)作用就是強(qiáng)制不同任務(wù)子空間盡量獨(dú)立,這個(gè)過程在思想上很接近 PCA whitening 或信號去相關(guān)。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

最后,在權(quán)重調(diào)整上,研究團(tuán)隊(duì)進(jìn)一步從實(shí)驗(yàn)中發(fā)現(xiàn),高 norm 往往對應(yīng)更重要的參數(shù)變化,而低 norm 更接近噪聲,因此設(shè)計(jì)出 scaling ∝ (norm / 平均值)^2 這樣的規(guī)則,并且把這種縮放分成三個(gè)層面來實(shí)施,也就是任務(wù)層上防止某些任務(wù)被淹沒,維度層上突出更關(guān)鍵的特征方向,層級上減少殘差結(jié)構(gòu)帶來的干擾。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

有限空間里的多任務(wù)共存機(jī)制

整體來看,這項(xiàng)研究的價(jià)值不只是提出了一種更強(qiáng)的模型融合方法,而是把模型融合從參數(shù)拼接,推進(jìn)到了知識結(jié)構(gòu)重組這一層。過去很多方法默認(rèn),多個(gè)模型能不能融合,關(guān)鍵在參數(shù)能不能平均好,但這項(xiàng)研究說明,真正需要被保留的其實(shí)是模型處理輸入時(shí)依賴的關(guān)鍵功能方向。

也就是說,研究人員重新定義了模型融合問題,關(guān)注點(diǎn)不再只是參數(shù)本身,而是模型能力在表示空間里如何存在、如何共存。雷峰網(wǎng)

這項(xiàng)研究還把多任務(wù)干擾解釋得更清楚了。過去大家知道任務(wù)一多就容易互相拖累,但往往只能停留在沖突這個(gè)現(xiàn)象層面。研究團(tuán)隊(duì)進(jìn)一步指出,干擾主要來自兩個(gè)原因,一是不同任務(wù)會(huì)擠占相近的表示方向,二是強(qiáng)信息和弱信息在融合時(shí)會(huì)相互競爭,結(jié)果就是重要知識容易被噪聲淹沒。

ESD 的意義在于把不同任務(wù)的核心方向盡量分開,PS 的意義在于把更重要的信號放大、把不重要的部分壓下去,所以這項(xiàng)研究真正完成的,是把干擾的來源和解決路徑連成了一個(gè)完整解釋。

更深一層看,研究結(jié)果還揭示了深度模型內(nèi)部一個(gè)很重要的性質(zhì),也就是任務(wù)知識雖然存在于高維參數(shù)里,但真正決定性能的變化往往集中在少數(shù)方向上,而且這種結(jié)構(gòu)對具體數(shù)據(jù)并不敏感。

這說明大模型內(nèi)部并不是雜亂無章的,而是存在一種可以被提煉、被壓縮、被重新組合的低維結(jié)構(gòu)。這個(gè)發(fā)現(xiàn)的意義很大,因?yàn)樗馕吨磥砀倪M(jìn)模型,不一定總要靠更大數(shù)據(jù)和更長訓(xùn)練,也可以通過理解模型內(nèi)部已有的知識組織方式來提升能力。

這項(xiàng)研究對普通人的影響也很現(xiàn)實(shí)。它意味著未來的 AI 系統(tǒng)更有可能在不反復(fù)重訓(xùn)的情況下,把多種能力整合到同一個(gè)模型里,而且整合之后更穩(wěn)定,不容易因?yàn)樵黾右粋€(gè)新功能就損傷原來的能力。

對普通用戶來說,這會(huì)讓 AI 工具更像一個(gè)能力完整的通用助手,而不是很多彼此割裂的小工具。對企業(yè)和平臺(tái)來說,這也可能降低部署成本和算力消耗,最后體現(xiàn)在更便宜的服務(wù)、更快的響應(yīng),以及更多設(shè)備本地就能運(yùn)行的智能功能。

所以,這項(xiàng)研究真正重要的地方,不只是把結(jié)果做高了一些,而是證明了模型融合可以從經(jīng)驗(yàn)式參數(shù)處理,走向?qū)χR結(jié)構(gòu)的理解與重組,這既推動(dòng)了學(xué)術(shù)上對模型內(nèi)部機(jī)制的認(rèn)識,也會(huì)影響普通人未來使用 AI 的方式。

ESM 背后的研究者

這篇論文通訊作者為耿新,他是東南大學(xué)首席教授、東南大學(xué)研究生院常務(wù)副院長,以及新一代人工智能技術(shù)與交叉應(yīng)用教育部重點(diǎn)實(shí)驗(yàn)室主任。

他分別于 2001 年和 2004 年在南京大學(xué)獲得學(xué)士、碩士學(xué)位,2008 年在澳大利亞 Deakin 大學(xué)獲得博士學(xué)位,之后長期在東南大學(xué)從事教學(xué)與科研工作,并創(chuàng)建了模式學(xué)習(xí)與挖掘(PALM)實(shí)驗(yàn)室。

在學(xué)術(shù)成果方面,他長期深耕機(jī)器學(xué)習(xí)、大模型、模式識別、計(jì)算機(jī)視覺等方向,在重要國際期刊和會(huì)議發(fā)表論文 230 余篇,獲得國家杰出青年科學(xué)基金、國家優(yōu)秀青年科學(xué)基金、國家自然科學(xué)二等獎(jiǎng)、教育部自然科學(xué)一等獎(jiǎng)、國家級教學(xué)成果一等獎(jiǎng)和二等獎(jiǎng)、科學(xué)探索獎(jiǎng)、吳文俊人工智能自然科學(xué)一等獎(jiǎng)等榮譽(yù),同時(shí)擔(dān)任多個(gè)國際會(huì)議程序委員會(huì)主席、領(lǐng)域主席及多個(gè)期刊編委。

在研究工作上,他圍繞模型中的知識表示與重組展開,早期代表性工作集中在標(biāo)記分布學(xué)習(xí),也就是把傳統(tǒng)單標(biāo)記或多標(biāo)記學(xué)習(xí)問題推進(jìn)到具有更細(xì)粒度表示的標(biāo)記分布學(xué)習(xí),之后又把研究重心逐步擴(kuò)展到端側(cè)大模型和學(xué)習(xí)基因( Learngene)等方向,探索從基礎(chǔ)模型中提取可繼承、可復(fù)用的核心能力,實(shí)現(xiàn)面向不同任務(wù)和不同硬件條件的高效部署。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

參考鏈接:https://palm.seu.edu.cn/xgeng/

另一位通訊作者為祁磊,東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副研究員、碩士生導(dǎo)師。早期在南京師范大學(xué)獲得學(xué)士學(xué)位,在南京理工大學(xué)獲得碩士學(xué)位,之后于 2020 年在南京大學(xué)獲得博士學(xué)位,并在讀博期間赴澳大利亞 University of Wollongong 進(jìn)行訪問交流。

在學(xué)術(shù)成果方面,祁磊在 ACM/IEEE 匯刊以及 CCF-A 類會(huì)議上發(fā)表 60 余篇論文, Google 學(xué)術(shù)引用 5300 余次,并主持多項(xiàng)國家級和省部級科研項(xiàng)目 。同時(shí),他還入選國家資助博士后研究人員計(jì)劃、江蘇省卓越博士后、東南大學(xué)紫金學(xué)者等人才計(jì)劃,并獲 CCF 產(chǎn)學(xué)合作基金優(yōu)秀項(xiàng)目案例、江蘇省人工智能學(xué)會(huì)優(yōu)秀博士論文等獎(jiǎng)項(xiàng)。

在研究方向上,祁磊的工作主要集中在計(jì)算機(jī)視覺與模式識別領(lǐng)域,近年來主要關(guān)注于異常檢測、語義分割,以及領(lǐng)域泛化和視覺語言模型等方向 。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

參考鏈接:https://palm.seu.edu.cn/qilei/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

東南大學(xué)耿新團(tuán)隊(duì):模型不是不會(huì)做,而是被「擠掉了能力」丨CVPR 2026

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說