0
| 本文作者: 鄭佳美 | 2026-03-18 14:52 |
近年來,多模態(tài)大模型的發(fā)展正在不斷推動視覺理解能力的提升。從圖像分類、目標(biāo)檢測到視覺問答等任務(wù),視覺系統(tǒng)已經(jīng)能夠在多種場景中實現(xiàn)較高水平的識別和推理能力。然而,在更復(fù)雜的層級視覺識別任務(wù)中,現(xiàn)有模型仍然存在明顯不足。
現(xiàn)實世界中的許多視覺概念天然具有層級結(jié)構(gòu),例如生物分類體系中的“界—門—綱—目—科—屬—種”,以及商品分類、醫(yī)學(xué)診斷等領(lǐng)域中的多層級標(biāo)簽體系。這類任務(wù)不僅要求模型識別具體類別,還需要理解不同類別之間的層級關(guān)系和語義結(jié)構(gòu)。但目前多數(shù)視覺模型仍然基于扁平分類框架進(jìn)行訓(xùn)練,在進(jìn)行層級預(yù)測時容易出現(xiàn)分類路徑不一致或?qū)蛹夑P(guān)系沖突等問題。
與此同時,在開放世界環(huán)境中,視覺模型還需要具備識別未知類別的能力。以生物識別任務(wù)為例,現(xiàn)實世界中的物種數(shù)量遠(yuǎn)遠(yuǎn)超過現(xiàn)有數(shù)據(jù)集的覆蓋范圍,新的物種仍在不斷被發(fā)現(xiàn)。
當(dāng)模型面對訓(xùn)練數(shù)據(jù)中未出現(xiàn)的類別時,往往難以進(jìn)行合理推斷。如何利用已有知識幫助模型理解類別之間的層級結(jié)構(gòu),并在有限數(shù)據(jù)條件下推斷未知類別,逐漸成為當(dāng)前視覺智能研究中的重要問題。
在這一背景下,北大王選所的彭宇新團(tuán)隊在論文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一種新的方法 TARA。
他們通過引入生物基礎(chǔ)模型中的分類學(xué)知識,并將其與多模態(tài)模型的中間表征進(jìn)行對齊,使模型能夠?qū)W習(xí)到具有層級結(jié)構(gòu)的視覺表示,從而提升模型在層級視覺識別任務(wù)中的一致性表現(xiàn),并增強(qiáng)其在未知類別識別任務(wù)中的泛化能力。

論文地址:https://arxiv.org/pdf/2603.00431
實驗團(tuán)隊通過在多個數(shù)據(jù)集和多種評價指標(biāo)下開展實驗,對提出的 TARA(Taxonomy-Aware Representation Alignment)方法在層級視覺識別任務(wù)中的有效性進(jìn)行了驗證。
首先,在已知類別識別能力方面,研究在 iNaturalist-2021(iNat21)數(shù)據(jù)集上進(jìn)行了實驗。該數(shù)據(jù)集包含大量具有層級分類結(jié)構(gòu)的生物圖像,并劃分為植物和動物兩個子數(shù)據(jù)集。實驗結(jié)果表明,在引入 TARA 方法之后,模型在多個評價指標(biāo)上均獲得明顯提升。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
在 iNat21-Plant 數(shù)據(jù)集上,Qwen3-VL-2B 基礎(chǔ)模型在經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后,層級一致性準(zhǔn)確率(HCA)由 9.23% 提升到 12.78%,葉節(jié)點準(zhǔn)確率(Accleaf)由 31.96% 提升到 32.66%,同時 POR、S-POR 和 TOR 等層級評價指標(biāo)也分別提升約 3% 至 6%。
在 iNat21-Animal 數(shù)據(jù)集上,HCA 由 8.57%提升到 10.26%,Accleaf 由 29.32% 提升到 30.77%,其他層級指標(biāo)也均呈現(xiàn)提升趨勢。對于規(guī)模更大的 Qwen2.5-VL-3B 模型,在植物數(shù)據(jù)集上的 HCA 提升至 19.53%,在動物數(shù)據(jù)集上的 HCA 提升至 24.02%,各項指標(biāo)均持續(xù)提高。以上結(jié)果表明,TARA 方法能夠穩(wěn)定提升不同規(guī)模多模態(tài)模型在層級分類任務(wù)中的整體性能。

其次,在未知類別識別能力方面,研究團(tuán)隊為了驗證模型是否真正學(xué)習(xí)到分類學(xué)知識,而非僅僅記憶訓(xùn)練類別,在 TerraIncognita 數(shù)據(jù)集上進(jìn)行了測試。該數(shù)據(jù)集包含大量稀有或未知物種圖像,其中部分物種可能從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。
實驗結(jié)果顯示,在已知類別場景下,Order F1 從 23.30 提升到 41.56,F(xiàn)amily F1 從 11.47 提升到 25.47;在未知類別場景下,Order F1 從 23.30 提升到 33.45,F(xiàn)amily F1 從 11.47 提升到 12.67。這一結(jié)果表明,TARA 不僅提升了模型對已知類別的識別能力,同時也顯著增強(qiáng)了模型在面對未知物種時的泛化能力。

再次,在模型表征能力方面,研究人員通過線性探針實驗進(jìn)一步分析了 TARA 對視覺特征表達(dá)能力的影響。實驗過程為從模型最后一層提取圖像 token 表征,并利用線性分類器進(jìn)行訓(xùn)練,在 iNat21-Plant 數(shù)據(jù)集上測試分類準(zhǔn)確率。實驗結(jié)果表明,原始模型的分類準(zhǔn)確率為 13.30%,加入強(qiáng)化學(xué)習(xí)后提升到 14.40%,在進(jìn)一步引入 TARA 方法之后準(zhǔn)確率提升到 18.30%。這一結(jié)果說明 TARA 能夠幫助模型學(xué)習(xí)到更加具有判別力的視覺特征表示。
此外,在分類型視覺問答任務(wù)方面,研究團(tuán)隊在 ImageWikiQA 數(shù)據(jù)集上對模型性能進(jìn)行了測試。該數(shù)據(jù)集包含基于 ImageNet 圖像的復(fù)雜視覺問答任務(wù)。實驗結(jié)果顯示,基礎(chǔ)模型的準(zhǔn)確率為 46.60%,經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)后提升到 48.70%,在引入 TARA 方法之后進(jìn)一步提升到 51.40%。這一結(jié)果表明,通過增強(qiáng)層級視覺理解能力,可以進(jìn)一步提升模型在復(fù)雜視覺理解和推理任務(wù)中的整體表現(xiàn)。

最后,在訓(xùn)練效率方面,研究人員對模型訓(xùn)練過程中性能變化進(jìn)行了分析。實驗結(jié)果顯示,在訓(xùn)練早期階段,引入 TARA 的模型性能已經(jīng)超過基線模型;在相同訓(xùn)練步數(shù)條件下,TARA 模型的 HCA 指標(biāo)和葉節(jié)點準(zhǔn)確率均高于未使用該方法的模型,說明這種方法能夠加速模型的訓(xùn)練收斂過程。同時,由于 TARA 僅增加少量投影層,因此整體計算開銷較小,對訓(xùn)練效率影響有限。

為了驗證方法的有效性,研究團(tuán)隊設(shè)計了一套完整的實驗流程,其中包括模型訓(xùn)練方案、數(shù)據(jù)集構(gòu)建方式以及評價指標(biāo)體系的設(shè)計。首先在實驗數(shù)據(jù)集方面,研究人員選取了多個具有代表性的公開數(shù)據(jù)集進(jìn)行實驗。
其中 iNaturalist-2021(iNat21)是一個大規(guī)模生物圖像數(shù)據(jù)集,包含完整的生物分類體系。該數(shù)據(jù)集包含兩個子集,其中 Plant 子集包含 4271 個物種類別,Animal 子集包含 5388 個物種類別。數(shù)據(jù)集中每個樣本都具有六級分類結(jié)構(gòu),即 Kingdom、Phylum、Class、Order、Family 和 Species 六個層級,因此非常適合用于層級視覺識別研究。雷峰網(wǎng)
除了 iNat21 數(shù)據(jù)集之外,研究團(tuán)隊還使用了 TerraIncognita 數(shù)據(jù)集來測試模型在開放世界環(huán)境下的識別能力。該數(shù)據(jù)集包含來自中美洲和南美洲生物多樣性熱點地區(qū)的昆蟲圖像,其中許多物種缺乏公開圖像數(shù)據(jù),并且部分物種可能尚未被科學(xué)界正式記錄,因此能夠用于評估模型在未知類別識別任務(wù)中的表現(xiàn)。
與此同時,研究人員還使用 ImageWikiQA 數(shù)據(jù)集對模型在復(fù)雜視覺問答任務(wù)中的表現(xiàn)進(jìn)行測試。該數(shù)據(jù)集中的問題涉及真實世界知識,需要模型同時完成圖像理解和知識推理,從而能夠檢驗?zāi)P驮趶?fù)雜視覺理解場景中的能力。
在基礎(chǔ)模型選擇方面,研究人員采用 Qwen 系列多模態(tài)模型作為實驗基礎(chǔ)模型,包括 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 兩種模型。這些模型在零樣本視覺理解任務(wù)中表現(xiàn)良好,因此適合作為層級視覺識別研究的基礎(chǔ)模型。

在訓(xùn)練方法方面,研究團(tuán)隊將強(qiáng)化學(xué)習(xí)微調(diào)方法與 TARA 表征對齊方法結(jié)合起來進(jìn)行訓(xùn)練。首先采用 No-Thinking 強(qiáng)化學(xué)習(xí)微調(diào)策略。傳統(tǒng)強(qiáng)化學(xué)習(xí)通常要求模型在生成答案前進(jìn)行推理過程,但研究人員發(fā)現(xiàn),在分類任務(wù)中不進(jìn)行顯式推理反而能夠獲得更好的效果,因此訓(xùn)練過程中采用提示語 Please directly output the answer。獎勵函數(shù)的設(shè)計為,如果模型預(yù)測結(jié)果正確則獎勵值為 1,如果預(yù)測結(jié)果不正確則獎勵值為 0。
在此基礎(chǔ)上,研究團(tuán)隊引入 TARA 表征對齊方法,通過兩個對齊任務(wù)向模型注入分類學(xué)知識。第一部分為視覺表示對齊。具體步驟包括使用生物基礎(chǔ)模型(BFM)提取圖像特征,獲取多模態(tài)模型中間層的視覺特征,將兩者映射到同一特征空間,并利用余弦相似度進(jìn)行對齊。
通過這一過程,模型能夠?qū)W習(xí)符合生物分類結(jié)構(gòu)的視覺表示空間。第二部分為標(biāo)簽表示對齊。具體過程為將分類標(biāo)簽輸入 BFM 文本編碼器獲得標(biāo)簽嵌入,然后將多模態(tài)模型生成答案的 token 表征映射到同一空間,并進(jìn)行相似度對齊。通過這種方式,模型能夠?qū)W習(xí)不同層級標(biāo)簽之間的語義關(guān)系。

在訓(xùn)練過程中,研究團(tuán)隊采用交替訓(xùn)練策略,使模型在兩種目標(biāo)之間不斷優(yōu)化。一方面通過強(qiáng)化學(xué)習(xí)優(yōu)化分類任務(wù),另一方面通過 TARA 進(jìn)行知識對齊,從而使模型逐漸吸收生物分類學(xué)知識并提升層級識別能力。
在評價指標(biāo)方面,為了全面評估模型在層級視覺識別任務(wù)中的表現(xiàn),研究人員設(shè)計了多種評價指標(biāo)。其中 Hierarchical Consistent Accuracy(HCA)用于評估模型是否能夠正確預(yù)測完整的分類路徑,例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis,如果其中任意一層預(yù)測錯誤,則整條路徑都視為預(yù)測錯誤。Leaf-level Accuracy(Accleaf)用于衡量最細(xì)粒度類別,也就是葉節(jié)點類別的預(yù)測準(zhǔn)確率。
Point-Overlap Ratio(POR)用于統(tǒng)計預(yù)測路徑中正確節(jié)點所占的比例。Strict Point-Overlap Ratio(S-POR)在此基礎(chǔ)上要求預(yù)測節(jié)點必須是連續(xù)正確的節(jié)點才會計入得分。Top Overlap Ratio(TOR)則用于衡量相鄰層級之間預(yù)測結(jié)果的一致性,通過這些指標(biāo)可以全面評估模型在層級結(jié)構(gòu)識別任務(wù)中的整體性能。
整體來看,這項研究在理論和實際應(yīng)用方面都具有較為重要的意義。首先,在解決多模態(tài)模型層級識別能力不足的問題方面,現(xiàn)有多模態(tài)模型雖然在細(xì)粒度識別任務(wù)中已經(jīng)取得較好的效果,但在層級識別任務(wù)中仍然容易出現(xiàn)分類路徑錯誤以及層級關(guān)系不一致等情況。
針對這一問題,研究團(tuán)隊提出的 TARA 方法通過引入分類學(xué)知識,使模型在識別過程中能夠更好地保持不同層級之間的邏輯關(guān)系,從而顯著提升模型在層級分類任務(wù)中的一致性表現(xiàn)。
其次,在提升模型對未知類別的泛化能力方面,研究人員指出在真實環(huán)境中新的物種仍在不斷被發(fā)現(xiàn),傳統(tǒng)模型在缺乏訓(xùn)練樣本的情況下往往難以進(jìn)行準(zhǔn)確識別。TARA 利用生物基礎(chǔ)模型中蘊含的分類學(xué)知識,使模型能夠推斷未知類別之間的層級關(guān)系,并在缺乏訓(xùn)練樣本的情況下仍然完成識別任務(wù),這對于開放世界識別任務(wù)具有重要意義。
再次,在方法層面,研究提出了一種新的思路,即通過中間表征對齊的方式,將領(lǐng)域知識注入到多模態(tài)模型之中。研究團(tuán)隊認(rèn)為,這種方法不僅可以應(yīng)用于生物分類任務(wù),還能夠推廣到其他具有層級結(jié)構(gòu)的應(yīng)用場景,例如醫(yī)學(xué)影像分類、商品分類以及知識圖譜推理等領(lǐng)域,從而為多模態(tài)大模型與領(lǐng)域知識結(jié)合提供了一種具有普適性的技術(shù)路徑。
最后,在推動通用視覺理解系統(tǒng)發(fā)展方面,研究人員認(rèn)為未來的視覺系統(tǒng)不僅需要具備識別具體對象的能力,還需要能夠理解不同對象之間的結(jié)構(gòu)關(guān)系。通過在模型訓(xùn)練過程中引入層級知識,多模態(tài)大模型可以逐步具備對結(jié)構(gòu)化知識的理解能力,從而進(jìn)一步發(fā)展成為能夠理解復(fù)雜結(jié)構(gòu)關(guān)系的視覺智能系統(tǒng)。
這篇論文的一作何胡凌霄,現(xiàn)為北京大學(xué)王選計算機(jī)研究所多媒體信息處理實驗室博士生,師從彭宇新教授,主要研究方向為細(xì)粒度多模態(tài)大模型。
學(xué)術(shù)研究方面,他主要圍繞細(xì)粒度視覺識別、多模態(tài)大模型等方向開展研究工作,在計算機(jī)視覺和多模態(tài)學(xué)習(xí)領(lǐng)域發(fā)表多篇論文,其中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等國際學(xué)術(shù)會議接收,并參與相關(guān)領(lǐng)域的研究項目。
在學(xué)習(xí)期間,他還獲得國家獎學(xué)金、北京理工大學(xué)優(yōu)秀畢業(yè)生、北京理工大學(xué)優(yōu)秀學(xué)生標(biāo)兵等多項榮譽,并在全國大學(xué)生數(shù)學(xué)建模競賽北京賽區(qū)獲得一等獎,在華為云人工智能大賽無人車挑戰(zhàn)杯中獲得優(yōu)勝獎等。

參考鏈接:http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao
論文的通訊作者彭宇新,北京大學(xué)王選計算機(jī)研究所教授、博士生導(dǎo)師,北京大學(xué)二級教授、博雅特聘教授,同時為IEEE、CCF、CAAI、CIE、CSIG Fellow,曾入選國家杰出青年科學(xué)基金獲得者、國家萬人計劃以及科技部中青年科技創(chuàng)新領(lǐng)軍人才等人才計劃。
他于 2003 年畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院計算機(jī)應(yīng)用技術(shù)專業(yè)并獲得博士學(xué)位,此后在北京大學(xué)開展教學(xué)與科研工作。其主要研究方向包括多媒體分析、計算機(jī)視覺和人工智能等領(lǐng)域。
彭宇新在相關(guān)領(lǐng)域取得了豐碩的學(xué)術(shù)成果,發(fā)表 TPAMI、IJCV、CVPR、NeurIPS、ICML 等國際重要期刊和會議論文 170 余篇,多次獲得最佳論文獎,研究成果被國際同行評價為在無對象標(biāo)注圖像細(xì)分類等問題上取得重要進(jìn)展。他提出了“弱監(jiān)督深度圖像細(xì)粒分類”等創(chuàng)新方法,并建立了跨媒體評測基準(zhǔn)PKU XMediaNet,被全球多所高校和機(jī)構(gòu)廣泛使用。其團(tuán)隊在 NIST 組織的 TRECVID 視頻檢索國際評測中多次獲得第一名,并在多項國際視覺競賽中取得優(yōu)異成績。
此外,他主持承擔(dān)國家 863 計劃、國家自然科學(xué)基金重點項目等 40 余項科研項目,申請發(fā)明專利 50 余項并獲得多項授權(quán),相關(guān)成果已在國家網(wǎng)信辦、公安部、國家廣播電視總局以及多家互聯(lián)網(wǎng)企業(yè)中得到應(yīng)用。同時,他還積極參與學(xué)術(shù)組織和期刊工作,擔(dān)任多個國際期刊編委和重要學(xué)術(shù)會議的組織者,在人工智能與計算機(jī)視覺領(lǐng)域具有重要影響力。

參考鏈接:http://39.108.48.32/mipl/pengyuxin/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。