UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

本文作者：陳淑瑜

2026-04-30 16:14

導(dǎo)語：能否構(gòu)建一個通用的"大腦"，既能理解多模態(tài)融合信息，又能針對不同任務(wù)動態(tài)調(diào)用"專家知識"？

【封面圖片來源：網(wǎng)站名微信公眾號，所有者：極市平臺】

一、背景

工業(yè)質(zhì)檢和醫(yī)療影像分析中，傳統(tǒng)方法采用"一個任務(wù)一個模型"的碎片化模式，檢測不同模態(tài)（如RGB、紅外、3D深度）需要部署多個專用模型，導(dǎo)致運維成本高、泛化能力差?，F(xiàn)有方法存在域干擾問題——直接融合多域特征會引入噪聲，導(dǎo)致大量誤報。

能否構(gòu)建一個通用的"大腦"，既能理解多模態(tài)融合信息，又能針對不同任務(wù)動態(tài)調(diào)用"專家知識"？這一問題的解決對于工業(yè)質(zhì)檢和醫(yī)療影像的智能化升級具有重大意義。

來自大連理工大學(xué)、工源三仟、南洋理工大學(xué)的科研團隊共同提出了一種名為 UniMMAD 的統(tǒng)一框架。該模型被命名為 UniMMAD，意為“Unified Multi-Modal and Multi-Class Anomaly Detection”，即統(tǒng)一的多模態(tài)、多類別異常檢測，采用"通用-特定"范式，通過壓縮-解壓架構(gòu)實現(xiàn)統(tǒng)一的多模態(tài)、多類別異常檢測，大幅提升模型泛化能力和部署效率。它最令人驚艷的地方在于，僅用一套參數(shù)，就能同時處理涵蓋工業(yè)、醫(yī)療、合成數(shù)據(jù)等 3 個領(lǐng)域、12 種模態(tài)和 66 個類別的異常檢測任務(wù)。

UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

二、核心方法

UniMMAD 采用通用-特定范式，通過三大核心模塊實現(xiàn)多模態(tài)異常檢測的統(tǒng)一。

通用多模態(tài)編碼器（特征壓縮模塊FCM）：

通過多尺度BottleNeck結(jié)構(gòu)，將任意組合的輸入（如RGB+Depth）壓縮成緊湊的通用特征。內(nèi)部多尺度瓶頸利用不同尺度的并行卷積捕捉正常模式，外部語義瓶頸在更高語義層級進行精細壓縮，剔除異常激活，輸出純凈的通用特征表示。

跨條件混合專家（C-MoE）：

引入"領(lǐng)域先驗"作為導(dǎo)航，動態(tài)選擇專家路徑。采用MoE-in-MoE結(jié)構(gòu)，將參數(shù)量減少約75%，同時保持專家組合的靈活性。條件路由器根據(jù)輸入的模態(tài)和類別信息，動態(tài)選擇最合適的專家路徑，實現(xiàn)精準的任務(wù)適配。

分組動態(tài)濾波（GDF）：

將多個專家計算合并為單組卷積，提升并行效率。配合解壓一致性損失保證解壓過程與壓縮過程的一致性，確保恢復(fù)的圖像與原始輸入在語義上保持對齊。

UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

三、亮點總結(jié)

創(chuàng)新點一：MVTec-3D 圖像級AUC 92.527

在MVTec-3D數(shù)據(jù)集上，UniMMAD圖像級AUC達到92.527，像素級AUC達到99.089，在BraTs醫(yī)療數(shù)據(jù)集上同樣超越專用醫(yī)療模型，全面驗證了統(tǒng)一框架在多模態(tài)、多類別異常檢測任務(wù)上的領(lǐng)先性能。

創(chuàng)新點二：59.09 FPS，推理速度提升150倍

相比多模態(tài)方法M3DM的0.39 FPS，UniMMAD達到59.09 FPS，實現(xiàn)約150倍的速度提升。參數(shù)減少75%的同時保持高精度，滿足工業(yè)實時部署的嚴苛需求。

創(chuàng)新點三：持續(xù)學(xué)習能力

UniMMAD展現(xiàn)出優(yōu)秀的持續(xù)學(xué)習能力——學(xué)習新任務(wù)后，舊任務(wù)性能下降不到8%，有效解決了"災(zāi)難性遺忘"問題。域干擾問題也得到有效解決：不同領(lǐng)域（紅外、3D等）激活不同專家路徑，避免了噪聲干擾，提升了異常檢測的準確性。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成，更詳細信息參見兩個鏈接

論文鏈接：https://arxiv.org/abs/2509.25934

解讀來源：https://mp.weixin.qq.com/s/rIRlMmhkgqHj0wq6ob0NCw

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。