0
| 本文作者: 陳淑瑜 | 2026-04-24 14:05 | 專題:CVPR 計算機視覺與模式識別會議 |
從視頻中準(zhǔn)確理解并重建人體3D運動是計算機視覺的重要研究方向,在體育賽事分析、VR/AR、人機交互以及醫(yī)療康復(fù)等領(lǐng)域具有廣泛應(yīng)用價值。然而,在真實復(fù)雜場景中,該任務(wù)仍面臨三大嚴(yán)峻挑戰(zhàn):
首先是身份關(guān)聯(lián)不穩(wěn)定——多人交互時,頻繁的遮擋和快速運動容易導(dǎo)致ID Switch,影響后續(xù)重建的一致性;其次是運動軌跡中斷——視角變化和極端遮擋會造成目標(biāo)跟蹤丟失;第三是重建結(jié)果不連續(xù)——傳統(tǒng)逐幀處理方式難以維持時間維度上的三維結(jié)構(gòu)穩(wěn)定性。
傳統(tǒng)方法通常將目標(biāo)跟蹤和三維重建作為兩個獨立的流水線模塊處理,無法從整體視角利用跨幀的時序信息。RAM(Recover Any 3D Human Motion)從根本上打破了這一范式,提出統(tǒng)一框架將運動感知跟蹤、時序建模與動作預(yù)測有機融合,實現(xiàn)從逐幀處理向時序建模的范式轉(zhuǎn)變。
RAM 框架由四個關(guān)鍵模塊構(gòu)成,各司其職、協(xié)同工作:
SegFollow 模塊(穩(wěn)定跟蹤):引入基于卡爾曼濾波的運動建模機制,將運動一致性信息融入目標(biāo)關(guān)聯(lián)過程。不再過度依賴外觀特征,即使在嚴(yán)重遮擋或外觀發(fā)生劇變的情況下,依然能維持穩(wěn)定的身份跟蹤,從根本上降低 ID Switch 發(fā)生率。
T-HMR 模塊(時序三維重建):基于時間記憶機制,從鄰近幀中篩選關(guān)鍵特征,利用 Transformer 結(jié)構(gòu)進行跨時間信息融合。當(dāng)當(dāng)前幀信息不完整或存在噪聲時,借助歷史上下文生成平滑且一致的3D人體結(jié)構(gòu),解決重建不連續(xù)問題。
動作預(yù)測模塊:基于歷史運動序列對人體動態(tài)進行建模,預(yù)測未來的姿態(tài)。專門針對目標(biāo)被完全遮擋的極端情況,在當(dāng)前沒有任何觀測信息時,靠預(yù)測結(jié)果維持運動序列的連續(xù)性。
自適應(yīng)融合模塊:對當(dāng)前幀重建結(jié)果與預(yù)測結(jié)果進行自適應(yīng)加權(quán)——遮擋嚴(yán)重時更依賴預(yù)測,觀測清晰時更依賴重建,根據(jù)當(dāng)前信息可靠性動態(tài)調(diào)整權(quán)重,實現(xiàn)最優(yōu)融合。

亮點一:統(tǒng)一框架打破流水線壁壘RAM 首次將目標(biāo)跟蹤、時序三維重建與動作預(yù)測整合到統(tǒng)一框架內(nèi),從整體視角充分利用跨幀時序信息,徹底改變了傳統(tǒng)串行流水線的局限,代表了多人3D運動理解的范式轉(zhuǎn)變。
亮點二:強大的零樣本泛化能力在 PoseTrack 等國際主流復(fù)雜場景數(shù)據(jù)集上,RAM 在無需針對特定目標(biāo)數(shù)據(jù)集進行額外訓(xùn)練(Zero-shot)的條件下,依然在身份一致性、跟蹤穩(wěn)定性以及三維重建精度上顯著超越現(xiàn)有方法,展現(xiàn)了極高的實際應(yīng)用潛力。
亮點三:時序建模接近人類認(rèn)知通過引入時間記憶與動作預(yù)測機制,使模型更接近人類真實世界中的動態(tài)認(rèn)知過程——人們即使暫時看不到一個運動中的人,也能憑借記憶預(yù)判其位置與姿態(tài)。這一仿人認(rèn)知設(shè)計不僅提升了技術(shù)性能,也為視頻理解領(lǐng)域提供了重要的方法論啟示。
──────────────────────────────────────────
上述內(nèi)容包含AI輔助生成,更詳細信息參見兩個鏈接
鏈接:https://arxiv.org/abs/2603.19929
解讀來源:https://cloud.tencent.com/developer/article/2658222
【封面圖片來源:網(wǎng)站名開發(fā)者社區(qū),所有者:NLPIR Lab】
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章