西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

本文作者：鄭佳美

2026-04-22 14:28

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：FreeLOC：一種面向長(zhǎng)視頻生成的分層自適應(yīng)推理校正方法。

過(guò)去一段時(shí)間，AI 視頻最讓人驚艷的，往往都是前幾秒。人物狀態(tài)自然，光影氛圍到位，動(dòng)作也足夠流暢，很容易讓人產(chǎn)生一種感覺(jué)，視頻生成已經(jīng)離真正可用不遠(yuǎn)了。

但行業(yè)越往前走，問(wèn)題也越清楚，真正難的從來(lái)不是做出一小段漂亮畫(huà)面，而是能不能把這種質(zhì)量穩(wěn)定地延續(xù)下去。一旦視頻時(shí)長(zhǎng)被拉長(zhǎng)，很多模型就會(huì)開(kāi)始慢慢失穩(wěn)，人物、場(chǎng)景和動(dòng)作表面上還在延續(xù)，內(nèi)部卻已經(jīng)出現(xiàn)細(xì)節(jié)漂移和時(shí)序松動(dòng)。

這也是為什么，今天 AI 視頻行業(yè)真正卡住的地方，已經(jīng)不只是能不能生成片段，而是能不能生成連續(xù)、穩(wěn)定、可以承載完整情境的內(nèi)容。

比如一段廚房視頻里，鏡頭從備菜推進(jìn)到下鍋，再切到擺盤(pán)，觀眾期待看到的是同一個(gè)空間、同一套器具和同一份食材被自然地串聯(lián)起來(lái)。再比如一段城市通勤視頻里，人物從地鐵口走到街邊店鋪，鏡頭可以變化，但人物狀態(tài)、環(huán)境關(guān)系和動(dòng)作邏輯不能越走越散。

只有解決這種長(zhǎng)時(shí)間穩(wěn)定性問(wèn)題，AI 視頻才真正有機(jī)會(huì)從展示走向創(chuàng)作和生產(chǎn)。也正是在這樣的背景下，西湖大學(xué)的張馳團(tuán)隊(duì)提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

這項(xiàng)研究關(guān)注的，不是怎樣把某一幀做得更亮眼，而是為什么模型在短視頻里表現(xiàn)很好，一旦進(jìn)入長(zhǎng)視頻生成，質(zhì)量就會(huì)越來(lái)越難維持。也正因?yàn)樗プ×诉@個(gè)行業(yè)里越來(lái)越核心的問(wèn)題，所以這項(xiàng)研究不只是一次常規(guī)優(yōu)化，而更像是在回答，AI 視頻從短片段走向長(zhǎng)內(nèi)容時(shí)，究竟卡在了哪里。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

論文地址：https://arxiv.org/pdf/2603.25209

更長(zhǎng)的視頻，更明顯的優(yōu)勢(shì)

在 Wan2.1-T2V-1.3B 上，研究人員把視頻長(zhǎng)度擴(kuò)展到 2 倍和 4 倍之后，發(fā)現(xiàn) FreeLOC 的優(yōu)勢(shì)非常穩(wěn)定，而且視頻越長(zhǎng)，這種優(yōu)勢(shì)越明顯。

先看 2 倍長(zhǎng)度，也就是 161 幀的結(jié)果。主體一致性達(dá)到 98.06，背景一致性達(dá)到 97.49，運(yùn)動(dòng)平滑達(dá)到 98.98，說(shuō)明在人物、場(chǎng)景和動(dòng)作連續(xù)性上，它都已經(jīng)處在最好或接近最好的水平。

更突出的部分在畫(huà)質(zhì)相關(guān)指標(biāo)上。圖像質(zhì)量達(dá)到 68.31，明顯高于 Direct 的 60.34，也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美學(xué)質(zhì)量達(dá)到 62.33，而其他方法大多只在 52 到 56 之間，所以這一項(xiàng)的領(lǐng)先尤其明顯。

動(dòng)態(tài)程度也達(dá)到 39.41，已經(jīng)接近最佳。換句話說(shuō)，在 2 倍長(zhǎng)度下，F(xiàn)reeLOC 不是只在某一個(gè)指標(biāo)上占優(yōu)，而是在穩(wěn)定性、清晰度和整體觀感上都表現(xiàn)更強(qiáng)。

到了 4 倍長(zhǎng)度，也就是 321 幀，長(zhǎng)視頻生成的難度會(huì)明顯上升，因?yàn)槟Ｐ透菀壮霈F(xiàn)內(nèi)容漂移、畫(huà)面變糊或者動(dòng)作失真。但研究結(jié)果表明，F(xiàn)reeLOC 在這種更苛刻的設(shè)定下仍然能保持很強(qiáng)的表現(xiàn)。

主體一致性達(dá)到 98.44，仍然幾乎是最高水平。圖像質(zhì)量達(dá)到 67.44，而 Direct 已經(jīng)掉到 59.21，差距達(dá)到 8.2。美學(xué)質(zhì)量達(dá)到 61.21，Direct 只有 49.43，差距進(jìn)一步擴(kuò)大到 11.8。動(dòng)態(tài)程度達(dá)到 36.27，而 Direct 只有 4.32，差不多已經(jīng)是數(shù)量級(jí)上的差別。

這個(gè)結(jié)果說(shuō)明，隨著視頻長(zhǎng)度繼續(xù)增加，很多方法會(huì)越來(lái)越難維持質(zhì)量，但 FreeLOC 仍然能把畫(huà)面質(zhì)量和動(dòng)態(tài)表現(xiàn)保持在較高水平，所以它的優(yōu)勢(shì)不是偶然，而是在高難度長(zhǎng)視頻場(chǎng)景里依然成立。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

這種提升并不只出現(xiàn)在一個(gè)模型上。研究團(tuán)隊(duì)又在 HunyuanVideo 上做了同樣的測(cè)試，結(jié)果趨勢(shì)依然一致。2 倍長(zhǎng)度，也就是 253 幀時(shí)，圖像質(zhì)量達(dá)到 68.92，美學(xué)質(zhì)量達(dá)到 62.38，都是最高，主體一致性也有 97.92，優(yōu)于大多數(shù)方法。

到了 4 倍長(zhǎng)度，也就是 509 幀，圖像質(zhì)量仍有 67.92，美學(xué)質(zhì)量仍有 61.09，動(dòng)態(tài)程度達(dá)到 39.28，也接近最佳。也就是說(shuō)，F(xiàn)reeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立，而是在另一套視頻生成模型上也能復(fù)現(xiàn)出相同趨勢(shì)，這就說(shuō)明研究提出的方法具有比較明顯的跨模型通用性。雷峰網(wǎng)

為了進(jìn)一步說(shuō)明這種提升到底來(lái)自哪里，研究團(tuán)隊(duì)還做了消融實(shí)驗(yàn)，把方法拆開(kāi)來(lái)看。只使用 TSA 時(shí)，圖像質(zhì)量是 65.87，美學(xué)質(zhì)量是 57.05，說(shuō)明單獨(dú)處理長(zhǎng)上下文問(wèn)題已經(jīng)能帶來(lái)可見(jiàn)提升。

只使用 VRPR 時(shí)，圖像質(zhì)量是 61.88，美學(xué)質(zhì)量是 54.13，說(shuō)明單獨(dú)修正位置問(wèn)題也有效，但作用還不夠強(qiáng)。假如把 TSA 和 VRPR 一起加上去，卻對(duì)所有層統(tǒng)一處理，圖像質(zhì)量是 65.19，美學(xué)質(zhì)量是 56.34，雖然比只用一個(gè)模塊更好，但仍然不是最佳結(jié)果。

更關(guān)鍵的是，研究人員還測(cè)試了隨機(jī)分配到不同層的做法，結(jié)果圖像質(zhì)量反而掉到 63.90，這說(shuō)明模塊本身并不是隨便放在哪里都行，真正重要的是放在哪些層上。按層選擇之后，也就是 FreeLOC 的做法，圖像質(zhì)量達(dá)到 67.44，美學(xué)質(zhì)量達(dá)到 61.21，都是最高。

這一部分實(shí)驗(yàn)最想說(shuō)明的是，性能提升不只是因?yàn)槎嗉恿藘蓚€(gè)模塊，而是因?yàn)檠芯咳藛T發(fā)現(xiàn)不同層對(duì)不同問(wèn)題的敏感程度并不一樣，所以必須做分層處理，而這正是 FreeLOC 最核心的創(chuàng)新點(diǎn)之一。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

研究人員還進(jìn)一步比較了不同的位置處理方式和不同的注意力機(jī)制。在位置處理上，他們比較了 Clipping、Grouping 和 VRPR，最后發(fā)現(xiàn) VRPR 的效果最好，圖像質(zhì)量達(dá)到 68.84，美學(xué)質(zhì)量達(dá)到 61.21，都明顯領(lǐng)先。這說(shuō)明多粒度的位置重編碼確實(shí)比簡(jiǎn)單截?cái)嗷蛘吆?jiǎn)單分組更有效。

在注意力機(jī)制上，研究又比較了 Sliding Window、Selected Frame Attention 和 TSA，結(jié)果 TSA 依然最好，圖像質(zhì)量達(dá)到 68.84，美學(xué)質(zhì)量達(dá)到 61.21。這意味著，單純用滑動(dòng)窗口雖然能縮小注意力范圍，但會(huì)損失一部分長(zhǎng)程信息，而 TSA 能在控制上下文長(zhǎng)度的同時(shí)，盡量保留長(zhǎng)距離時(shí)序關(guān)聯(lián)，所以整體表現(xiàn)更強(qiáng)。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

把這些實(shí)驗(yàn)合在一起看，研究團(tuán)隊(duì)實(shí)際上是在證明一件事，F(xiàn)reeLOC 的優(yōu)勢(shì)不是只體現(xiàn)在某一個(gè)局部技巧上，而是來(lái)自一整套更合理的設(shè)計(jì)，包括位置重編碼、注意力控制，以及最關(guān)鍵的分層使用策略。

整體來(lái)看，這組實(shí)驗(yàn)傳遞出的結(jié)論非常清楚。無(wú)論是在 Wan2.1-T2V-1.3B 還是 HunyuanVideo 上，無(wú)論是在 2 倍長(zhǎng)度還是 4 倍長(zhǎng)度設(shè)置下，F(xiàn)reeLOC 都能同時(shí)提升視頻的穩(wěn)定性、清晰度、美感和動(dòng)態(tài)表現(xiàn)，而且越到更長(zhǎng)、更難的生成場(chǎng)景，這種優(yōu)勢(shì)越明顯。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

從設(shè)置到機(jī)制，一步步驗(yàn)證

在實(shí)驗(yàn)設(shè)置上，研究團(tuán)隊(duì)選用了兩個(gè)公開(kāi)可用的視頻生成模型，分別是 Wan2.1-T2V-1.3B 和 HunyuanVideo，用來(lái)驗(yàn)證 FreeLOC 是否具有跨模型的適用性。

視頻生成時(shí)，研究人員把輸出分辨率統(tǒng)一設(shè)為 480p，也就是 832 × 480，并且重點(diǎn)測(cè)試了把視頻長(zhǎng)度擴(kuò)展到 2 倍和 4 倍之后的生成效果。這樣做的目的很明確，就是看模型在視頻明顯變長(zhǎng)之后，是否還能維持原本的畫(huà)面質(zhì)量和時(shí)序穩(wěn)定性。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

為了證明 FreeLOC 的效果不是偶然，研究還設(shè)置了多組對(duì)比方法，包括 Direct Sampling，也就是直接生成，Sliding Window，也就是滑動(dòng)窗口，以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

這樣的對(duì)比覆蓋了目前比較常見(jiàn)的長(zhǎng)視頻生成思路，有的是最直接的基線方法，有的是通過(guò)局部窗口維持連續(xù)性，也有的是已有的訓(xùn)練免費(fèi)方法，所以能夠比較全面地看出 FreeLOC 相比其他方案到底強(qiáng)在哪里。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

在評(píng)價(jià)方式上，研究人員采用的是 VBench 標(biāo)準(zhǔn)，并且把指標(biāo)分成了一致性和質(zhì)量?jī)纱箢?。一致性方面主要?Subject Consistency，也就是人物在長(zhǎng)視頻里會(huì)不會(huì)變形或漂移，Background Consistency，也就是背景是否穩(wěn)定，以及 Motion Smoothness，也就是動(dòng)作和運(yùn)動(dòng)過(guò)程是否連續(xù)自然。

質(zhì)量方面主要看 Imaging Quality，也就是畫(huà)面清晰度，Aesthetic Quality，也就是整體視覺(jué)美感，以及 Dynamic Degree，也就是視頻的動(dòng)態(tài)表現(xiàn)強(qiáng)不強(qiáng)。這樣一來(lái)，研究考察的就不只是單純的清晰度，而是把人物穩(wěn)定、背景穩(wěn)定、動(dòng)作連續(xù)、畫(huà)面質(zhì)量和觀感都納入了評(píng)估范圍。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

除了常規(guī)的對(duì)比實(shí)驗(yàn)，研究團(tuán)隊(duì)還做了一個(gè)很關(guān)鍵的探測(cè)實(shí)驗(yàn)，也就是逐層分析 Transformer。具體來(lái)說(shuō)，研究人員會(huì)對(duì)每一層施加擾動(dòng)，然后觀察兩個(gè)結(jié)果，一是視覺(jué)質(zhì)量到底下降了多少，二是 attention 的變化到底有多大。

通過(guò)這種方法，他們發(fā)現(xiàn)不同層對(duì)問(wèn)題的敏感性并不一樣，有的層更容易受到位置變化的影響，有的層更容易受到長(zhǎng)上下文擴(kuò)展的影響。這個(gè)發(fā)現(xiàn)非常重要，因?yàn)樗苯又С至?FreeLOC 后面的分層處理思路，也就是不是所有層都一視同仁，而是要針對(duì)不同層采用不同修正方式。

研究還專門(mén)驗(yàn)證了兩類核心的 O.O.D 問(wèn)題。第一類是位置 O.O.D，做法是改變幀之間的相對(duì)位置關(guān)系，然后觀察生成質(zhì)量會(huì)不會(huì)下降。第二類是長(zhǎng)度 O.O.D，做法是直接增加視頻長(zhǎng)度，再計(jì)算 attention entropy，也就是注意力分散程度。

實(shí)驗(yàn)結(jié)果表明，視頻長(zhǎng)度一旦增加，attention 就會(huì)變得更分散，而注意力越分散，生成質(zhì)量往往越差。也正是基于這兩類問(wèn)題的驗(yàn)證，研究團(tuán)隊(duì)才進(jìn)一步提出了后面的 VRPR、TSA 和分層適配策略。整體來(lái)看，這一部分實(shí)驗(yàn)經(jīng)過(guò)的意義就在于，研究并不是只做結(jié)果對(duì)比，而是先把問(wèn)題來(lái)源拆清楚，再針對(duì)性地設(shè)計(jì)解決辦法。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

從「能生成」走向「能使用」

這項(xiàng)研究的意義，不只是把長(zhǎng)視頻生成的結(jié)果做得更好，而是把問(wèn)題背后的原因說(shuō)清楚了。研究團(tuán)隊(duì)指出，長(zhǎng)視頻之所以容易出現(xiàn)畫(huà)面變糊、動(dòng)作不連貫、人物不穩(wěn)定這些問(wèn)題，核心來(lái)自兩類 O.O.D，也就是位置 O.O.D 和上下文 O.O.D。

這個(gè)判斷很重要，因?yàn)樗f(shuō)明過(guò)去很多方法更像是在不斷試技巧、調(diào)參數(shù)，而這項(xiàng)研究開(kāi)始把問(wèn)題推進(jìn)到機(jī)制解釋的層面。也就是說(shuō)，研究人員不僅提出了一個(gè)更有效的方案，還解釋了為什么以前的方法容易失效，為什么視頻一變長(zhǎng)，模型就會(huì)更容易出問(wèn)題。

這項(xiàng)研究還有一個(gè)很實(shí)際的意義，就是證明了訓(xùn)練并不是唯一辦法。以前一說(shuō)到長(zhǎng)視頻生成，很多人會(huì)默認(rèn)要重新訓(xùn)練模型，或者至少做一次很重的額外訓(xùn)練，因?yàn)槎桃曨l模型通常很難直接應(yīng)對(duì)更長(zhǎng)的時(shí)序范圍。

研究團(tuán)隊(duì)這次證明，只在推理階段做更精細(xì)的修正，也能明顯改善生成效果。這一點(diǎn)很關(guān)鍵，因?yàn)樗馕吨懔Τ杀緯?huì)更低，現(xiàn)有模型也更容易直接使用，對(duì)技術(shù)落地和實(shí)際部署都更有幫助。

另外，研究人員還重新揭示了 Transformer 不同層的作用差異。他們發(fā)現(xiàn)，不同層并不是在做同一件事，有些層更容易受到位置問(wèn)題影響，有些層更容易受到長(zhǎng)上下文問(wèn)題影響。

所以真正有效的方法，不是一刀切地改所有層，而是先找出問(wèn)題主要集中在哪些層，再做針對(duì)性修復(fù)。這個(gè)認(rèn)識(shí)很有價(jià)值，因?yàn)樗恢贿m用于視頻生成，對(duì)長(zhǎng)上下文的 LLM、圖像生成模型的推理優(yōu)化，其實(shí)也都有啟發(fā)。

換句話說(shuō)，這項(xiàng)研究提出的不只是一個(gè)技巧，更是一種更通用的思路，也就是先識(shí)別問(wèn)題，再定位到層，最后做局部修復(fù)。

如果從普通人的角度來(lái)看，這項(xiàng)研究的影響其實(shí)也很直接。未來(lái)大家用 AI 生成稍微長(zhǎng)一點(diǎn)的視頻時(shí)，人物突然變臉、衣服亂變、背景亂跳、動(dòng)作接不上的情況，有望明顯減少。

對(duì)普通用戶來(lái)說(shuō)，這意味著做故事短片、教學(xué)視頻、產(chǎn)品展示視頻時(shí)，成片會(huì)更穩(wěn)定，也更接近真正能用的內(nèi)容。對(duì)內(nèi)容創(chuàng)作者來(lái)說(shuō)，這意味著返工會(huì)更少，制作成本會(huì)更低，小團(tuán)隊(duì)和個(gè)人創(chuàng)作者也更有機(jī)會(huì)用現(xiàn)成模型做出更長(zhǎng)、更連貫的視頻內(nèi)容。

所以這項(xiàng)研究真正推動(dòng)的，不只是技術(shù)指標(biāo)的提升，而是讓 AI 長(zhǎng)視頻生成離日?？捎?、商業(yè)可用又近了一步。

FreeLOC 的創(chuàng)建者

論文一作田佳豪，目前是西湖大學(xué) AGI Lab 的科研助理，師從張馳教授。主要從事計(jì)算機(jī)視覺(jué)方面的研究。他當(dāng)前的研究重點(diǎn)集中在擴(kuò)散生成模型，視頻生成，世界模型等方向。

就學(xué)術(shù)成果來(lái)看，他已發(fā)表或參與多項(xiàng)工作，包括以第一作者發(fā)表在 CVPR 2026 的FreeLOC，以及投遞于 ECCV 2026 的 HeadForcing，此外還發(fā)表了 DCCM，Loss-Guided Diffusion For General Controllable Generation 等工作，整體研究路徑體現(xiàn)出從圖像級(jí)擴(kuò)散模型理論、視頻時(shí)序建模到自回歸長(zhǎng)視頻生成與交互式視頻合成的持續(xù)推進(jìn)。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026

通訊作者張馳，西湖大學(xué)助理教授、獨(dú)立PI，同時(shí)擔(dān)任 AGI Lab負(fù)責(zé)人，在生成式人工智能和多模態(tài)智能方向開(kāi)展研究工作。在

此之前，他曾在騰訊擔(dān)任研究科學(xué)家，并于新加坡南洋理工大學(xué)獲得博士學(xué)位，師從林國(guó)盛教授，同時(shí)與沈春華等學(xué)者保持長(zhǎng)期合作關(guān)系。在學(xué)術(shù)影響力方面，他連續(xù)入選斯坦福大學(xué)發(fā)布的全球前 2% 科學(xué)家榜單，并擔(dān)任多個(gè)頂級(jí)會(huì)議和期刊的重要學(xué)術(shù)服務(wù)角色，包括 ICML、ICLR、CVPR 等會(huì)議的 Area Chair，以及 IEEE T-CSVT 的副編輯。

在學(xué)術(shù)成果與研究產(chǎn)出方面，他長(zhǎng)期深耕生成式人工智能領(lǐng)域，研究方向涵蓋擴(kuò)散模型、多模態(tài)生成建模以及智能體系統(tǒng)，近年來(lái)帶領(lǐng)團(tuán)隊(duì)在 CVPR、ICCV、ICLR、NeurIPS 等頂級(jí)會(huì)議上持續(xù)發(fā)表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

這些研究從圖像生成、視頻生成延伸到 3D/4D 場(chǎng)景建模以及多模態(tài)智能體，形成了一條從視覺(jué)理解到世界建模的系統(tǒng)性研究路線。

從整體研究特點(diǎn)來(lái)看，張馳的工作強(qiáng)調(diào)生成模型的可控性、多模態(tài)融合能力以及向真實(shí)世界建模能力的拓展，既關(guān)注模型基礎(chǔ)理論，也注重實(shí)際系統(tǒng)構(gòu)建與應(yīng)用落地。例如在視頻生成與3D建模方向，他推動(dòng)從單純生成內(nèi)容向可控相機(jī)運(yùn)動(dòng)和空間理解發(fā)展，在智能體方向，他探索多模態(tài)大模型在真實(shí)交互環(huán)境中的應(yīng)用。

這種研究路徑體現(xiàn)出從傳統(tǒng)計(jì)算機(jī)視覺(jué)向通用人工智能過(guò)渡的趨勢(shì)，也使其工作處于當(dāng)前人工智能領(lǐng)域較為前沿的位置。

西湖大學(xué)張馳團(tuán)隊(duì)：不重訓(xùn)，也能讓視頻生成更長(zhǎng)更穩(wěn)丨CVPR 2026