上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

本文作者：鄭佳美

2026-04-22 15:04

導(dǎo)語：C2FG：利用 score 差異實(shí)現(xiàn)動(dòng)態(tài)引導(dǎo)控制的生成方法。

很多人第一次覺得圖像生成模型已經(jīng)足夠強(qiáng)，往往是在它能快速畫出一張看上去不錯(cuò)的圖的時(shí)候。但真正開始頻繁使用之后，又會(huì)慢慢發(fā)現(xiàn)另一面。

比如做一張活動(dòng)主視覺，前幾次生成里主體、色調(diào)、氛圍都對了，可一放大細(xì)節(jié)就會(huì)發(fā)現(xiàn)手部、材質(zhì)、邊緣關(guān)系經(jīng)不起看。再比如給一篇文章配封面，模型明明理解了主題，卻總在最后呈現(xiàn)時(shí)把重點(diǎn)元素放錯(cuò)位置，或者讓畫面風(fēng)格和語義之間出現(xiàn)輕微但難以忽視的偏差。

這正是當(dāng)前生成式 AI 進(jìn)入大規(guī)模應(yīng)用之后，行業(yè)越來越在意的一類問題。今天的 diffusion 模型已經(jīng)不缺生成能力，缺的是更穩(wěn)定、更可控、也更符合真實(shí)使用過程的生成機(jī)制。

過去幾年，行業(yè)主要依靠更大的模型、更多的數(shù)據(jù)和更強(qiáng)的算力推動(dòng)效果上升，但當(dāng)模型能力不斷逼近高位之后，很多問題開始不再表現(xiàn)為能不能生成，而是能不能穩(wěn)定地生成對。換句話說，競爭的重點(diǎn)正在從模型會(huì)不會(huì)畫，轉(zhuǎn)向模型能不能在每一步都朝著正確方向畫。

這個(gè)變化非常關(guān)鍵，因?yàn)樗馕吨赡Ｐ偷陌l(fā)展正在從規(guī)模驅(qū)動(dòng)走向機(jī)制驅(qū)動(dòng)。

在這個(gè)背景下，來自上海交通大學(xué)與 vivo BlueImage Lab 的研究團(tuán)隊(duì)提出了《C2FG Control Classifier Free Guidance via Score Discrepancy Analysis》。研究切中的恰恰是行業(yè)正在遇到的那個(gè)深層矛盾。

過去廣泛使用的 guidance 方式，本質(zhì)上默認(rèn)生成過程中的條件引導(dǎo)強(qiáng)度可以保持固定，但真實(shí)的 diffusion 過程并不是靜止的，模型在不同階段對條件信息的依賴程度并不一樣。研究人員抓住的，正是這種長期存在卻常被經(jīng)驗(yàn)調(diào)參掩蓋的問題。

從這個(gè)意義上看，C2FG 代表的不只是一次技術(shù)修補(bǔ)，而是一種研究視角的變化。它提醒行業(yè)，下一階段真正重要的問題，可能不再只是把模型做得更大，而是更精確地理解生成過程內(nèi)部到底發(fā)生了什么，并據(jù)此重新設(shè)計(jì)控制方式。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

論文地址：https://arxiv.org/pdf/2603.08155

C2FG 更改進(jìn)了生成分布本身

在實(shí)驗(yàn)結(jié)果方面，研究團(tuán)隊(duì)圍繞 ImageNet 這一核心任務(wù)首先驗(yàn)證了方法的整體效果。對比可以發(fā)現(xiàn)，在常規(guī)的 DiT 模型上，引入 C2FG 之后最直接的變化是生成結(jié)果明顯更接近真實(shí)分布，這一點(diǎn)體現(xiàn)在 FID 從 2.29 下降到 2.07，同時(shí) IS 從 276.8 提升到 291.5，而 Precision 基本保持在 0.83，Recall 從 0.57 上升到 0.59。

這組變化共同說明，研究人員的方法并沒有通過犧牲質(zhì)量來換取多樣性，而是在保持原有精度的情況下，同時(shí)讓生成圖像更清晰、類別更明確，并且覆蓋到更廣的真實(shí)分布區(qū)域。相比之下，如果只看單一指標(biāo)，很難看出這種“同時(shí)提升多個(gè)維度”的效果，而這里的數(shù)據(jù)組合恰好體現(xiàn)了這一點(diǎn)。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

更關(guān)鍵的是，這種改進(jìn)在強(qiáng)模型上依然成立。以 SiT-XL/2 為例，本身已經(jīng)處在較高性能水平，固定 guidance 時(shí) FID 為 1.80，而 C2FG 可以把它進(jìn)一步壓到 1.51，同時(shí) IS 從 284.0 提升到 315.0。雖然 Precision 從 0.81 略微變?yōu)?0.80，但 Recall 從 0.61 提升到 0.62，這說明整體生成能力仍然是增強(qiáng)的，而不是簡單的權(quán)衡變化。

換句話說，在模型已經(jīng)很強(qiáng)的情況下，仍然能夠在“更真實(shí)”和“更豐富”之間取得更好的平衡，這一點(diǎn)本身就說明問題不在模型能力，而在 guidance 機(jī)制。

當(dāng)實(shí)驗(yàn)推進(jìn)到更接近性能上限的設(shè)置時(shí)，這種趨勢依然存在。即使原方法已經(jīng)達(dá)到 FID 1.42 這樣的水平，引入 C2FG 后仍然可以進(jìn)一步降低到 1.41，這種微小但穩(wěn)定的改進(jìn)說明，隨著模型不斷逼近極限，誤差來源越來越集中在機(jī)制層面，而不是網(wǎng)絡(luò)本身。

類似的現(xiàn)象也出現(xiàn)在更復(fù)雜的高分辨率任務(wù)中，在 512 × 512 設(shè)置下，原方法的 FID 為 6.81，而 C2FG 可以降低到 6.54，同時(shí) IS 從 229.5 提升到 280.9，這表明在更困難的生成條件下，方法依然能夠改善圖像結(jié)構(gòu)和整體清晰度，而不是只在簡單場景中有效。

研究團(tuán)隊(duì)還將驗(yàn)證擴(kuò)展到不同類型的任務(wù)中。在文本生成圖像任務(wù)中，雖然整體提升幅度不如 ImageNet 明顯，但趨勢保持一致，例如 U-ViT 的 FID 從 5.37 下降到 5.28，Stable Diffusion 的 CLIP 分?jǐn)?shù)從 31.8 提升到 31.9，這說明這種方法不僅適用于類別條件，還對文本條件同樣有效，只是在更復(fù)雜語義約束下改進(jìn)幅度會(huì)相對溫和。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

進(jìn)一步在像素空間任務(wù)中，原模型已經(jīng)可以達(dá)到 FID 1.58，在強(qiáng) baseline 的幫助下下降到 1.04，而加入 C2FG 后仍然可以繼續(xù)降低到 1.03，這種在接近極限區(qū)域仍然存在的改進(jìn)，直接說明誤差并不是來自模型表達(dá)能力，而是來自 guidance 的使用方式。雷峰網(wǎng)

從更貼近實(shí)際應(yīng)用的角度來看，研究人員還分析了推理步數(shù)減少時(shí)的表現(xiàn)。在 50 步和 20 步這兩種設(shè)置中，F(xiàn)ID 都出現(xiàn)了穩(wěn)定下降，并且在 20 步這種更極端的低計(jì)算預(yù)算下，提升反而更加明顯。這意味著，當(dāng)每一步的決策變得更加關(guān)鍵時(shí)，動(dòng)態(tài) guidance 的優(yōu)勢會(huì)被放大。

最后，通過一個(gè)簡單的二維 toy 實(shí)驗(yàn)，研究團(tuán)隊(duì)展示了更直觀的現(xiàn)象，傳統(tǒng)方法會(huì)產(chǎn)生明顯偏離目標(biāo)分布的異常樣本，而 C2FG 基本不會(huì)出現(xiàn)這類 outliers，生成分布也更貼近真實(shí)分布，這進(jìn)一步說明改進(jìn)不僅體現(xiàn)在視覺效果上，更體現(xiàn)在整體概率分布的正確性上。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

基于逐層驗(yàn)證的實(shí)驗(yàn)設(shè)計(jì)框架

在實(shí)驗(yàn)經(jīng)過的安排上，研究團(tuán)隊(duì)之所以設(shè)計(jì)這么多層次的實(shí)驗(yàn)，并不只是為了說明 C2FG 比原來的方法更好，而是希望進(jìn)一步回答一個(gè)更核心的問題，也就是這種方法為什么會(huì)更好。

圍繞這個(gè)目標(biāo)，研究人員搭建了一個(gè)逐層推進(jìn)的驗(yàn)證體系。第一層是機(jī)制驗(yàn)證，重點(diǎn)去測條件分支和無條件分支之間的差異，結(jié)果發(fā)現(xiàn)這種差異并不是固定不變的，而是會(huì)隨著時(shí)間不斷變化。

第二層是分布驗(yàn)證，也就是通過 toy 實(shí)驗(yàn)去觀察生成結(jié)果是否更接近真實(shí)分布，從而判斷改進(jìn)究竟發(fā)生在視覺層面，還是已經(jīng)深入到分布層面。

第三層是性能驗(yàn)證，研究團(tuán)隊(duì)把方法放到 ImageNet 這種核心任務(wù)中，直接檢查各種指標(biāo)能否得到提升。第四層是泛化驗(yàn)證，在這一層里，研究人員主動(dòng)更換模型、更換任務(wù)，也更換采樣方式，目的就是確認(rèn)這種改進(jìn)并不依賴某一種特定結(jié)構(gòu)或某一種實(shí)驗(yàn)條件。

第五層則是極限驗(yàn)證，專門去測試強(qiáng)模型和少步數(shù)這兩類更苛刻的情境，因?yàn)槿绻椒ㄔ谶@些設(shè)置下仍然有效，就更能說明它反映的是一種穩(wěn)定規(guī)律，而不是偶然現(xiàn)象。

這樣一層一層推進(jìn)之后，整個(gè)實(shí)驗(yàn)就形成了一條完整的證據(jù)鏈，最后支持的結(jié)論也就不再只是“效果更好”，而是“這種改進(jìn)背后確實(shí)存在可以重復(fù)驗(yàn)證的機(jī)制”。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

在這一系列實(shí)驗(yàn)中，最關(guān)鍵的觀察集中在 diffusion 過程不同階段的變化上。研究人員發(fā)現(xiàn)，在早期階段，條件信息和無條件信息之間幾乎是接近的，二者差異很小，這意味著如果在這個(gè)時(shí)候仍然使用固定而且較強(qiáng)的 guidance，就容易出現(xiàn)引導(dǎo)過強(qiáng)的問題。

相反，到了后期階段，這種差異會(huì)迅速增大，也就是說模型越來越需要條件信息去把生成過程拉回到目標(biāo)分布附近，如果 guidance 依舊保持固定，就會(huì)顯得不夠，無法提供足夠的約束。

正是在這個(gè)意義上，研究團(tuán)隊(duì)提出的 C2FG 才顯得重要，因?yàn)樗淖饔貌皇呛唵蔚匕?guidance 變大或者變小，而是自動(dòng)匹配這種隨時(shí)間變化的差異，讓前期不過強(qiáng)、后期不不足，從而使整個(gè)生成過程更符合真實(shí)的 diffusion 動(dòng)態(tài)。

上交大 x vivo 團(tuán)隊(duì)：一個(gè)簡單改動(dòng)，讓 diffusion 全面提升丨CVPR 2026

對 diffusion 本質(zhì)的修正

從實(shí)驗(yàn)意義來看，這項(xiàng)研究的重要性，不只是把幾個(gè)指標(biāo)繼續(xù)提高了一點(diǎn)，而是說明研究團(tuán)隊(duì)發(fā)現(xiàn)了 diffusion 生成模型里一個(gè)更本質(zhì)的問題。

過去很多方法默認(rèn) guidance 在整個(gè)生成過程中都可以保持固定，但實(shí)驗(yàn)結(jié)果表明，問題并不只是參數(shù)怎么調(diào)，而是這種固定做法本身就不符合生成過程的實(shí)際變化。

因?yàn)檠芯咳藛T在不同任務(wù)、不同模型和不同設(shè)置下都觀察到了穩(wěn)定提升，所以可以說明，C2FG 修正的不是某一種局部技巧，而是條件信息參與生成時(shí)普遍存在的偏差。這也意味著，研究真正推進(jìn)的，不只是一個(gè)新方法，而是一種對生成機(jī)制更準(zhǔn)確的理解。

這種意義在強(qiáng)模型上的表現(xiàn)尤其有說服力。像從 1.80 降到 1.51 這樣的提升，如果放在普通模型上已經(jīng)很明顯，而出現(xiàn)在本來就接近極限的強(qiáng)模型上，就更能說明剩余誤差主要不是模型能力不夠，而是 guidance 的作用方式還不夠合理。

換句話說，研究團(tuán)隊(duì)證明了，未來提升生成模型的效果，并不一定只能依賴更大的模型、更多的數(shù)據(jù)或更長的訓(xùn)練時(shí)間，也可以來自對生成過程中引導(dǎo)機(jī)制的重新設(shè)計(jì)。

少步數(shù)實(shí)驗(yàn)的意義則更貼近日常應(yīng)用。研究人員發(fā)現(xiàn)，步數(shù)越少，C2FG 的優(yōu)勢越明顯，這說明在計(jì)算資源有限的時(shí)候，固定 guidance 帶來的誤差會(huì)被放大，而動(dòng)態(tài) guidance 更能減少這種問題。

對普通人來說，這種改進(jìn)最終可能體現(xiàn)在更直接的使用體驗(yàn)上，比如生成速度更快，等待時(shí)間更短，對設(shè)備性能的要求更低，同時(shí)生成結(jié)果也更穩(wěn)定，不容易出現(xiàn)模糊、跑偏或者細(xì)節(jié)崩壞。

toy 實(shí)驗(yàn)進(jìn)一步說明，C2FG 改善的也不只是圖像表面的清晰度，而是讓生成結(jié)果在整體分布上更接近真實(shí)目標(biāo)，這意味著普通用戶在使用生成工具時(shí)，更容易一次得到自然、合理、符合需求的結(jié)果，而不必反復(fù)修改和重試。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

再往深一點(diǎn)看，這項(xiàng)研究的價(jià)值還在于，它讓生成模型的發(fā)展方向變得更清楚了。研究團(tuán)隊(duì)最核心的貢獻(xiàn)，不只是把 guidance 從常數(shù)改成時(shí)間函數(shù)，而是用系統(tǒng)實(shí)驗(yàn)說明，生成過程中的條件引導(dǎo)本來就應(yīng)該隨著時(shí)間變化。

這個(gè)結(jié)論不僅能幫助后續(xù)研究找到更合理的設(shè)計(jì)思路，也有機(jī)會(huì)讓現(xiàn)有生成系統(tǒng)以比較低的成本得到升級。最后落實(shí)到普通人身上，就是未來的圖像生成工具有可能變得更快、更穩(wěn)，也更容易普及。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。