日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

導(dǎo)語:C2FG:利用 score 差異實(shí)現(xiàn)動(dòng)態(tài)引導(dǎo)控制的生成方法。

很多人第一次覺得圖像生成模型已經(jīng)足夠強(qiáng),往往是在它能快速畫出一張看上去不錯(cuò)的圖的時(shí)候。但真正開始頻繁使用之后,又會(huì)慢慢發(fā)現(xiàn)另一面。

比如做一張活動(dòng)主視覺,前幾次生成里主體、色調(diào)、氛圍都對了,可一放大細(xì)節(jié)就會(huì)發(fā)現(xiàn)手部、材質(zhì)、邊緣關(guān)系經(jīng)不起看。再比如給一篇文章配封面,模型明明理解了主題,卻總在最后呈現(xiàn)時(shí)把重點(diǎn)元素放錯(cuò)位置,或者讓畫面風(fēng)格和語義之間出現(xiàn)輕微但難以忽視的偏差。

這正是當(dāng)前生成式 AI 進(jìn)入大規(guī)模應(yīng)用之后,行業(yè)越來越在意的一類問題。今天的 diffusion 模型已經(jīng)不缺生成能力,缺的是更穩(wěn)定、更可控、也更符合真實(shí)使用過程的生成機(jī)制。

過去幾年,行業(yè)主要依靠更大的模型、更多的數(shù)據(jù)和更強(qiáng)的算力推動(dòng)效果上升,但當(dāng)模型能力不斷逼近高位之后,很多問題開始不再表現(xiàn)為能不能生成,而是能不能穩(wěn)定地生成對。換句話說,競爭的重點(diǎn)正在從模型會(huì)不會(huì)畫,轉(zhuǎn)向模型能不能在每一步都朝著正確方向畫。

這個(gè)變化非常關(guān)鍵,因?yàn)樗馕吨赡P偷陌l(fā)展正在從規(guī)模驅(qū)動(dòng)走向機(jī)制驅(qū)動(dòng)。

在這個(gè)背景下,來自上海交通大學(xué)與 vivo BlueImage Lab 的研究團(tuán)隊(duì)提出了《C2FG Control Classifier Free Guidance via Score Discrepancy Analysis》。研究切中的恰恰是行業(yè)正在遇到的那個(gè)深層矛盾。

過去廣泛使用的 guidance 方式,本質(zhì)上默認(rèn)生成過程中的條件引導(dǎo)強(qiáng)度可以保持固定,但真實(shí)的 diffusion 過程并不是靜止的,模型在不同階段對條件信息的依賴程度并不一樣。研究人員抓住的,正是這種長期存在卻常被經(jīng)驗(yàn)調(diào)參掩蓋的問題。

從這個(gè)意義上看,C2FG 代表的不只是一次技術(shù)修補(bǔ),而是一種研究視角的變化。它提醒行業(yè),下一階段真正重要的問題,可能不再只是把模型做得更大,而是更精確地理解生成過程內(nèi)部到底發(fā)生了什么,并據(jù)此重新設(shè)計(jì)控制方式。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

論文地址:https://arxiv.org/pdf/2603.08155

C2FG 更改進(jìn)了生成分布本身

在實(shí)驗(yàn)結(jié)果方面,研究團(tuán)隊(duì)圍繞 ImageNet 這一核心任務(wù)首先驗(yàn)證了方法的整體效果。對比可以發(fā)現(xiàn),在常規(guī)的 DiT 模型上,引入 C2FG  之后最直接的變化是生成結(jié)果明顯更接近真實(shí)分布,這一點(diǎn)體現(xiàn)在 FID 從 2.29 下降到 2.07,同時(shí) IS 從 276.8 提升到 291.5,而 Precision 基本保持在 0.83,Recall 從 0.57 上升到 0.59。

這組變化共同說明,研究人員的方法并沒有通過犧牲質(zhì)量來換取多樣性,而是在保持原有精度的情況下,同時(shí)讓生成圖像更清晰、類別更明確,并且覆蓋到更廣的真實(shí)分布區(qū)域。相比之下,如果只看單一指標(biāo),很難看出這種“同時(shí)提升多個(gè)維度”的效果,而這里的數(shù)據(jù)組合恰好體現(xiàn)了這一點(diǎn)。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

更關(guān)鍵的是,這種改進(jìn)在強(qiáng)模型上依然成立。以 SiT-XL/2 為例,本身已經(jīng)處在較高性能水平,固定 guidance 時(shí) FID 為 1.80,而 C2FG  可以把它進(jìn)一步壓到 1.51,同時(shí) IS 從 284.0 提升到 315.0。雖然 Precision 從 0.81 略微變?yōu)?0.80,但 Recall 從 0.61 提升到 0.62,這說明整體生成能力仍然是增強(qiáng)的,而不是簡單的權(quán)衡變化。

換句話說,在模型已經(jīng)很強(qiáng)的情況下,仍然能夠在“更真實(shí)”和“更豐富”之間取得更好的平衡,這一點(diǎn)本身就說明問題不在模型能力,而在 guidance 機(jī)制。

當(dāng)實(shí)驗(yàn)推進(jìn)到更接近性能上限的設(shè)置時(shí),這種趨勢依然存在。即使原方法已經(jīng)達(dá)到 FID 1.42 這樣的水平,引入 C2FG  后仍然可以進(jìn)一步降低到 1.41,這種微小但穩(wěn)定的改進(jìn)說明,隨著模型不斷逼近極限,誤差來源越來越集中在機(jī)制層面,而不是網(wǎng)絡(luò)本身。

類似的現(xiàn)象也出現(xiàn)在更復(fù)雜的高分辨率任務(wù)中,在 512 × 512 設(shè)置下,原方法的 FID 為 6.81,而 C2FG  可以降低到 6.54,同時(shí) IS 從 229.5 提升到 280.9,這表明在更困難的生成條件下,方法依然能夠改善圖像結(jié)構(gòu)和整體清晰度,而不是只在簡單場景中有效。

研究團(tuán)隊(duì)還將驗(yàn)證擴(kuò)展到不同類型的任務(wù)中。在文本生成圖像任務(wù)中,雖然整體提升幅度不如 ImageNet 明顯,但趨勢保持一致,例如 U-ViT 的 FID 從 5.37 下降到 5.28,Stable Diffusion 的 CLIP 分?jǐn)?shù)從 31.8 提升到 31.9,這說明這種方法不僅適用于類別條件,還對文本條件同樣有效,只是在更復(fù)雜語義約束下改進(jìn)幅度會(huì)相對溫和。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

進(jìn)一步在像素空間任務(wù)中,原模型已經(jīng)可以達(dá)到 FID 1.58,在強(qiáng) baseline 的幫助下下降到 1.04,而加入 C2FG  后仍然可以繼續(xù)降低到 1.03,這種在接近極限區(qū)域仍然存在的改進(jìn),直接說明誤差并不是來自模型表達(dá)能力,而是來自 guidance 的使用方式。雷峰網(wǎng)

從更貼近實(shí)際應(yīng)用的角度來看,研究人員還分析了推理步數(shù)減少時(shí)的表現(xiàn)。在 50 步和 20 步這兩種設(shè)置中,F(xiàn)ID 都出現(xiàn)了穩(wěn)定下降,并且在 20 步這種更極端的低計(jì)算預(yù)算下,提升反而更加明顯。這意味著,當(dāng)每一步的決策變得更加關(guān)鍵時(shí),動(dòng)態(tài) guidance 的優(yōu)勢會(huì)被放大。

最后,通過一個(gè)簡單的二維 toy 實(shí)驗(yàn),研究團(tuán)隊(duì)展示了更直觀的現(xiàn)象,傳統(tǒng)方法會(huì)產(chǎn)生明顯偏離目標(biāo)分布的異常樣本,而 C2FG  基本不會(huì)出現(xiàn)這類 outliers,生成分布也更貼近真實(shí)分布,這進(jìn)一步說明改進(jìn)不僅體現(xiàn)在視覺效果上,更體現(xiàn)在整體概率分布的正確性上。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

基于逐層驗(yàn)證的實(shí)驗(yàn)設(shè)計(jì)框架

在實(shí)驗(yàn)經(jīng)過的安排上,研究團(tuán)隊(duì)之所以設(shè)計(jì)這么多層次的實(shí)驗(yàn),并不只是為了說明 C2FG  比原來的方法更好,而是希望進(jìn)一步回答一個(gè)更核心的問題,也就是這種方法為什么會(huì)更好。

圍繞這個(gè)目標(biāo),研究人員搭建了一個(gè)逐層推進(jìn)的驗(yàn)證體系。第一層是機(jī)制驗(yàn)證,重點(diǎn)去測條件分支和無條件分支之間的差異,結(jié)果發(fā)現(xiàn)這種差異并不是固定不變的,而是會(huì)隨著時(shí)間不斷變化。

第二層是分布驗(yàn)證,也就是通過 toy 實(shí)驗(yàn)去觀察生成結(jié)果是否更接近真實(shí)分布,從而判斷改進(jìn)究竟發(fā)生在視覺層面,還是已經(jīng)深入到分布層面。

第三層是性能驗(yàn)證,研究團(tuán)隊(duì)把方法放到 ImageNet 這種核心任務(wù)中,直接檢查各種指標(biāo)能否得到提升。第四層是泛化驗(yàn)證,在這一層里,研究人員主動(dòng)更換模型、更換任務(wù),也更換采樣方式,目的就是確認(rèn)這種改進(jìn)并不依賴某一種特定結(jié)構(gòu)或某一種實(shí)驗(yàn)條件。

第五層則是極限驗(yàn)證,專門去測試強(qiáng)模型和少步數(shù)這兩類更苛刻的情境,因?yàn)槿绻椒ㄔ谶@些設(shè)置下仍然有效,就更能說明它反映的是一種穩(wěn)定規(guī)律,而不是偶然現(xiàn)象。

這樣一層一層推進(jìn)之后,整個(gè)實(shí)驗(yàn)就形成了一條完整的證據(jù)鏈,最后支持的結(jié)論也就不再只是“效果更好”,而是“這種改進(jìn)背后確實(shí)存在可以重復(fù)驗(yàn)證的機(jī)制”。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

在這一系列實(shí)驗(yàn)中,最關(guān)鍵的觀察集中在 diffusion 過程不同階段的變化上。研究人員發(fā)現(xiàn),在早期階段,條件信息和無條件信息之間幾乎是接近的,二者差異很小,這意味著如果在這個(gè)時(shí)候仍然使用固定而且較強(qiáng)的 guidance,就容易出現(xiàn)引導(dǎo)過強(qiáng)的問題。

相反,到了后期階段,這種差異會(huì)迅速增大,也就是說模型越來越需要條件信息去把生成過程拉回到目標(biāo)分布附近,如果 guidance 依舊保持固定,就會(huì)顯得不夠,無法提供足夠的約束。

正是在這個(gè)意義上,研究團(tuán)隊(duì)提出的 C2FG  才顯得重要,因?yàn)樗淖饔貌皇呛唵蔚匕?guidance 變大或者變小,而是自動(dòng)匹配這種隨時(shí)間變化的差異,讓前期不過強(qiáng)、后期不不足,從而使整個(gè)生成過程更符合真實(shí)的 diffusion 動(dòng)態(tài)。

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

對 diffusion 本質(zhì)的修正

從實(shí)驗(yàn)意義來看,這項(xiàng)研究的重要性,不只是把幾個(gè)指標(biāo)繼續(xù)提高了一點(diǎn),而是說明研究團(tuán)隊(duì)發(fā)現(xiàn)了 diffusion 生成模型里一個(gè)更本質(zhì)的問題。

過去很多方法默認(rèn) guidance 在整個(gè)生成過程中都可以保持固定,但實(shí)驗(yàn)結(jié)果表明,問題并不只是參數(shù)怎么調(diào),而是這種固定做法本身就不符合生成過程的實(shí)際變化。

因?yàn)檠芯咳藛T在不同任務(wù)、不同模型和不同設(shè)置下都觀察到了穩(wěn)定提升,所以可以說明,C2FG  修正的不是某一種局部技巧,而是條件信息參與生成時(shí)普遍存在的偏差。這也意味著,研究真正推進(jìn)的,不只是一個(gè)新方法,而是一種對生成機(jī)制更準(zhǔn)確的理解。

這種意義在強(qiáng)模型上的表現(xiàn)尤其有說服力。像從 1.80 降到 1.51 這樣的提升,如果放在普通模型上已經(jīng)很明顯,而出現(xiàn)在本來就接近極限的強(qiáng)模型上,就更能說明剩余誤差主要不是模型能力不夠,而是 guidance 的作用方式還不夠合理。

換句話說,研究團(tuán)隊(duì)證明了,未來提升生成模型的效果,并不一定只能依賴更大的模型、更多的數(shù)據(jù)或更長的訓(xùn)練時(shí)間,也可以來自對生成過程中引導(dǎo)機(jī)制的重新設(shè)計(jì)。

少步數(shù)實(shí)驗(yàn)的意義則更貼近日常應(yīng)用。研究人員發(fā)現(xiàn),步數(shù)越少,C2FG  的優(yōu)勢越明顯,這說明在計(jì)算資源有限的時(shí)候,固定 guidance 帶來的誤差會(huì)被放大,而動(dòng)態(tài) guidance 更能減少這種問題。

對普通人來說,這種改進(jìn)最終可能體現(xiàn)在更直接的使用體驗(yàn)上,比如生成速度更快,等待時(shí)間更短,對設(shè)備性能的要求更低,同時(shí)生成結(jié)果也更穩(wěn)定,不容易出現(xiàn)模糊、跑偏或者細(xì)節(jié)崩壞。

toy 實(shí)驗(yàn)進(jìn)一步說明,C2FG  改善的也不只是圖像表面的清晰度,而是讓生成結(jié)果在整體分布上更接近真實(shí)目標(biāo),這意味著普通用戶在使用生成工具時(shí),更容易一次得到自然、合理、符合需求的結(jié)果,而不必反復(fù)修改和重試。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

再往深一點(diǎn)看,這項(xiàng)研究的價(jià)值還在于,它讓生成模型的發(fā)展方向變得更清楚了。研究團(tuán)隊(duì)最核心的貢獻(xiàn),不只是把 guidance 從常數(shù)改成時(shí)間函數(shù),而是用系統(tǒng)實(shí)驗(yàn)說明,生成過程中的條件引導(dǎo)本來就應(yīng)該隨著時(shí)間變化。

這個(gè)結(jié)論不僅能幫助后續(xù)研究找到更合理的設(shè)計(jì)思路,也有機(jī)會(huì)讓現(xiàn)有生成系統(tǒng)以比較低的成本得到升級。最后落實(shí)到普通人身上,就是未來的圖像生成工具有可能變得更快、更穩(wěn),也更容易普及。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

上交大 x vivo 團(tuán)隊(duì):一個(gè)簡單改動(dòng),讓 diffusion 全面提升丨CVPR 2026

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說