0
| 本文作者: 鄭佳美 | 2026-02-26 20:45 | 專題:ICLR 2019 |
在時間序列預(yù)測研究中,一個耐人尋味的現(xiàn)象長期存在:
一方面,模型結(jié)構(gòu)不斷演進,從循環(huán)網(wǎng)絡(luò)到 Transformer,再到頻域與混合結(jié)構(gòu);另一方面,幾乎所有方法在訓(xùn)練階段依賴同一類損失函數(shù),即以均方誤差(MSE)為代表的點對點誤差。
這使得時間序列預(yù)測在方法論層面呈現(xiàn)出一種隱性的停滯,即研究重心持續(xù)向模型表達能力傾斜,而對損失函數(shù)所隱含的統(tǒng)計假設(shè)缺乏系統(tǒng)反思。
點對點誤差的核心假設(shè)在于,標簽序列中的各時間步可被視為給定歷史條件下相互獨立的預(yù)測對象。然而,這一假設(shè)與時間序列數(shù)據(jù)的生成機制之間始終存在張力。
真實世界中的時間序列由隨機過程演化而來,不同時間點之間存在顯著的相關(guān)關(guān)系。將多步預(yù)測問題拆解為一組獨立的回歸任務(wù),不可避免地為損失函數(shù)引入了結(jié)構(gòu)性偏差,使模型難以學(xué)習(xí)標簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。
針對這一問題,北京大學(xué)林宙辰團隊深入剖析了此類結(jié)構(gòu)性偏差的成因。在此基礎(chǔ)上,團隊提出了 DistDF:一種通過聯(lián)合分布對齊訓(xùn)練預(yù)測模型的損失函數(shù)。DistDF 的提出不僅為時間序列預(yù)測提供了一種新的損失函數(shù)設(shè)計思路,也在更一般的意義上,對序列建模中“應(yīng)當優(yōu)化什么”這一長期被默認的問題給出了新的回答。

論文地址:https://arxiv.org/pdf/2510.24574v1
當前時間序列預(yù)測領(lǐng)域的主流方法普遍采用逐時間點的均方誤差(MSE)作為損失函數(shù):
$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$
$$\mathcal{L}_\mathrm{MSE}$$隱式地做了獨立性假設(shè):在給定歷史序列的條件下,標簽序列各時間點的觀測相互獨立。然而,真實時間序列存在顯著的標簽自相關(guān):標簽序列各時間點的觀測往往存在顯著的相關(guān)性。因此,$$\mathcal{L}_\mathrm{MSE}$$的獨立性假設(shè)與時間序列數(shù)據(jù)的生成機制相悖,導(dǎo)致其作為損失函數(shù)是有偏的(具體見定理1)。
[定理1] 考慮單變量標簽序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$,其條件自相關(guān)矩陣為$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$,則標簽序列的實用負對數(shù)似然可表示為:$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。顯然,僅當$$\mathbf{\Sigma}_\mathbf{x}$$是單位陣,即標簽自相關(guān)不存在時,才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。
研究團隊通過實證分析驗證了這一矛盾:在給定歷史序列$$\mathbf{x}$$的條件下,標簽序列仍呈現(xiàn)顯著的條件相關(guān)結(jié)構(gòu),從而在實證意義上證偽了獨立性假設(shè)。實驗進一步表明,即使采用頻域變換或主成分分解等標簽變換方法,變換后的標簽序列依然存在殘余相關(guān)性;因此,在變換后的標簽應(yīng)用均方誤差作為損失函數(shù)仍會導(dǎo)致結(jié)構(gòu)性偏差。

為規(guī)避傳統(tǒng)方法中的獨立性假設(shè),DistDF 提出直接對齊預(yù)測序列的條件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$與真實標簽的條件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直觀上,該目標可通過最小化兩個條件分布間的距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$來實現(xiàn)。
然而,直接將其作為損失函數(shù)面臨嚴重的樣本稀缺問題。對于給定的歷史序列$$\mathbf{x}$$,時間序列數(shù)據(jù)集通常僅包含唯一的標簽序列$$\mathbf{y}$$,模型也僅產(chǎn)生單一預(yù)測$$\hat{\mathbf{y}}$$。這種“單樣本”情形導(dǎo)致直接估計條件分布距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$在統(tǒng)計上不可靠。
為解決這一難題,我們利用概率恒等式$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。因為邊緣分布$$\mathbb{P}(\mathbf{x})$$是共享的,若聯(lián)合分布對齊,則條件分布必然對齊?;诖?,我們將條件分布匹配問題轉(zhuǎn)化為聯(lián)合分布匹配問題。
進一步結(jié)合最優(yōu)傳輸理論,本文證明了聯(lián)合分布的 Wasserstein 距離構(gòu)成了條件分布 Wasserstein 距離期望的上界:
$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$
因此,通過最小化歷史-預(yù)測聯(lián)合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$與歷史-標簽聯(lián)合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之間的 Wasserstein 距離,可有效實現(xiàn)條件分布對齊,進一步實現(xiàn)預(yù)測模型的無偏訓(xùn)練。同時,這一轉(zhuǎn)換允許利用整個數(shù)據(jù)集的樣本來估計聯(lián)合分布距離,顯著提升了分布距離估計的可靠性。雷峰網(wǎng)
DistDF 的實現(xiàn)流程如下:
首先,構(gòu)造聯(lián)合序列:$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$;
接著,計算兩個聯(lián)合序列之間的Wasserstein距離:$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$,
最后,與 MSE 損失加權(quán)融合:$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$
DistDF 作為模型無關(guān)的損失函數(shù),可適配各類預(yù)測模型架構(gòu)。
論文首先將DistDF與現(xiàn)有損失函數(shù)進行了比較,包括通過標簽變換削弱標簽相關(guān)性的 FreDF 和 Time-o1。結(jié)果表明,這些方法雖然減少了似然估計的偏差并提升了性能,但殘差偏差仍然存在,因此性能仍有改進空間。而DistDF通過最小化條件分布之間的距離,實現(xiàn)了預(yù)測模型的無偏訓(xùn)練,取得了最佳的預(yù)測性能。

其次,論文通過消融實驗對兩個關(guān)鍵因素進行了驗證;分別考察在DF的基礎(chǔ)上,僅對齊均值、僅對齊協(xié)方差以及同時對齊二者的情形。結(jié)果表明,兩種因素單獨對齊時均能帶來性能提升,而二者同時對齊時效果最為顯著。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

接著,論文也對模型輸出的預(yù)測序列進行了可視化分析。結(jié)果表明,采用 DistDF 訓(xùn)練的模型能夠較好地跟隨序列中的突發(fā)變化,使得預(yù)測序列在整體形態(tài)上更加接近真實數(shù)據(jù)。這進一步表明,DistDF 的作用不僅體現(xiàn)在降低數(shù)值誤差上,更重要的是在訓(xùn)練過程中引導(dǎo)模型學(xué)習(xí)到了真實未來時間序列的整體分布形態(tài)。

最后,論文對DistDF與不同預(yù)測模型的兼容性進行了驗證。結(jié)果表明,無論模型本身的復(fù)雜度和建模方式如何,引入 DistDF 訓(xùn)練策略后,模型預(yù)測性能幾乎都能夠獲得進一步提升。這一結(jié)果表明,DistDF 的作用并非彌補模型結(jié)構(gòu)本身的不足,而是提供了更好的訓(xùn)練信號。
整體來看,這項研究重新審視了多任務(wù)學(xué)習(xí)場景中的損失函數(shù)設(shè)計。研究團隊強調(diào):多任務(wù)學(xué)習(xí)的核心目標不應(yīng)局限于對 T個標簽的逐點建模,而應(yīng)轉(zhuǎn)向?qū)σ粋€在任務(wù)維度上具有內(nèi)在相關(guān)結(jié)構(gòu)的隨機過程進行整體建模。
在這一視角下,傳統(tǒng)損失函數(shù)(如MSE)隱含了“給定輸入條件下各任務(wù)標簽相互獨立”的假設(shè),從而將一個高維、相關(guān)的隨機過程建模任務(wù)退化為一組彼此獨立的標量回歸任務(wù)。因該假設(shè)忽略了標簽序列的內(nèi)生結(jié)構(gòu),這些損失函數(shù)往往是有偏的。
DistDF 通過將預(yù)測序列與真實標簽建模為概率分布,實現(xiàn)對任務(wù)維度上相關(guān)結(jié)構(gòu)的整體建模。通過優(yōu)化基于分布對齊的損失函數(shù),模型能夠顯式學(xué)習(xí)標簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。
進一步看,該研究揭示的問題具有廣泛的普適性。只要學(xué)習(xí)任務(wù)的輸出構(gòu)成具有顯著相關(guān)性的序列(如語音、圖像、文本或用戶行為),若仍沿用基于獨立性假設(shè)的損失函數(shù)(如 MSE),則必然會引入結(jié)構(gòu)性偏差。因此,DistDF 所倡導(dǎo)的聯(lián)合分布對齊思想,不僅適用于時間序列預(yù)測,也同樣適用于語音合成、軌跡預(yù)測等任務(wù)。它并非針對時間序列任務(wù)的特定技巧,而是為多任務(wù)學(xué)習(xí)問題提供了一種更為通用的損失函數(shù)構(gòu)造范式。
作者信息
論文第一作者王浩,現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生,研究方向聚焦于因果推斷、多任務(wù)學(xué)習(xí)技術(shù)及其在大語言模型中的應(yīng)用。2022 年- 2023 年,他曾在螞蟻金服、微軟亞洲研究院科研實習(xí),從事推薦系統(tǒng)理論研究。2025 年起,他在小紅書參加 RedStar 實習(xí)項目,進行大語言模型、可信獎勵模型領(lǐng)域的研究工作。

論文通訊作者林宙辰,現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國重點實驗室教授。他的研究領(lǐng)域包括機器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇,谷歌學(xué)術(shù)引用超過42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會士,多次擔任CVPR、NeurIPS、ICML等會議的Senior Area Chair,現(xiàn)任ICML Board Member。

參考鏈接:https://zhouchenlin.github.io/
本工作得到了北京市科學(xué)技術(shù)委員會、中關(guān)村科技園區(qū)管理委員會的大力支持,在此深表感謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章