北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

本文作者：鄭佳美

2026-02-26 20:45

專題：ICLR 2019

導(dǎo)語：DistDF：從點對點誤差轉(zhuǎn)向聯(lián)合分布對齊，重構(gòu)時間序列預(yù)測的損失函數(shù)。

在時間序列預(yù)測研究中，一個耐人尋味的現(xiàn)象長期存在：

一方面，模型結(jié)構(gòu)不斷演進，從循環(huán)網(wǎng)絡(luò)到 Transformer，再到頻域與混合結(jié)構(gòu)；另一方面，幾乎所有方法在訓(xùn)練階段依賴同一類損失函數(shù)，即以均方誤差（MSE）為代表的點對點誤差。

這使得時間序列預(yù)測在方法論層面呈現(xiàn)出一種隱性的停滯，即研究重心持續(xù)向模型表達能力傾斜，而對損失函數(shù)所隱含的統(tǒng)計假設(shè)缺乏系統(tǒng)反思。

點對點誤差的核心假設(shè)在于，標簽序列中的各時間步可被視為給定歷史條件下相互獨立的預(yù)測對象。然而，這一假設(shè)與時間序列數(shù)據(jù)的生成機制之間始終存在張力。

真實世界中的時間序列由隨機過程演化而來，不同時間點之間存在顯著的相關(guān)關(guān)系。將多步預(yù)測問題拆解為一組獨立的回歸任務(wù)，不可避免地為損失函數(shù)引入了結(jié)構(gòu)性偏差，使模型難以學(xué)習(xí)標簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。

針對這一問題，北京大學(xué)林宙辰團隊深入剖析了此類結(jié)構(gòu)性偏差的成因。在此基礎(chǔ)上，團隊提出了 DistDF：一種通過聯(lián)合分布對齊訓(xùn)練預(yù)測模型的損失函數(shù)。DistDF 的提出不僅為時間序列預(yù)測提供了一種新的損失函數(shù)設(shè)計思路，也在更一般的意義上，對序列建模中“應(yīng)當優(yōu)化什么”這一長期被默認的問題給出了新的回答。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

論文地址：https://arxiv.org/pdf/2510.24574v1

當獨立性假設(shè)被實驗證偽之后

當前時間序列預(yù)測領(lǐng)域的主流方法普遍采用逐時間點的均方誤差（MSE）作為損失函數(shù)：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

$$\mathcal{L}_\mathrm{MSE}$$隱式地做了獨立性假設(shè)：在給定歷史序列的條件下，標簽序列各時間點的觀測相互獨立。然而，真實時間序列存在顯著的標簽自相關(guān)：標簽序列各時間點的觀測往往存在顯著的相關(guān)性。因此，$$\mathcal{L}_\mathrm{MSE}$$的獨立性假設(shè)與時間序列數(shù)據(jù)的生成機制相悖，導(dǎo)致其作為損失函數(shù)是有偏的（具體見定理1）。

[定理1] 考慮單變量標簽序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$，其條件自相關(guān)矩陣為$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$，則標簽序列的實用負對數(shù)似然可表示為：$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。顯然，僅當$$\mathbf{\Sigma}_\mathbf{x}$$是單位陣，即標簽自相關(guān)不存在時，才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

研究團隊通過實證分析驗證了這一矛盾：在給定歷史序列$$\mathbf{x}$$的條件下，標簽序列仍呈現(xiàn)顯著的條件相關(guān)結(jié)構(gòu)，從而在實證意義上證偽了獨立性假設(shè)。實驗進一步表明，即使采用頻域變換或主成分分解等標簽變換方法，變換后的標簽序列依然存在殘余相關(guān)性；因此，在變換后的標簽應(yīng)用均方誤差作為損失函數(shù)仍會導(dǎo)致結(jié)構(gòu)性偏差。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

DistDF：基于分布對齊的時間序列損失函數(shù)

為規(guī)避傳統(tǒng)方法中的獨立性假設(shè)，DistDF 提出直接對齊預(yù)測序列的條件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$與真實標簽的條件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直觀上，該目標可通過最小化兩個條件分布間的距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$來實現(xiàn)。

然而，直接將其作為損失函數(shù)面臨嚴重的樣本稀缺問題。對于給定的歷史序列$$\mathbf{x}$$，時間序列數(shù)據(jù)集通常僅包含唯一的標簽序列$$\mathbf{y}$$，模型也僅產(chǎn)生單一預(yù)測$$\hat{\mathbf{y}}$$。這種“單樣本”情形導(dǎo)致直接估計條件分布距離$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$在統(tǒng)計上不可靠。

為解決這一難題，我們利用概率恒等式$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。因為邊緣分布$$\mathbb{P}(\mathbf{x})$$是共享的，若聯(lián)合分布對齊，則條件分布必然對齊?；诖?，我們將條件分布匹配問題轉(zhuǎn)化為聯(lián)合分布匹配問題。

進一步結(jié)合最優(yōu)傳輸理論，本文證明了聯(lián)合分布的 Wasserstein 距離構(gòu)成了條件分布 Wasserstein 距離期望的上界：

$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

因此，通過最小化歷史-預(yù)測聯(lián)合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$與歷史-標簽聯(lián)合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之間的 Wasserstein 距離，可有效實現(xiàn)條件分布對齊，進一步實現(xiàn)預(yù)測模型的無偏訓(xùn)練。同時，這一轉(zhuǎn)換允許利用整個數(shù)據(jù)集的樣本來估計聯(lián)合分布距離，顯著提升了分布距離估計的可靠性。雷峰網(wǎng)

DistDF 的實現(xiàn)流程如下：

首先，構(gòu)造聯(lián)合序列：$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$；

接著，計算兩個聯(lián)合序列之間的Wasserstein距離：$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$，

最后，與 MSE 損失加權(quán)融合：$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

DistDF 作為模型無關(guān)的損失函數(shù)，可適配各類預(yù)測模型架構(gòu)。

在大量實驗中，一致驗證優(yōu)勢

論文首先將DistDF與現(xiàn)有損失函數(shù)進行了比較，包括通過標簽變換削弱標簽相關(guān)性的 FreDF 和 Time-o1。結(jié)果表明，這些方法雖然減少了似然估計的偏差并提升了性能，但殘差偏差仍然存在，因此性能仍有改進空間。而DistDF通過最小化條件分布之間的距離，實現(xiàn)了預(yù)測模型的無偏訓(xùn)練，取得了最佳的預(yù)測性能。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

其次，論文通過消融實驗對兩個關(guān)鍵因素進行了驗證；分別考察在DF的基礎(chǔ)上，僅對齊均值、僅對齊協(xié)方差以及同時對齊二者的情形。結(jié)果表明，兩種因素單獨對齊時均能帶來性能提升，而二者同時對齊時效果最為顯著。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

接著，論文也對模型輸出的預(yù)測序列進行了可視化分析。結(jié)果表明，采用 DistDF 訓(xùn)練的模型能夠較好地跟隨序列中的突發(fā)變化，使得預(yù)測序列在整體形態(tài)上更加接近真實數(shù)據(jù)。這進一步表明，DistDF 的作用不僅體現(xiàn)在降低數(shù)值誤差上，更重要的是在訓(xùn)練過程中引導(dǎo)模型學(xué)習(xí)到了真實未來時間序列的整體分布形態(tài)。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

最后，論文對DistDF與不同預(yù)測模型的兼容性進行了驗證。結(jié)果表明，無論模型本身的復(fù)雜度和建模方式如何，引入 DistDF 訓(xùn)練策略后，模型預(yù)測性能幾乎都能夠獲得進一步提升。這一結(jié)果表明，DistDF 的作用并非彌補模型結(jié)構(gòu)本身的不足，而是提供了更好的訓(xùn)練信號。

「多任務(wù)學(xué)習(xí)」需要分布對齊

整體來看，這項研究重新審視了多任務(wù)學(xué)習(xí)場景中的損失函數(shù)設(shè)計。研究團隊強調(diào)：多任務(wù)學(xué)習(xí)的核心目標不應(yīng)局限于對 T個標簽的逐點建模，而應(yīng)轉(zhuǎn)向?qū)σ粋€在任務(wù)維度上具有內(nèi)在相關(guān)結(jié)構(gòu)的隨機過程進行整體建模。

在這一視角下，傳統(tǒng)損失函數(shù)（如MSE）隱含了“給定輸入條件下各任務(wù)標簽相互獨立”的假設(shè)，從而將一個高維、相關(guān)的隨機過程建模任務(wù)退化為一組彼此獨立的標量回歸任務(wù)。因該假設(shè)忽略了標簽序列的內(nèi)生結(jié)構(gòu)，這些損失函數(shù)往往是有偏的。

DistDF 通過將預(yù)測序列與真實標簽建模為概率分布，實現(xiàn)對任務(wù)維度上相關(guān)結(jié)構(gòu)的整體建模。通過優(yōu)化基于分布對齊的損失函數(shù)，模型能夠顯式學(xué)習(xí)標簽序列的整體形態(tài)、相關(guān)結(jié)構(gòu)以及條件依賴關(guān)系。

進一步看，該研究揭示的問題具有廣泛的普適性。只要學(xué)習(xí)任務(wù)的輸出構(gòu)成具有顯著相關(guān)性的序列（如語音、圖像、文本或用戶行為），若仍沿用基于獨立性假設(shè)的損失函數(shù)（如 MSE），則必然會引入結(jié)構(gòu)性偏差。因此，DistDF 所倡導(dǎo)的聯(lián)合分布對齊思想，不僅適用于時間序列預(yù)測，也同樣適用于語音合成、軌跡預(yù)測等任務(wù)。它并非針對時間序列任務(wù)的特定技巧，而是為多任務(wù)學(xué)習(xí)問題提供了一種更為通用的損失函數(shù)構(gòu)造范式。

作者信息

論文第一作者王浩，現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生，研究方向聚焦于因果推斷、多任務(wù)學(xué)習(xí)技術(shù)及其在大語言模型中的應(yīng)用。2022 年- 2023 年，他曾在螞蟻金服、微軟亞洲研究院科研實習(xí)，從事推薦系統(tǒng)理論研究。2025 年起，他在小紅書參加 RedStar 實習(xí)項目，進行大語言模型、可信獎勵模型領(lǐng)域的研究工作。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026

論文通訊作者林宙辰，現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國重點實驗室教授。他的研究領(lǐng)域包括機器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇，谷歌學(xué)術(shù)引用超過42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會士，多次擔任CVPR、NeurIPS、ICML等會議的Senior Area Chair，現(xiàn)任ICML Board Member。

北大林宙辰團隊：從最優(yōu)傳輸角度訓(xùn)練時序預(yù)測模型丨ICLR 2026