貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎？Twitter、Reddit雙戰(zhàn)場辯論，火藥味十足！

本文作者：蔣寶尚

2020-01-19 15:49

導(dǎo)語：道理，不辨析不明朗；學(xué)問，不爭論不清晰

作者 | 雷鋒網(wǎng) AI 科技評論

編輯 | 雷鋒網(wǎng) Camel

最近Twitter、Reddit上有一股爭論的熱潮涌動，先是有 Fran?ois Chollet 、Yann LeCun 等人隔空辨析「到底什么是深度學(xué)習(xí)」，后是有一大批研究者爭論「貝葉斯神經(jīng)網(wǎng)絡(luò)到底有沒有意義」。新的一年，火藥味十足，這是否也意味著深度學(xué)習(xí)的研究正進(jìn)入一個混亂的時期？道理，不辨析不明朗；學(xué)問，不爭論不清晰。

所謂貝葉斯神經(jīng)網(wǎng)絡(luò)，簡單來說便是將一般神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置由確定的數(shù)值變?yōu)橐粋€分布。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎？Twitter、Reddit雙戰(zhàn)場辯論，火藥味十足！

按照一般理解，這種將參數(shù)以概率分布的形式表示，可以為網(wǎng)絡(luò)推理提供不確定性估計；此外，通過使用先驗(yàn)概率分布的形式來表示參數(shù)，訓(xùn)練期間在許多模型上計算平均值，可以給網(wǎng)絡(luò)提供正則化效果，從而防止過度擬合。然后，在大約一個月前，OpenAI 研究員Carles Gelada發(fā)布了一個系列Twitter：

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎？Twitter、Reddit雙戰(zhàn)場辯論，火藥味十足！

他指出，或許貝葉斯神經(jīng)網(wǎng)絡(luò)并沒有多大用處。大致觀點(diǎn)為：1）只有當(dāng)具有合理的參數(shù)先驗(yàn)時，我們才會去使用貝葉斯規(guī)則，但沒有人知道先驗(yàn)對神經(jīng)網(wǎng)絡(luò)權(quán)重的編碼會是什么，那么為什么我們還要使用這種先驗(yàn)?zāi)兀?）許多正則化都可以用貝葉斯解釋，但事實(shí)上每個人都能夠?qū)φ齽t化給出一個解釋。那么我們用貝葉斯理論來解釋正則化，有什么意義呢？3）或許有人會說BNNs可以讓我們直接用經(jīng)驗(yàn)來找到正則化。但誰來保證BNNs找到的這種正則化空間就是最優(yōu)的呢？4）BNNs可以用在貝葉斯元學(xué)習(xí)框架當(dāng)中。但沒有理由相信這種應(yīng)用會比其他元學(xué)習(xí)框架更好。針對Carles提出的這些反對意見，在Twitter上迅速吸引了大批的研究人員加入討論。多數(shù)引經(jīng)據(jù)典，從歷史發(fā)展、當(dāng)前研究、實(shí)踐經(jīng)驗(yàn)等各種角度進(jìn)行辯論，或贊同，或反對，不一而足。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎？Twitter、Reddit雙戰(zhàn)場辯論，火藥味十足！

一、貝葉斯神經(jīng)網(wǎng)絡(luò)有用嗎？

為了更加明晰“貝葉斯網(wǎng)絡(luò)沒啥用”的立場，近期Carles Gelada 和 Jacob Buckman重新梳理了他們的思路，專門寫了一篇博客，從貝葉斯網(wǎng)絡(luò)的原理入手，詳細(xì)闡述了“BNNs需要先驗(yàn)信息豐富的先驗(yàn)知識才能處理不確定性”的觀點(diǎn)，并指出泛化的代價不容忽視。

1、貝葉斯神經(jīng)網(wǎng)絡(luò)具有不確定性的原因：泛化不可知先驗(yàn)

為了說明先驗(yàn)在貝葉斯網(wǎng)絡(luò)中的重要意義，Buckman在博客中引入了泛化不可知先驗(yàn)（generalization-agnostic priors），用這種“不可知的先驗(yàn)”進(jìn)行貝葉斯推理并不能減少模型的不確定性。Carles和Buckman認(rèn)為，要想在深度學(xué)習(xí)中使用貝葉斯框架，只有讓先驗(yàn)與神經(jīng)網(wǎng)絡(luò)的泛化特性相聯(lián)系，才能達(dá)到好的效果，方法是給泛化能力良好的函數(shù)以更高的概率。但是目前學(xué)術(shù)界還沒有足夠的能力（作者猜測）來證明哪種先驗(yàn)的情況能夠滿足條件。另外，Buckman在博客中作者舉了一個具體的例子：當(dāng)一個數(shù)據(jù)集C

里面包含兩種數(shù)據(jù)對：一種是給定輸入，輸出正確；另一種是給定輸入，輸出錯誤。訓(xùn)練神經(jīng)網(wǎng)絡(luò)所得到的參數(shù) $\theta$ 必須讓神經(jīng)網(wǎng)絡(luò)既能夠表達(dá)正確輸出，也能夠表達(dá)錯誤的輸出。即使模型在數(shù)據(jù)集上訓(xùn)練后，能夠得到條件概率p(f|c)=1，但在測試集上模型也可能表現(xiàn)很差。另外，定義一種先驗(yàn)概率Q，可以讓 Q(f*)=Q(fθ)這意味著如果泛化良好的函數(shù)與泛化不好的函數(shù)得到的分配概率是相同的。但這種先驗(yàn)是有問題的：由于f*和fθ的數(shù)據(jù)的可能性為1，并且由于先驗(yàn)概率相似，這意味著后驗(yàn)概率也是相似的（如下公式）。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎？Twitter、Reddit雙戰(zhàn)場辯論，火藥味十足！

注：實(shí)際上對于某些數(shù)據(jù)，fθ可以產(chǎn)生錯誤的輸出，即Q(f*)不等于Q(fθ)

綜上，Carles和Buckman認(rèn)為在泛化不可知的先驗(yàn)條件下，無論數(shù)據(jù)集如何，都無法降低模型的不確定性。即貝葉斯神經(jīng)網(wǎng)絡(luò)起作用的關(guān)鍵因素是：先驗(yàn)?zāi)軌騾^(qū)分泛化良好的函數(shù)和泛化不好的函數(shù)。

2、當(dāng)前貝葉斯網(wǎng)絡(luò)的泛化能力不可知

在構(gòu)建貝葉斯神經(jīng)網(wǎng)絡(luò)時，大家的共識是用比較簡單的概率先驗(yàn)，即假設(shè)參數(shù)服從獨(dú)立的高斯分布。但是高斯先驗(yàn)顯然會導(dǎo)致結(jié)構(gòu)先驗(yàn)，而這些先驗(yàn)并無泛化能力，原因有兩點(diǎn)：1.高斯先驗(yàn)平滑分配概率。2.在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候，無論數(shù)據(jù)集如何，最合理的策略似乎是給不同的泛化函數(shù)以相同的權(quán)重。還有一點(diǎn)是計算問題也不容忽視，實(shí)際上如何對貝葉斯推理q(F|D)進(jìn)行計算可能是貝葉斯神經(jīng)網(wǎng)絡(luò)（具有先驗(yàn)泛化不可知）能夠有合理效果的關(guān)鍵因素。

3、理性批判BNNs

Carles和Buckman也在博客中表示上面的理由有猜測的成分，因?yàn)闊o法得知何種因素決定神經(jīng)網(wǎng)絡(luò)泛化能力，所以定義執(zhí)行貝葉斯推理的先驗(yàn)具有不確定性。貝葉斯神經(jīng)網(wǎng)絡(luò)只是一個神經(jīng)網(wǎng)絡(luò)，先驗(yàn)只是里面的一個超參數(shù)。Carles和Buckman認(rèn)為當(dāng)前在網(wǎng)絡(luò)中加入貝葉斯不會帶來任何好處，只有當(dāng)能夠找到一個好的先驗(yàn)，并且能夠驗(yàn)證推理的準(zhǔn)確性才能有所幫助。另外，他們還提到：作為一個領(lǐng)域，先驗(yàn)在貝葉斯框架里扮演著重要的角色，這一點(diǎn)毋容置疑，所以對于貝葉斯網(wǎng)絡(luò)需要理性的批判，不能讓“不具信息性的先驗(yàn)在不確定性下表現(xiàn)良好”（uninformative priors are good under uncertainty）這種無腦觀點(diǎn)所左右。

二、反駁與批評：Twitter、Reddit雙戰(zhàn)場

這篇博客同步發(fā)在了推特和 Reddit 上，自然也就在兩個平臺上都引來了反駁的聲音。

1、Twitter 戰(zhàn)場：存在技術(shù)錯誤

在Twitter上，紐約大學(xué)數(shù)學(xué)和數(shù)據(jù)科學(xué)教授Andrew Gordon Wilson就表示他們的觀點(diǎn)存在錯誤：這篇博客中存在錯誤。

1，如果數(shù)據(jù)是來自我們想要擬合的分布的，那么隨著我們使用的數(shù)據(jù)的規(guī)模增大，似然性會收縮到那個“好的函數(shù)”上，因?yàn)椴缓玫暮瘮?shù)會越來越少出現(xiàn)，這也和我們的觀測值一致。

2，能擬合噪聲的模型并沒有什么出奇之處，而且也和“存在歸納偏倚，更傾向于選擇有噪聲的解”是兩碼事。在函數(shù)上簡單增加一個標(biāo)準(zhǔn)的GP-RBF先驗(yàn)就可以支持噪聲了，但它仍然更善于建模有結(jié)構(gòu)的解。

3，對于通常會使用神經(jīng)網(wǎng)絡(luò)來解決的問題，好的解的數(shù)量通常都會比不好的解的數(shù)量更多。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中就含有幫助帶來更好的泛化性的歸納偏倚。神經(jīng)網(wǎng)絡(luò)函數(shù)“與泛化性無關(guān)”的說法有點(diǎn)不負(fù)責(zé)任。

4，實(shí)際上，想要在函數(shù)空間創(chuàng)造許多不同的“泛化性無關(guān)”的先驗(yàn)是很簡單的事，而它們的行為會和神經(jīng)網(wǎng)絡(luò)非常不同。它們可以由平凡的結(jié)構(gòu)組成，而且也肯定不會具有任何泛化能力。

5，缺少理想的后驗(yàn)收縮會在這么幾種情況下發(fā)生:

假想空間中并不包含好的解；
先驗(yàn)對某個壞的解太過自信（比如給任意的 x 都分配同一個標(biāo)簽 p）。

但神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的表達(dá)能力，這里的b情況根本就和“有模糊的權(quán)重先驗(yàn)”完全相反！除了技術(shù)討論之外，我建議兩位可以多提問、多學(xué)習(xí)，以及對貝葉斯深度學(xué)習(xí)抱有開放的心態(tài)。

也許是你們的“貝葉斯神經(jīng)網(wǎng)絡(luò)不合理”的先驗(yàn)太強(qiáng)了才覺得理解不了（微笑）。

Carles Gelada 對這份質(zhì)疑的回應(yīng)是：

如果情況是像你說的這樣，那么證明這件事是貝葉斯支持的責(zé)任（而不是我們質(zhì)疑者的），尤其是當(dāng)他們聲稱模型可以提供好的不確定性的時候。實(shí)際上我們提出質(zhì)疑的理由就是，每個初始值附近都同時有好的和壞的泛化函數(shù)，那么他們聲稱的東西也就值得懷疑了。

另外，關(guān)于“擬合損壞的樣本”的討論不應(yīng)該和“擬合噪聲”混為一談。我們在討論中假設(shè)了分類任務(wù)中不存在噪聲，但即便是有噪聲的分類任務(wù)，我們的觀點(diǎn)也是成立的。用簡單的測試就可以說明目前使用的先驗(yàn)不是泛化無關(guān)的：訓(xùn)練一個好的函數(shù)、訓(xùn)練一個壞的函數(shù)，然后看看先驗(yàn)是否會給好的函數(shù)更高的概率。我懷疑狀況不是這樣的，但這里需要貝葉斯的支持者向我證明他們的先驗(yàn)是好的。

2、Reddit 回帖：水平不足+雙重標(biāo)準(zhǔn)

Reddit上網(wǎng)友們的回應(yīng)更激烈、更情緒性一些，甚至得到最多贊同意見的帖子就含有辛辣的批評和嘲諷。

adversary_argument：

由于博客作者們對貝葉斯推理中的真正的先驗(yàn)缺乏了解，所以我覺得這個討論很沒意思，甚至有一股雙重標(biāo)準(zhǔn)的味道。

全體深度學(xué)習(xí)研究人員（以及作者們自己）都已經(jīng)接受了神經(jīng)網(wǎng)絡(luò)的大規(guī)模使用，即便我們還沒有找到明確的泛化邊界，也對神經(jīng)網(wǎng)絡(luò)的理論理解甚少。但是既然神經(jīng)網(wǎng)絡(luò)運(yùn)行起來令人滿意，這些問題就一股腦地被視而不見 —— 神經(jīng)網(wǎng)絡(luò)就是好的、正義的。然而，現(xiàn)在作者們要求貝葉斯神經(jīng)網(wǎng)絡(luò)必須在先驗(yàn)方面提供很強(qiáng)的理論保證，雖然他們同時也承認(rèn)貝葉斯神經(jīng)網(wǎng)絡(luò)是有效的…… emmm，你們覺得這像不像賊喊捉賊？

做深度學(xué)習(xí)的人挺能散布負(fù)面言論的啊……尤其是，我覺得他們的討論方式，針對某個任意的、損壞的測試集 C 的討論，只不過是在攻擊他們自己造出來的一個靶子而已。

我解釋給你們看看：他們沒有給出被損壞的數(shù)據(jù)的數(shù)量，但是他們就聲稱 f_theta 肯定在 D_test 上會有糟糕的表現(xiàn)？他們的依據(jù)是什么？那比如 D 是一百萬個好的數(shù)據(jù)點(diǎn)組成的數(shù)據(jù)集，C 是 D 加上一個損壞的數(shù)據(jù)點(diǎn)，所以按照他們的理論，D_test 上的測試誤差肯定會特別糟糕？

他們洋洋灑灑了一大堆，最后只證明了損壞訓(xùn)練數(shù)據(jù)會降低貝葉斯神經(jīng)網(wǎng)絡(luò)的測試準(zhǔn)確率而已…… 呃…… 所以這有什么好奇怪的嗎……

博客作者回應(yīng)：

可能我們在博客里寫得不夠清楚。我們考慮含有損壞數(shù)據(jù)的數(shù)據(jù)集，不是為了說明只要有損壞數(shù)據(jù)就會有糟糕的預(yù)測表現(xiàn)（尤其對于一百萬比一這種情況），而是想說明有損壞數(shù)據(jù)的、神經(jīng)網(wǎng)絡(luò)擬合之后會有糟糕的泛化表現(xiàn)的數(shù)據(jù)集是存在的。我們是為了說明存在性。如果先驗(yàn)對這樣的網(wǎng)絡(luò)分配很高的概率，那么貝葉斯推理就沒有什么好處。我們的博客也不是為了表達(dá)貝葉斯神經(jīng)網(wǎng)絡(luò)沒用，而是想表示“如果沒有好的先驗(yàn)，貝葉斯神經(jīng)網(wǎng)絡(luò)就無法帶來好的不確定性估計”，“關(guān)于非信息性的先驗(yàn)的標(biāo)準(zhǔn)討論方式是有問題的”，以及“想要有好的不確定性估計，我們需要先理解神經(jīng)網(wǎng)絡(luò)的泛化性”。除此之外，其它多篇Reddit 的網(wǎng)友回帖也認(rèn)為原博客兩人的討論態(tài)度有問題，立場很難稱得上是“冷靜看待”，有些簡單的實(shí)驗(yàn)也完全可以自己先嘗試。

雷鋒網(wǎng)報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。