日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

本文作者: 蔣寶尚 2020-01-19 15:49
導(dǎo)語:道理,不辨析不明朗;學(xué)問,不爭論不清晰

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

作者 | 雷鋒網(wǎng) AI 科技評論 

編輯 | 雷鋒網(wǎng) Camel

最近Twitter、Reddit上有一股爭論的熱潮涌動,先是有 Fran?ois Chollet 、Yann LeCun 等人隔空辨析「到底什么是深度學(xué)習(xí)」,后是有一大批研究者爭論「貝葉斯神經(jīng)網(wǎng)絡(luò)到底有沒有意義」。新的一年,火藥味十足,這是否也意味著深度學(xué)習(xí)的研究正進(jìn)入一個混亂的時期?道理,不辨析不明朗;學(xué)問,不爭論不清晰。

所謂貝葉斯神經(jīng)網(wǎng)絡(luò),簡單來說便是將一般神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置由確定的數(shù)值變?yōu)橐粋€分布。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

按照一般理解,這種將參數(shù)以概率分布的形式表示,可以為網(wǎng)絡(luò)推理提供不確定性估計;此外,通過使用先驗(yàn)概率分布的形式來表示參數(shù),訓(xùn)練期間在許多模型上計算平均值,可以給網(wǎng)絡(luò)提供正則化效果,從而防止過度擬合。然后,在大約一個月前,OpenAI 研究員Carles Gelada發(fā)布了一個系列Twitter:


貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

他指出,或許貝葉斯神經(jīng)網(wǎng)絡(luò)并沒有多大用處。大致觀點(diǎn)為:1)只有當(dāng)具有合理的參數(shù)先驗(yàn)時,我們才會去使用貝葉斯規(guī)則,但沒有人知道先驗(yàn)對神經(jīng)網(wǎng)絡(luò)權(quán)重的編碼會是什么,那么為什么我們還要使用這種先驗(yàn)?zāi)兀?)許多正則化都可以用貝葉斯解釋,但事實(shí)上每個人都能夠?qū)φ齽t化給出一個解釋。那么我們用貝葉斯理論來解釋正則化,有什么意義呢?3)或許有人會說BNNs可以讓我們直接用經(jīng)驗(yàn)來找到正則化。但誰來保證BNNs找到的這種正則化空間就是最優(yōu)的呢?4)BNNs可以用在貝葉斯元學(xué)習(xí)框架當(dāng)中。但沒有理由相信這種應(yīng)用會比其他元學(xué)習(xí)框架更好。針對Carles提出的這些反對意見,在Twitter上迅速吸引了大批的研究人員加入討論。多數(shù)引經(jīng)據(jù)典,從歷史發(fā)展、當(dāng)前研究、實(shí)踐經(jīng)驗(yàn)等各種角度進(jìn)行辯論,或贊同,或反對,不一而足。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

一、貝葉斯神經(jīng)網(wǎng)絡(luò)有用嗎?

為了更加明晰“貝葉斯網(wǎng)絡(luò)沒啥用”的立場,近期Carles Gelada 和 Jacob Buckman重新梳理了他們的思路,專門寫了一篇博客,從貝葉斯網(wǎng)絡(luò)的原理入手,詳細(xì)闡述了“BNNs需要先驗(yàn)信息豐富的先驗(yàn)知識才能處理不確定性”的觀點(diǎn),并指出泛化的代價不容忽視。

1、貝葉斯神經(jīng)網(wǎng)絡(luò)具有不確定性的原因:泛化不可知先驗(yàn)

為了說明先驗(yàn)在貝葉斯網(wǎng)絡(luò)中的重要意義,Buckman在博客中引入了泛化不可知先驗(yàn)(generalization-agnostic priors),用這種“不可知的先驗(yàn)”進(jìn)行貝葉斯推理并不能減少模型的不確定性。Carles和Buckman認(rèn)為,要想在深度學(xué)習(xí)中使用貝葉斯框架,只有讓先驗(yàn)與神經(jīng)網(wǎng)絡(luò)的泛化特性相聯(lián)系,才能達(dá)到好的效果,方法是給泛化能力良好的函數(shù)以更高的概率。但是目前學(xué)術(shù)界還沒有足夠的能力(作者猜測)來證明哪種先驗(yàn)的情況能夠滿足條件。另外,Buckman在博客中作者舉了一個具體的例子:當(dāng)一個數(shù)據(jù)集C

里面包含兩種數(shù)據(jù)對:一種是給定輸入,輸出正確;另一種是給定輸入,輸出錯誤。訓(xùn)練神經(jīng)網(wǎng)絡(luò)所得到的參數(shù) 貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!必須讓神經(jīng)網(wǎng)絡(luò)既能夠表達(dá)正確輸出,也能夠表達(dá)錯誤的輸出。即使模型在數(shù)據(jù)集上訓(xùn)練后,能夠得到條件概率p(f|c)=1,但在測試集上模型也可能表現(xiàn)很差。另外,定義一種先驗(yàn)概率Q,可以讓 Q(f*)=Q(fθ)這意味著如果泛化良好的函數(shù)與泛化不好的函數(shù)得到的分配概率是相同的。但這種先驗(yàn)是有問題的:由于f*和fθ的數(shù)據(jù)的可能性為1,并且由于先驗(yàn)概率相似,這意味著后驗(yàn)概率也是相似的(如下公式)。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

注:實(shí)際上對于某些數(shù)據(jù),fθ可以產(chǎn)生錯誤的輸出,即Q(f*)不等于Q(fθ)

綜上,Carles和Buckman認(rèn)為在泛化不可知的先驗(yàn)條件下,無論數(shù)據(jù)集如何,都無法降低模型的不確定性。即貝葉斯神經(jīng)網(wǎng)絡(luò)起作用的關(guān)鍵因素是:先驗(yàn)?zāi)軌騾^(qū)分泛化良好的函數(shù)和泛化不好的函數(shù)。

2、當(dāng)前貝葉斯網(wǎng)絡(luò)的泛化能力不可知

在構(gòu)建貝葉斯神經(jīng)網(wǎng)絡(luò)時,大家的共識是用比較簡單的概率先驗(yàn),即假設(shè)參數(shù)服從獨(dú)立的高斯分布。但是高斯先驗(yàn)顯然會導(dǎo)致結(jié)構(gòu)先驗(yàn),而這些先驗(yàn)并無泛化能力,原因有兩點(diǎn):1.高斯先驗(yàn)平滑分配概率。2.在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,無論數(shù)據(jù)集如何,最合理的策略似乎是給不同的泛化函數(shù)以相同的權(quán)重。還有一點(diǎn)是計算問題也不容忽視,實(shí)際上如何對貝葉斯推理q(F|D)進(jìn)行計算可能是貝葉斯神經(jīng)網(wǎng)絡(luò)(具有先驗(yàn)泛化不可知)能夠有合理效果的關(guān)鍵因素。

3、理性批判BNNs

Carles和Buckman也在博客中表示上面的理由有猜測的成分,因?yàn)闊o法得知何種因素決定神經(jīng)網(wǎng)絡(luò)泛化能力,所以定義執(zhí)行貝葉斯推理的先驗(yàn)具有不確定性。貝葉斯神經(jīng)網(wǎng)絡(luò)只是一個神經(jīng)網(wǎng)絡(luò),先驗(yàn)只是里面的一個超參數(shù)。Carles和Buckman認(rèn)為當(dāng)前在網(wǎng)絡(luò)中加入貝葉斯不會帶來任何好處,只有當(dāng)能夠找到一個好的先驗(yàn),并且能夠驗(yàn)證推理的準(zhǔn)確性才能有所幫助。另外,他們還提到:作為一個領(lǐng)域,先驗(yàn)在貝葉斯框架里扮演著重要的角色,這一點(diǎn)毋容置疑,所以對于貝葉斯網(wǎng)絡(luò)需要理性的批判,不能讓“不具信息性的先驗(yàn)在不確定性下表現(xiàn)良好”(uninformative priors are good under uncertainty)這種無腦觀點(diǎn)所左右。

二、反駁與批評:Twitter、Reddit雙戰(zhàn)場

這篇博客同步發(fā)在了推特和 Reddit 上,自然也就在兩個平臺上都引來了反駁的聲音。

1、Twitter 戰(zhàn)場:存在技術(shù)錯誤

在Twitter上,紐約大學(xué)數(shù)學(xué)和數(shù)據(jù)科學(xué)教授Andrew Gordon Wilson就表示他們的觀點(diǎn)存在錯誤:這篇博客中存在錯誤。

1,如果數(shù)據(jù)是來自我們想要擬合的分布的,那么隨著我們使用的數(shù)據(jù)的規(guī)模增大,似然性會收縮到那個“好的函數(shù)”上,因?yàn)椴缓玫暮瘮?shù)會越來越少出現(xiàn),這也和我們的觀測值一致。

2,能擬合噪聲的模型并沒有什么出奇之處,而且也和“存在歸納偏倚,更傾向于選擇有噪聲的解”是兩碼事。在函數(shù)上簡單增加一個標(biāo)準(zhǔn)的GP-RBF先驗(yàn)就可以支持噪聲了,但它仍然更善于建模有結(jié)構(gòu)的解。

3,對于通常會使用神經(jīng)網(wǎng)絡(luò)來解決的問題,好的解的數(shù)量通常都會比不好的解的數(shù)量更多。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中就含有幫助帶來更好的泛化性的歸納偏倚。神經(jīng)網(wǎng)絡(luò)函數(shù)“與泛化性無關(guān)”的說法有點(diǎn)不負(fù)責(zé)任。

4,實(shí)際上,想要在函數(shù)空間創(chuàng)造許多不同的“泛化性無關(guān)”的先驗(yàn)是很簡單的事,而它們的行為會和神經(jīng)網(wǎng)絡(luò)非常不同。它們可以由平凡的結(jié)構(gòu)組成,而且也肯定不會具有任何泛化能力。

5,缺少理想的后驗(yàn)收縮會在這么幾種情況下發(fā)生:

  • 假想空間中并不包含好的解;

  • 先驗(yàn)對某個壞的解太過自信(比如給任意的 x 都分配同一個標(biāo)簽 p)。

但神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的表達(dá)能力,這里的b情況根本就和“有模糊的權(quán)重先驗(yàn)”完全相反!除了技術(shù)討論之外,我建議兩位可以多提問、多學(xué)習(xí),以及對貝葉斯深度學(xué)習(xí)抱有開放的心態(tài)。

也許是你們的“貝葉斯神經(jīng)網(wǎng)絡(luò)不合理”的先驗(yàn)太強(qiáng)了才覺得理解不了(微笑)。

Carles Gelada 對這份質(zhì)疑的回應(yīng)是:

如果情況是像你說的這樣,那么證明這件事是貝葉斯支持的責(zé)任(而不是我們質(zhì)疑者的),尤其是當(dāng)他們聲稱模型可以提供好的不確定性的時候。實(shí)際上我們提出質(zhì)疑的理由就是,每個初始值附近都同時有好的和壞的泛化函數(shù),那么他們聲稱的東西也就值得懷疑了。

另外,關(guān)于“擬合損壞的樣本”的討論不應(yīng)該和“擬合噪聲”混為一談。我們在討論中假設(shè)了分類任務(wù)中不存在噪聲,但即便是有噪聲的分類任務(wù),我們的觀點(diǎn)也是成立的。用簡單的測試就可以說明目前使用的先驗(yàn)不是泛化無關(guān)的:訓(xùn)練一個好的函數(shù)、訓(xùn)練一個壞的函數(shù),然后看看先驗(yàn)是否會給好的函數(shù)更高的概率。我懷疑狀況不是這樣的,但這里需要貝葉斯的支持者向我證明他們的先驗(yàn)是好的。

2、Reddit 回帖:水平不足+雙重標(biāo)準(zhǔn)

Reddit上網(wǎng)友們的回應(yīng)更激烈、更情緒性一些,甚至得到最多贊同意見的帖子就含有辛辣的批評和嘲諷。

adversary_argument:

由于博客作者們對貝葉斯推理中的真正的先驗(yàn)缺乏了解,所以我覺得這個討論很沒意思,甚至有一股雙重標(biāo)準(zhǔn)的味道。

全體深度學(xué)習(xí)研究人員(以及作者們自己)都已經(jīng)接受了神經(jīng)網(wǎng)絡(luò)的大規(guī)模使用,即便我們還沒有找到明確的泛化邊界,也對神經(jīng)網(wǎng)絡(luò)的理論理解甚少。但是既然神經(jīng)網(wǎng)絡(luò)運(yùn)行起來令人滿意,這些問題就一股腦地被視而不見 —— 神經(jīng)網(wǎng)絡(luò)就是好的、正義的。然而,現(xiàn)在作者們要求貝葉斯神經(jīng)網(wǎng)絡(luò)必須在先驗(yàn)方面提供很強(qiáng)的理論保證,雖然他們同時也承認(rèn)貝葉斯神經(jīng)網(wǎng)絡(luò)是有效的…… emmm,你們覺得這像不像賊喊捉賊?

做深度學(xué)習(xí)的人挺能散布負(fù)面言論的啊……尤其是,我覺得他們的討論方式,針對某個任意的、損壞的測試集 C 的討論,只不過是在攻擊他們自己造出來的一個靶子而已。

我解釋給你們看看:他們沒有給出被損壞的數(shù)據(jù)的數(shù)量,但是他們就聲稱 f_theta 肯定在 D_test 上會有糟糕的表現(xiàn)?他們的依據(jù)是什么?那比如 D 是一百萬個好的數(shù)據(jù)點(diǎn)組成的數(shù)據(jù)集,C 是 D 加上一個損壞的數(shù)據(jù)點(diǎn),所以按照他們的理論,D_test 上的測試誤差肯定會特別糟糕?

他們洋洋灑灑了一大堆,最后只證明了損壞訓(xùn)練數(shù)據(jù)會降低貝葉斯神經(jīng)網(wǎng)絡(luò)的測試準(zhǔn)確率而已…… 呃…… 所以這有什么好奇怪的嗎……

博客作者回應(yīng):

可能我們在博客里寫得不夠清楚。我們考慮含有損壞數(shù)據(jù)的數(shù)據(jù)集,不是為了說明只要有損壞數(shù)據(jù)就會有糟糕的預(yù)測表現(xiàn)(尤其對于一百萬比一這種情況),而是想說明有損壞數(shù)據(jù)的、神經(jīng)網(wǎng)絡(luò)擬合之后會有糟糕的泛化表現(xiàn)的數(shù)據(jù)集是存在的。我們是為了說明存在性。如果先驗(yàn)對這樣的網(wǎng)絡(luò)分配很高的概率,那么貝葉斯推理就沒有什么好處。我們的博客也不是為了表達(dá)貝葉斯神經(jīng)網(wǎng)絡(luò)沒用,而是想表示“如果沒有好的先驗(yàn),貝葉斯神經(jīng)網(wǎng)絡(luò)就無法帶來好的不確定性估計”,“關(guān)于非信息性的先驗(yàn)的標(biāo)準(zhǔn)討論方式是有問題的”,以及“想要有好的不確定性估計,我們需要先理解神經(jīng)網(wǎng)絡(luò)的泛化性”。除此之外,其它多篇Reddit 的網(wǎng)友回帖也認(rèn)為原博客兩人的討論態(tài)度有問題,立場很難稱得上是“冷靜看待”,有些簡單的實(shí)驗(yàn)也完全可以自己先嘗試。

雷鋒網(wǎng)報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說