日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給張大倩
發(fā)送

0

可解釋性 or 準(zhǔn)確性?AI 模型一定不能兩者兼得嗎?

本文作者: 張大倩 編輯:幸麗娟 2020-02-03 09:41
導(dǎo)語:我們完全有可能構(gòu)建一個(gè)可解釋性與高準(zhǔn)確性并存的 AI 模型——只是尚未嘗試過而已。

可解釋性 or 準(zhǔn)確性?AI 模型一定不能兩者兼得嗎?

模型的可解釋性,已然成為了AI 領(lǐng)域最具挑戰(zhàn)性的主題之一。

一般規(guī)律中,模型的復(fù)雜度和準(zhǔn)確性往往是正相關(guān)關(guān)系,而越高的復(fù)雜度也意味著模型越無法實(shí)現(xiàn)可解釋性。那 AI 模型的準(zhǔn)確性和可解釋性就無法并存了嗎?

杜克大學(xué)副教授 Cynthia Rudin 、耶魯大學(xué)副教授 Joanna Radin 基于首個(gè)對(duì)黑盒模型提出可解釋性需求的挑戰(zhàn)賽——“可解釋性機(jī)器學(xué)習(xí)挑戰(zhàn)賽”,對(duì)這一問題進(jìn)行了思考,并發(fā)表在了哈佛數(shù)據(jù)科學(xué)計(jì)劃與麻省理工學(xué)院出版社聯(lián)合推出的刊物《哈佛數(shù)據(jù)科學(xué)評(píng)論(HDSR)》上。

我們來看具體內(nèi)容:

一、首個(gè)對(duì)黑盒模型提出可解釋性需求的挑戰(zhàn)賽

2018 年 12 月,在一年一度神經(jīng)信息處理系統(tǒng)(NeurIPS)會(huì)議上,數(shù)百位頂級(jí)計(jì)算機(jī)科學(xué)家,金融工程師和高管在蒙特利爾會(huì)議中心的一個(gè)房間里,見證了一場由谷歌、Fair Isaac((FICO)與伯克利、牛津、帝國理工、加州大學(xué)歐文分校和麻省理工學(xué)院的學(xué)者合作舉辦的著名競賽——“可解釋性機(jī)器學(xué)習(xí)挑戰(zhàn)賽”。

可解釋性 or 準(zhǔn)確性?AI 模型一定不能兩者兼得嗎?

挑戰(zhàn)賽查看地址:https://community.fico.com/s/explainable-machine-learning-challenge

這是首個(gè)反映了這樣一種需求的數(shù)據(jù)科學(xué)挑戰(zhàn)賽:那些主導(dǎo)了基于機(jī)器學(xué)習(xí)的決策策略的黑盒模型所計(jì)算出來的成果,需要被梳理與消化。

在過去的幾年中,計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)的進(jìn)步導(dǎo)致人們普遍認(rèn)為:針對(duì)任何既定的數(shù)據(jù)科學(xué)問題,最準(zhǔn)確的模型必須是復(fù)雜且無法解釋的。

這種想法源于機(jī)器學(xué)習(xí)在社會(huì)中的歷史用途:它的現(xiàn)代技術(shù)是為例如在線廣告、網(wǎng)絡(luò)搜索之類的低風(fēng)險(xiǎn)決策而誕生,這些決策不會(huì)對(duì)人類的生活造成深遠(yuǎn)的影響。

在機(jī)器學(xué)習(xí)中,這些黑盒模型通過算法直接從數(shù)據(jù)中創(chuàng)建,這意味著人們,即使創(chuàng)造它們的人,也無法理解如何將變量組合在一起進(jìn)行預(yù)測。即使一個(gè)人有一個(gè)可輸入的變量列表,黑盒預(yù)測模型可以將其轉(zhuǎn)為復(fù)雜的函數(shù)變量,以至于沒有人可以理解變量之間是如何關(guān)聯(lián)來達(dá)成最終的預(yù)測。

在技術(shù)上可解釋的模型與黑盒模型是等效的,但是可解釋模型比黑盒模型更符合道德,兩者間的不同:可解釋模型被約束以更好地理解如何進(jìn)行預(yù)測。

在某些情況下,我們可以很清楚地看到變量是如何聯(lián)系起來形成最終的預(yù)測結(jié)果,最終的預(yù)測結(jié)果可能只是簡短邏輯語句中的幾個(gè)變量組合在一起,或者是使用線性模型將變量加權(quán)并相加在一起。

有時(shí),可解釋模型由放在一起的更簡單模型組成(可分解),或者對(duì)模型施加新的約束條件,但是,大多數(shù)機(jī)器學(xué)習(xí)模型的設(shè)計(jì)沒有可解釋的約束條件,它們只是為了在靜態(tài)數(shù)據(jù)集上為準(zhǔn)確的預(yù)測變量而設(shè)計(jì),它們可能代表也可能不代表模型在實(shí)踐中的使用方式。

二、要實(shí)現(xiàn)可解釋性就必須犧牲準(zhǔn)確性嗎?

認(rèn)為必須犧牲準(zhǔn)確性來換取可解釋性的觀點(diǎn)是不正確的。當(dāng)非常簡單的可解釋模型用于相同的任務(wù)時(shí),它允許公司為高風(fēng)險(xiǎn)決策推銷和出售私有或者復(fù)雜的黑盒模型。因此,模型創(chuàng)造者可以通過它來獲利并且無需考慮對(duì)個(gè)人的有害影響。

很少有人質(zhì)疑這些模型,因?yàn)樗麄兊脑O(shè)計(jì)師聲稱模型必須復(fù)雜才能準(zhǔn)確。2018年的這場“可解釋機(jī)器學(xué)習(xí)挑戰(zhàn)賽”是一個(gè)案例研究,主旨在于考慮將黑盒模型與可解釋模型進(jìn)行權(quán)衡。

在宣布挑戰(zhàn)賽獲勝者之前,主持人要求聽眾(包括金融,機(jī)器人技術(shù)和機(jī)器學(xué)習(xí)領(lǐng)域的能者)進(jìn)行思想實(shí)驗(yàn),在該實(shí)驗(yàn)場景中,他們患有癌癥,需要手術(shù)切除腫瘤。屏幕上顯示了兩張圖像,一張圖描述了一位人類外科醫(yī)生,他可以解釋有關(guān)手術(shù)的任何事情,但在手術(shù)過程中有15%的概率導(dǎo)致死亡。

另一幅圖像則顯示了只有在 2%的失敗幾率下才能執(zhí)行手術(shù)的機(jī)器人,它其實(shí)是在模擬 AI 的黑盒方法。在這種情況下,他們需要完全信任機(jī)器人,不會(huì)對(duì)機(jī)器人提出任何問題,也不需要了解它是如何做出手術(shù)決定的。

然后,主持人要求觀眾舉手投票選擇他們?cè)敢膺M(jìn)行哪種拯救生命的手術(shù)。除了一票以外,其他所有人都投票選擇機(jī)器人。

雖然 2% 的死亡率比 15%的死亡率要好很多,但是以這種方式來架構(gòu) AI 系統(tǒng)的風(fēng)險(xiǎn),會(huì)掩蓋一個(gè)更基本、更有趣的考慮:為什么機(jī)器人必須是黑盒?如果機(jī)器人具有自我解釋能力,它將會(huì)失去執(zhí)行準(zhǔn)確手術(shù)的能力嗎?機(jī)器人與患者之間的有效溝通是減少病人的護(hù)理而不僅僅只是改善嗎?病人難道不需要在手術(shù)前向機(jī)器人說明他們有凝血障礙嗎?

現(xiàn)場沒有將可能并不需要作為黑盒模型的機(jī)器人作為一種選擇,在座的的觀眾只能在準(zhǔn)確的黑盒和不準(zhǔn)確的透明盒子中進(jìn)行選擇。觀眾沒有被告知手術(shù)結(jié)果的準(zhǔn)確性是如何得出的(2%和15%分別測量的什么人群?),他們也沒有被告知用于訓(xùn)練機(jī)器人的數(shù)據(jù)集的潛在缺陷。

在這一假設(shè)中,準(zhǔn)確性必須以犧牲可以解釋性(了解為什么外科醫(yī)生要有做這些事情的能力)為代價(jià)。因此這項(xiàng)心理實(shí)驗(yàn)未能考慮到可解釋性可能不會(huì)損壞準(zhǔn)確性。而實(shí)際上,可解釋性甚至可以提高準(zhǔn)確性,因?yàn)樗梢詭椭懔私饽P停C(jī)器人)何時(shí)可能是錯(cuò)誤的。

并非一定要在準(zhǔn)確的機(jī)器和具有理解能力的人之間做出選擇,如此理解它有助于我們?cè)\斷由黑盒模型在整個(gè)社會(huì)中進(jìn)行高風(fēng)險(xiǎn)決策所導(dǎo)致的問題。這些問題不僅存在于金融領(lǐng)域,而且還存在于醫(yī)療保健,刑事司法等領(lǐng)域。

我們可以給出一些證據(jù)表明,“必須犧牲一些可能性才能獲得準(zhǔn)確性的模型”的設(shè)想是錯(cuò)誤的,比如一個(gè)刑事司法系統(tǒng)中已經(jīng)反復(fù)證明,利用黑盒模型的復(fù)雜性預(yù)測未來的逮捕情況,其準(zhǔn)確性遠(yuǎn)不及基于年齡和犯罪記錄的簡單預(yù)測模型(Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016)。

例如,Angelino 等人在 2018 年曾在一項(xiàng)僅考慮人的年齡和犯罪歷史的一些規(guī)則的研究中,創(chuàng)建了用于預(yù)測再次逮捕的機(jī)器學(xué)習(xí)模型。其完整的機(jī)器學(xué)習(xí)模型如下:如果此人有過三次以上的犯罪前科,或者18-20歲的男性,或者有兩到三次犯罪記錄的21-23歲男性,那么模型預(yù)計(jì)他們將在評(píng)估發(fā)生的兩年時(shí)間內(nèi)再次被逮捕,否則不會(huì)。

盡管我們不一定提倡在刑事司法案件中使用這個(gè)該模型,但這套規(guī)則和黑盒模型(針對(duì)替代性模型的更正罪犯管理分析)一樣準(zhǔn)確,黑盒模型已經(jīng)廣泛合理使用于弗羅里達(dá)的布勞沃德縣(Angelino et al., 2018)。

上面的簡單模型也許和許多其他最新的機(jī)器學(xué)習(xí)方法一樣準(zhǔn)確(Angelino et al., 2018)。在應(yīng)用于其他數(shù)據(jù)集的許多不同類型的預(yù)測問題的機(jī)器學(xué)習(xí)方法中,也發(fā)現(xiàn)了相似的結(jié)果:可解釋模型(研究中的小型線性模型或邏輯模型)的表現(xiàn)與更復(fù)雜的模型(黑盒)有相同的效果(Zeng et al., 2016)。似乎沒有證據(jù)表明黑盒模型對(duì)犯罪風(fēng)險(xiǎn)預(yù)測會(huì)有所幫助。實(shí)際上,這些黑盒的缺點(diǎn)可能更明顯,因?yàn)樗鼈兏y排查故障,更難信任和更難使用。

在一些醫(yī)療領(lǐng)域以及可以改變生命決策的許多其他高風(fēng)險(xiǎn)機(jī)器學(xué)習(xí)應(yīng)用中,似乎也沒有體現(xiàn)黑盒模型準(zhǔn)確性的優(yōu)勢(例如在 Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018 等論文中,作者都展示了具有可解釋性條件的模型,這些模型的表現(xiàn)和不受約束的模型一樣好)。

三、黑盒模型可能會(huì)掩蓋無數(shù)潛在的嚴(yán)重錯(cuò)誤

相反,黑盒模型可以掩蓋無數(shù)潛在的嚴(yán)重錯(cuò)誤(e.g., see Rudin, 2019)。即使在以深度神經(jīng)中樞(最難解釋的黑盒模型)為最先進(jìn)技術(shù)的計(jì)算機(jī)視覺中,我們和其他科學(xué)家(e.g., Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019)已經(jīng)找到了將可解釋性條件添加到深度學(xué)習(xí)模型中的方法,從而使計(jì)算更加透明。即使對(duì)用于計(jì)算機(jī)視覺的深度神經(jīng)網(wǎng)絡(luò),這些可解釋性約束也不會(huì)以犧牲準(zhǔn)確性為代價(jià)。

信任黑盒模型意味著你不僅要信任模型的方程式,而且也要信任它所基于的整個(gè)數(shù)據(jù)庫。例如,在機(jī)器人和外科醫(yī)生的場景中,在不知道2%和15%是如何計(jì)算出來的情況下,我們應(yīng)該針對(duì)特定亞群患者的數(shù)據(jù)之間的相關(guān)性持懷疑態(tài)度。

我們所看到的每一個(gè)復(fù)雜度適中的數(shù)據(jù)集都存在缺陷。這些范圍可以從大量的丟失數(shù)據(jù)(不是隨機(jī)丟失)或者無法測量的數(shù)據(jù)混淆到數(shù)據(jù)集中的系統(tǒng)錯(cuò)誤(例如藥物治療的錯(cuò)誤編碼),數(shù)據(jù)收集出現(xiàn)的問題,導(dǎo)致數(shù)據(jù)分布與最初的設(shè)想不一致。

黑盒模型在醫(yī)療領(lǐng)域中的一個(gè)常見問題是數(shù)據(jù)泄露,關(guān)于標(biāo)簽變量 y 的某些信息以通過查看變量的標(biāo)題和描述變量這種你可能不會(huì)覺察的方式,潛入變量 x 中:有時(shí)你認(rèn)為自己正在預(yù)測將來的事物,但你只是在探測過去發(fā)生的事情。在預(yù)測醫(yī)療結(jié)果時(shí),機(jī)器可能會(huì)利用醫(yī)生筆記中的信息,將這些信息在正式記錄患者病情之前透露出來,因此錯(cuò)誤地將其聲明為成功的預(yù)測。

為了解決人們對(duì)黑盒模型不透明的普遍擔(dān)憂,一些科學(xué)家試圖對(duì)黑盒模型做出解釋,提出假設(shè),解釋它們?yōu)槭裁磿?huì)做出這樣的決定。這種解釋通常試圖使用一個(gè)完全不同的模型來模擬黑盒的預(yù)測(可能使用不同的重要變量,掩蓋了黑盒可能正在做的事情),或者提供另一種統(tǒng)計(jì),該統(tǒng)計(jì)信息提供了關(guān)于黑盒計(jì)算的不完整信息。這種解釋是膚淺的,甚至是空洞的,因?yàn)樗鼈兛浯罅撕诤械臋?quán)威,而是認(rèn)為黑盒是必要的。有時(shí),這些解釋是錯(cuò)誤的。

例如,當(dāng) ProPublica 的記者試圖為累犯預(yù)測專設(shè)的COMPA模型解釋時(shí)(Angwin et al., 2016),他們似乎錯(cuò)誤地認(rèn)為,如果一個(gè)人可以建立一個(gè)近似于比較的線性模型,并依賴于種族、年齡和犯罪歷史,那么COMPAS本身必須依靠種族。

但是,當(dāng)有人使用類似 COMPAS 非線性模型時(shí),該模型不再依賴種族(Rudin, Wang, & Coker, 2019),僅對(duì)歷史犯罪和年齡有依賴性。這是一個(gè)關(guān)于黑盒的錯(cuò)誤解釋如何導(dǎo)致失控的例子。

也許,如果司法系統(tǒng)僅使用可解釋的模型(我們和其他人已證明同樣準(zhǔn)確),那么 ProPublica 的記者將能夠撰寫不同的故事。例如,也許他們可能會(huì)寫出這些分?jǐn)?shù)的印刷錯(cuò)誤是如何頻繁發(fā)生的,而沒有明顯的方法來解決它們,導(dǎo)致司法系統(tǒng)中改變生活的決策意見不一致(see, e.g., Rudin et al.,  2019) 。

但是在 2018 年 NeurIPS 大會(huì)上,在擠滿了剛剛選擇機(jī)器人代替外科醫(yī)師的專家的會(huì)議室里,播音員繼續(xù)對(duì)比賽進(jìn)行實(shí)況描述。 FICO 提供了房屋凈值信貸額度(HELOC)數(shù)據(jù)集,其中包含來自數(shù)千名匿名人的數(shù)據(jù),包括其信用記錄的各個(gè)方面以及該人是否拖欠貸款。 競賽的目的是創(chuàng)建一個(gè)用于預(yù)測貸款違約的黑盒模型,然后解釋黑盒。

有人認(rèn)為,對(duì)于要求參賽者創(chuàng)建黑盒并進(jìn)行解釋的競賽,問題實(shí)際上是必須有一個(gè)黑盒。但事實(shí)并非如此。早在 2018 年 7 月,當(dāng) Duke 團(tuán)隊(duì)收到數(shù)據(jù)時(shí),并分析數(shù)據(jù)一周左右后,意識(shí)到可以在沒有黑盒的情況下有效地分析 FICO 數(shù)據(jù)。

無論是對(duì)線性模型使用深層神經(jīng)網(wǎng)絡(luò)還是經(jīng)典統(tǒng)計(jì)技術(shù),我們都發(fā)現(xiàn)這兩種方法之間的準(zhǔn)確性誤差不到1%,1%的誤差是在數(shù)據(jù)隨機(jī)抽樣誤差范圍之內(nèi)。即使在使用提供了可解釋的模型的機(jī)器學(xué)習(xí)技術(shù)時(shí),其準(zhǔn)確性也與最佳黑盒模型準(zhǔn)確性相差不多。

那時(shí),我們也不知如何是好了。我們是否應(yīng)該遵守規(guī)則,給法官們一個(gè)黑盒,我們是否應(yīng)該遵守規(guī)則使用黑盒模型并向裁判解釋它?還是我們應(yīng)該提供透明、可解釋的模型?換句話說,當(dāng)你發(fā)現(xiàn)自己被迫陷入機(jī)器人與外科醫(yī)生的兩難抉擇時(shí),你該怎么辦?

我們的團(tuán)隊(duì)決定,對(duì)于像信用評(píng)分這樣重要的問題,我們不會(huì)為了解釋就向評(píng)選團(tuán)隊(duì)提供黑盒。 取而代之的是,我們創(chuàng)建了一個(gè)即使沒有任何數(shù)學(xué)基礎(chǔ)的人也能夠理解的可解釋的模型,我們認(rèn)為該模型可分解為不同的微型模型,每個(gè)微型模型都可以獨(dú)立被理解。

 我們還為貸方和個(gè)人創(chuàng)建了一個(gè)額外的交互式在線可視化工具。在我們的網(wǎng)站上研究信用歷史因素可以讓人們了解哪些因素影響貸款申請(qǐng)決策,這種方式完全不需要黑盒。我們知道可能不會(huì)以這種方式贏得比賽,但我們需要提出更重要的事實(shí)。

四、AI 模型可兼得可解釋性和準(zhǔn)確性,只是尚未嘗試而已

可能有人認(rèn)為,在許多應(yīng)用程序中,可解釋的模型可能不如黑盒模型那么準(zhǔn)確。 畢竟,如果你可以建立一個(gè)準(zhǔn)確的可解釋模型,那么為什么還要使用黑盒呢?

但是,正如“可解釋機(jī)器學(xué)習(xí)挑戰(zhàn)”所揭示的那樣,實(shí)際上,在許多應(yīng)用程序中,人們并不試圖構(gòu)造一個(gè)可解釋的模型,因?yàn)樗麄兛赡苷J(rèn)為對(duì)于復(fù)雜的數(shù)據(jù)集,可解釋的模型不可能像黑盒那么精確。 或者,他們想將模型保留為專有模型。 然后,人們可能會(huì)考慮是否可以為計(jì)算機(jī)視覺和時(shí)間序列分析構(gòu)建可解釋的深度學(xué)習(xí)模型(e.g., Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019),那么標(biāo)準(zhǔn)假設(shè)應(yīng)是可解釋模型不存在,改為它們存在的假設(shè),然后直到證明它們不存在為止。

此外,當(dāng)科學(xué)家在構(gòu)建模型時(shí)他們知道自己在做什么時(shí),它們可以制造出更好的AI系統(tǒng),來服務(wù)于依賴它們的人類。 在這些情況下,所謂的準(zhǔn)確性與可解釋性之間的權(quán)衡被證明是謬論:具有更多可解釋性的模型通常變得更準(zhǔn)確(而不是更少)。

準(zhǔn)確的黑盒和不太準(zhǔn)確的透明模型之間的錯(cuò)誤對(duì)立已經(jīng)過火了。當(dāng)成千上百的領(lǐng)先科學(xué)家和金融公司高管都被這種二分法所誤導(dǎo),請(qǐng)想象一下其他人是如何被愚弄。其影響是深遠(yuǎn)的:它影響到我們的刑事司法、金融、醫(yī)療系統(tǒng)以及許多其他領(lǐng)域的運(yùn)作。

我們需要堅(jiān)持不將黑盒模型用于高風(fēng)險(xiǎn)決策,即除非根本無法構(gòu)建能夠達(dá)到相同準(zhǔn)確性水平的可解釋模型,否則我們不要將黑盒機(jī)器學(xué)習(xí)模型用于高風(fēng)險(xiǎn)決策。

我們完全有可能構(gòu)建一個(gè)可解釋性與高準(zhǔn)確性并存的 AI 模型——只是尚未嘗試過而已。也許,如果我們這樣做了,我們根本就不需要進(jìn)行高風(fēng)險(xiǎn)決策。

本文參考的相關(guān)文獻(xiàn)可前往原文查看:https://hdsr.mitpress.mit.edu/pub/f9kuryi8

雷鋒網(wǎng) AI 科技評(píng)論編譯。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

可解釋性 or 準(zhǔn)確性?AI 模型一定不能兩者兼得嗎?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說