日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給翻譯官balala
發(fā)送

0

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

本文作者: 翻譯官balala 編輯:幸麗娟 2019-12-22 12:12 專(zhuān)題:NeurIPS 2019
導(dǎo)語(yǔ):可有效避免選中重復(fù)的數(shù)據(jù)進(jìn)行無(wú)效標(biāo)注。

雷鋒網(wǎng) AI 科技評(píng)論按:深度學(xué)習(xí)如今能夠大獲成功,其中的一大功臣便是大規(guī)模的標(biāo)注數(shù)據(jù)。然而在大多數(shù)現(xiàn)實(shí)場(chǎng)景中,我們往往只能獲得未經(jīng)標(biāo)注的大規(guī)模數(shù)據(jù)集,如果要對(duì)這么多數(shù)據(jù)進(jìn)行人工標(biāo)注,勢(shì)必耗費(fèi)大量的人力成本。在此前,研究界已經(jīng)提出主動(dòng)學(xué)習(xí)的方法來(lái)解決這一問(wèn)題,然后采用該方法選擇出來(lái)的數(shù)據(jù)可能存在大量重復(fù)的情況,從而造成標(biāo)注冗余問(wèn)題。

對(duì)此,牛津大學(xué)的理論和應(yīng)用機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)(OATML)在一篇 NeurIPS 2019 論文中提出了一種 BatchBALD 采集函數(shù),可有效解決主動(dòng)學(xué)習(xí)面臨的這一難題, AI 科技評(píng)論編譯如下。

在主動(dòng)學(xué)習(xí)中,我們使用“人在回路”(Human in the Loop)的方法進(jìn)行數(shù)據(jù)標(biāo)注,可有效地減少了需要大量標(biāo)注的數(shù)據(jù)量,并且該方法適用于標(biāo)注成本過(guò)高時(shí)的機(jī)器學(xué)習(xí)

我們?cè)凇禕atchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning》論文中提出了 [1], 進(jìn)一步提出了 BatchBALD 采集函數(shù):這是一種在深度主動(dòng)學(xué)習(xí)中選擇信息點(diǎn)批次的全新的實(shí)用方法,它可以解決長(zhǎng)期困擾我們的標(biāo)注冗余問(wèn)題。我們提出的算法基于信息論并在有用的直覺(jué)(Intuition)上進(jìn)行了擴(kuò)展。

一、什么是主動(dòng)學(xué)習(xí)?

我們?cè)谝幌盗兄匾膶?shí)驗(yàn)中,通過(guò)利用深度學(xué)習(xí)算法和大量經(jīng)標(biāo)注的數(shù)據(jù)集,能得到很好的結(jié)果。但在一般情況下,我們只能獲取到未標(biāo)注的大型數(shù)據(jù)集。例如,我們很容易獲得大量的庫(kù)存照片,但是標(biāo)注這些圖像既費(fèi)時(shí)又昂貴。這就使得許多應(yīng)用無(wú)法從深度學(xué)習(xí)的最新研究進(jìn)展成果中受益。

在主動(dòng)學(xué)習(xí)中,我們僅僅要求專(zhuān)家標(biāo)注信息量最多的數(shù)據(jù)點(diǎn),而不是預(yù)先標(biāo)注整個(gè)數(shù)據(jù)集。然后我們?cè)偈褂眠@些新獲取的數(shù)據(jù)點(diǎn)和所有先前標(biāo)注好的數(shù)據(jù)點(diǎn)對(duì)模型進(jìn)行反復(fù)訓(xùn)練。重復(fù)此過(guò)程,直到模型結(jié)果的精度滿足我們的要求為止。    

     主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!       

圖1: 主動(dòng)學(xué)習(xí)流程。重復(fù)進(jìn)行主動(dòng)訓(xùn)練、評(píng)分、標(biāo)注和獲取的學(xué)習(xí)步驟,直到模型達(dá)到足夠的精度為止。

要執(zhí)行主動(dòng)學(xué)習(xí),我們需要定義一些信息評(píng)價(jià)指標(biāo),這通常是以“采集函數(shù)(acquisition function)”的形式完成。之所以將此評(píng)價(jià)指標(biāo)稱(chēng)為“采集函數(shù)”,是因?yàn)樗?jì)算的分?jǐn)?shù)確定了我們要獲取的數(shù)據(jù)點(diǎn)。我們要發(fā)給專(zhuān)家做標(biāo)注的這些未經(jīng)標(biāo)注的數(shù)據(jù)點(diǎn),可以最大化采集函數(shù)。

二、存在什么問(wèn)題?

通常來(lái)說(shuō),未標(biāo)注點(diǎn)的信息量是單獨(dú)進(jìn)行評(píng)估的,其中一種流行的“采集函數(shù)”就是 BALD  [2]。在主動(dòng)學(xué)習(xí)中,研究者往往普遍采用 BALD 這種采集函數(shù)方法來(lái)分別對(duì)未標(biāo)注點(diǎn)的信息量進(jìn)行評(píng)估,但是由于單個(gè)信息點(diǎn)可能幾乎相同,分別評(píng)估各個(gè)點(diǎn)的信息量極度浪費(fèi)資源。

這意味著,如果我們單純地獲取前 K 個(gè)最有用的點(diǎn),可能最終會(huì)導(dǎo)致讓專(zhuān)家給 K 個(gè)幾乎相同的點(diǎn)加標(biāo)簽!           

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖2: 來(lái)自 MNIST 數(shù)據(jù)集(手寫(xiě)數(shù)字)的1000個(gè)隨機(jī)選擇的點(diǎn)的 BALD 得分(信息量)。 這些點(diǎn)按數(shù)字標(biāo)簽進(jìn)行顏色編碼,并按分?jǐn)?shù)排序。用于評(píng)分的模型已經(jīng)首先訓(xùn)練達(dá)到 90% 的準(zhǔn)確性。如果我們選擇得分最高的分?jǐn)?shù)(例如,得分高于 0.6),則大多數(shù)得分將是 8,即便我們能夠假定模型在獲得了前幾對(duì)得分后會(huì)認(rèn)為它們的信息量要少于其他可用的數(shù)據(jù)。點(diǎn)在x軸上通過(guò)數(shù)字標(biāo)簽進(jìn)行了稍微移動(dòng)以避免重疊。

三、我們的研究成果

在這篇論文中,我們將采集函數(shù)的概念有效地?cái)U(kuò)展到了數(shù)據(jù)點(diǎn)的集合,并提出了一種新的采集函數(shù),該函數(shù)可以在獲取數(shù)據(jù)點(diǎn)的批次時(shí)考慮到數(shù)據(jù)點(diǎn)之間的相似性。

為此,我們采用了常用的 BALD 采集函數(shù),并以特定的方式將其擴(kuò)展 BatchBALD 采集函數(shù)。我們將在下文中對(duì)該采集函數(shù)進(jìn)行解釋。           

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!   

圖3: BALD采集函數(shù) 和 BatchBALD采集函數(shù) 的理想獲取。如果數(shù)據(jù)集的每個(gè)數(shù)據(jù)點(diǎn)包含多個(gè)相似點(diǎn),則 BALD 采集函數(shù)將以犧牲其他信息數(shù)據(jù)點(diǎn)為代價(jià)選擇單個(gè)信息數(shù)據(jù)點(diǎn)的所有副本,從而浪費(fèi)了數(shù)據(jù)效率。

但是,僅僅知道如何為每個(gè)批次數(shù)據(jù)點(diǎn)評(píng)分是不夠的!我們?nèi)匀幻媾R著尋找得分最高的數(shù)據(jù)點(diǎn)批次的難題。簡(jiǎn)單的解決方案是嘗試數(shù)據(jù)點(diǎn)的所有子集,但那是行不通的,因?yàn)榇嬖?span style="color: #595959;">指數(shù)級(jí)多的可能性。

針對(duì)我們提出的采集函數(shù),我們發(fā)現(xiàn)它具有一個(gè)非常有用的屬性,叫做子模性(Submodularity),它使我們能夠運(yùn)用貪婪算法:逐個(gè)選擇點(diǎn),并在先前添加到數(shù)據(jù)點(diǎn)批次中的的所有點(diǎn)上調(diào)節(jié)每個(gè)新點(diǎn)。我們通過(guò)利用這種子模性屬性,可以證明這種貪婪算法找到的子集“足夠好”(也就是:1-1 / e-的近似)。

總體而言,這使得我們提出的采集函數(shù) BatchBALD 在性能上要優(yōu)于 BALD 采集函數(shù) :對(duì)于大小相差不多的批次,它使用較少的迭代和較少的數(shù)據(jù)點(diǎn)即可達(dá)到更高的精度,并顯著地減少了冗余的模型訓(xùn)練和專(zhuān)家標(biāo)注,從而降低了成本和時(shí)間。

而且,從經(jīng)驗(yàn)上講,它與按順序獲取單個(gè)點(diǎn)的最優(yōu)選擇一樣好,但在速度上要比后者快得多。后者在每個(gè)單點(diǎn)獲取之后,仍需要重新訓(xùn)練模型。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

(a) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。在采集大小為10的情況下,BatchBALD 采集函數(shù)優(yōu)于 BALD 采集函數(shù),并且性能接近最佳采集大小1           

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

(b) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的相對(duì)總時(shí)間,標(biāo)準(zhǔn)化訓(xùn)練采集大小為10的 BatchBALD 采集函數(shù)至95%的精度。星號(hào)標(biāo)注表示:每種方法達(dá)到95%的準(zhǔn)確度的點(diǎn)。

圖4: MNIST 數(shù)據(jù)集實(shí)驗(yàn)的 BALD 采集函數(shù)和 BatchBALD 采集函數(shù)的性能和訓(xùn)練時(shí)間。采集大小為10的 BatchBALD 采集函數(shù)的性能與采集大小為1的 BALD 采集函數(shù)差異不大,但是它只需要一小段時(shí)間,因?yàn)樗枰匦掠?xùn)練模型的次數(shù)更少。與采集大小為10的 BALD 采集函數(shù)相比,BatchBALD 采集函數(shù)也需要更少的采集來(lái)達(dá)到95%的準(zhǔn)確度。

在解釋采集函數(shù)之前,我們需要了解 BALD 采集函數(shù)的作用。

四、什么是BALD采集函數(shù)?

BALD 是貝葉斯不一致主動(dòng)學(xué)習(xí)(Bayesian Active Learning by Disagreement)的簡(jiǎn)稱(chēng) [2]。 

如“貝葉斯”其名所示,它假設(shè)貝葉斯設(shè)定能夠讓我們捕獲模型預(yù)測(cè)的不確定性。在貝葉斯模型中,參數(shù)不僅僅是在訓(xùn)練過(guò)程中更新的數(shù)字(點(diǎn)估計(jì)),而且是概率分布。

這使模型可以量化它的理念:參數(shù)的廣泛分布意味著模型無(wú)法確定其真實(shí)值,反之狹窄的參數(shù)分布則可以量化更高的確定性。

BALD 采集函數(shù)(基于模型預(yù)測(cè)的結(jié)果 y 是否能很好地體現(xiàn)模型參數(shù) ω)給一個(gè)數(shù)據(jù)點(diǎn) x進(jìn)行評(píng)分。為此,需要計(jì)算出互信息 Ⅱ(y , ω)。眾所周知,互信息是信息論中的概念,它能捕獲數(shù)量之間的信息重疊。

當(dāng)使用 BALD 采集函數(shù)選擇一個(gè)批次的 b 點(diǎn)時(shí),我們選擇的是 BALD 采集函數(shù)得分最高的前 b 個(gè)點(diǎn),這是該領(lǐng)域的標(biāo)準(zhǔn)做法。這與最大化以下批量采集函數(shù)的做法相同:

aBALD( {x1, ... , xb} , p( ω | Dtrain ) ) := Σbi=1Ⅱ(y; ω | x, Dtrain)            

其中,                                             

  {x1*, ...,  xb*} := arg max aBALD( {x1, ... , xb} , p(ω | Dtrain) ),{x1, ... , xb} ?Dpool           

直觀來(lái)看,如果在批次點(diǎn)中,我們將給定一些數(shù)據(jù)點(diǎn)和模型參數(shù)得到的預(yù)測(cè)信息內(nèi)容視作集合,互信息則可以看作是這些集合的交集,這就對(duì)應(yīng)了互信息評(píng)估信息重疊的概念。           

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!           

圖5: BALD采集函數(shù) 背后的直覺(jué)。灰色區(qū)域有助于BALD 得分,深灰色區(qū)域被重復(fù)計(jì)算。

事實(shí)上,Yeuang在論文《A new outlook on Shannon's information measures》中[3]表明,這種直覺(jué)是有充分依據(jù)的。我們可以定義一個(gè)信息度 μ*,從而能夠使用設(shè)定操作來(lái)代表信息理論量化。  

 Η(x , y)= μ*(x ∪ y) 

 Ⅱ(x , y) = μ*(x ∩ y) 

 Ep(y)Η(x | y)= μ*(x \ y)  

圖 5 展示了 BALD 采集函數(shù)在獲取3個(gè)點(diǎn)的批次時(shí)對(duì)這些集合的交集區(qū)域所計(jì)算出來(lái)的分?jǐn)?shù)。

因?yàn)?BALD 采集函數(shù)是一個(gè)簡(jiǎn)單累加計(jì)算,所以會(huì)導(dǎo)致數(shù)據(jù)點(diǎn)之間的互信息被重復(fù)計(jì)算,并且 BALD 采集函數(shù)高估了真實(shí)的互信息。這就是為什么在具有同一點(diǎn)有很多(幾乎相同)副本的數(shù)據(jù)集中,單純使用 BALD 采集函數(shù)會(huì)導(dǎo)致我們選出所有副本的原因:我們對(duì)所有點(diǎn)之間的互信息交集進(jìn)行累積計(jì)算!

五、BatchBALD 采集函數(shù)

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖6: BatchBALD 采集函數(shù)背后的直覺(jué)。 BatchBALD 采集函數(shù)考慮了數(shù)據(jù)點(diǎn)之間的相似性。

為了避免重復(fù)計(jì)算,我們要計(jì)算數(shù)量   μ*(Ui y∩ ω),如圖 6 所示,它對(duì)應(yīng)的是 yi 和 ω 的互信息Ⅱ( y1, ... , y; ω | x1, .... , xb, Dtrain ) :

 aBatchBALD( {x1, ... , xb} , p(ω | Dtrain)) := Ⅱ(y1, ... , yb ; ω | x1, .... , xb, Dtrain         

擴(kuò)展互信息的定義后,我們得到以下兩項(xiàng)之間的區(qū)別:

 aBatchBALD( {x1, ... , xb} , p(ω | Dtrain)) = H(y1, ... , yb ; ω | x1, .... , xb, Dtrain 

-E p( ω | Dtrain )[ H(y1, ... , yb | x1, .... , xb, ω) ]

第一項(xiàng)獲取了模型的一般不確定性,第二項(xiàng)獲取了給定模型參數(shù)描述的預(yù)期不確定性。 

我們可以看到,當(dāng)模型對(duì)數(shù)據(jù)點(diǎn)有不同的解釋?zhuān)簿褪悄P蛯?duì)單個(gè)點(diǎn)更有信心(產(chǎn)生較小的第二項(xiàng)),但預(yù)測(cè)結(jié)果彼此并不不同(產(chǎn)生較大的第一項(xiàng))時(shí),該模型得到的分?jǐn)?shù)將變高。這就是“不一致”這個(gè)名稱(chēng)的由來(lái)。(這也是“貝葉斯不一致主動(dòng)學(xué)習(xí)”這一名稱(chēng)中的“不一致”的由來(lái))

六、子模性

現(xiàn)在為了確定要獲取的數(shù)據(jù)點(diǎn),我們將使用子模性。  

基于子模性我們可以知道,這種做法帶來(lái)的提升會(huì)越來(lái)越?。哼x中兩個(gè)點(diǎn)帶來(lái)的分?jǐn)?shù)提升要比單獨(dú)選中一個(gè)點(diǎn)大,但是也沒(méi)有把兩個(gè)點(diǎn)各自帶來(lái)的提升加起來(lái)那么大:給定函數(shù) f :Ω→R ,我們稱(chēng)f的子模,如果:

f(A ∪{ x,y })-f(A)≤(f(A∪{ x })-f(A))+ (f(A∪ { y })-f(A))

其中,所有的 A 包含于 Ω 和所有元素 x,y∈Ω 成立。    

我們?cè)谡撐牡母戒?A 中證明,我們的采集函數(shù)滿足了這一特性。

Nemhauser等人在論文《An analysis of approximations for maximizing submodular set functions》中 [4] 已經(jīng)證明,在子模函數(shù)中,可以使用貪婪算法來(lái)選擇點(diǎn),并保證其分?jǐn)?shù)至少為 1-1 / e ≈63 %是最佳的。這樣的算法稱(chēng)為 1-1 / e- 的近似。

貪心算法以一個(gè)空批次 A = { } 開(kāi)始 ,并計(jì)算所有未標(biāo)注數(shù)據(jù)點(diǎn)的 aBatchBALD( A∪{x} ),將最高分 X 加到A上并重復(fù)此過(guò)程,直到 A 在獲取大小內(nèi)。

接下來(lái)的文章將對(duì)此進(jìn)行詳細(xì)說(shuō)明。 

七、一致的蒙特卡羅 Dropout 

我們使用蒙特卡羅 Dropout(MC Dropout)實(shí)現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò) [5]。但是,與其他實(shí)現(xiàn)方法的重要區(qū)別在于,我們需要一致的 MC Dropout:為了能夠計(jì)算數(shù)據(jù)點(diǎn)之間的聯(lián)合熵,我們需要使用相同的采樣模型參數(shù)來(lái)計(jì)算 aBatchBALD 。

為了弄清原因,如圖 7 中所示,我們研究了隨著不同樣本模型參數(shù)設(shè)置的 MC Dropout 變化,評(píng)分分?jǐn)?shù)將如何變化。 

如果沒(méi)有一致的 MC Dropout,模型將使用不同的采樣模型參數(shù)集對(duì)得分進(jìn)行采樣,這會(huì)導(dǎo)致丟失 y與附近的 X之間的函數(shù)相關(guān)性,并且由于分?jǐn)?shù)被分散,它與與隨機(jī)采集獲取數(shù)據(jù)的方法基本上沒(méi)有什么區(qū)別。             

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖7: 不同組的100個(gè)采樣模型參數(shù)的 BatchBALD 采集函數(shù)得分。這展示了從數(shù)據(jù)集中隨機(jī)選取的1000個(gè)點(diǎn)的 BatchBALD 采集函數(shù)得分,同時(shí)為已經(jīng)達(dá)到90%精度的 MNIST 數(shù)據(jù)集實(shí)驗(yàn)?zāi)P瓦x擇了第10個(gè)點(diǎn)。單組100個(gè)模型參數(shù)的得分以藍(lán)色顯示。BatchBALD 采集函數(shù)估計(jì)值表現(xiàn)出很強(qiáng)的帶寬,不同組采樣參數(shù)之間的得分差異大于單個(gè)頻段“軌跡”內(nèi)給定組的不同數(shù)據(jù)點(diǎn)之間的差異。

八、在 MNIST、重復(fù)的 MNIST以及 EMNIST 上進(jìn)行實(shí)驗(yàn)

我們已經(jīng)對(duì) EMNIST 數(shù)據(jù)集進(jìn)行了分類(lèi)實(shí)驗(yàn),該數(shù)據(jù)集涵蓋了由47個(gè)類(lèi)別和120000個(gè)數(shù)據(jù)點(diǎn)組成的手寫(xiě)字母和數(shù)字。 

      主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!    

圖8: EMNIST 數(shù)據(jù)集中所有47個(gè)類(lèi)別的示例

我們可以看到:在獲取大批次數(shù)據(jù)時(shí)表現(xiàn)更差(甚至比隨機(jī)獲取還差?。┑?BALD 采集函數(shù)有了明顯的改善:           

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖9: EMNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。BatchBALD 采集函數(shù)始終優(yōu)于隨機(jī)采集和 BALD 采集函數(shù),而 BALD 采集函數(shù)則無(wú)法超越隨機(jī)采集方法。 

這是因?yàn)榕c BatchBALD 采集函數(shù)和隨機(jī)采集相比,BALD 采集函數(shù)會(huì)主動(dòng)選擇冗余點(diǎn)。 為了更好地理解這一點(diǎn),我們可以查看所獲取的分類(lèi)標(biāo)簽并計(jì)算其分布的熵。 熵越高,獲取的標(biāo)簽就越多樣化:

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖10: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中,通過(guò)獲取步驟中獲取的類(lèi)標(biāo)簽的熵。BatchBALD 采集函數(shù)穩(wěn)定地獲取了更多不同的數(shù)據(jù)點(diǎn)集。  

我們還可以查看模型訓(xùn)練結(jié)束時(shí)所獲得的分類(lèi)的實(shí)際分布,并發(fā)現(xiàn) BALD 采集函數(shù)對(duì)某些分類(lèi)進(jìn)行了欠采樣,而 BatchBALD 采集函數(shù)嘗試更均勻地從不同分類(lèi)中選擇數(shù)據(jù)點(diǎn)(當(dāng)然該算法并不知道分類(lèi))。 1

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖11: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中,獲取的類(lèi)別標(biāo)簽的直方圖。左圖為 BatchBALD 采集函數(shù)結(jié)果,右圖為 BALD 采集函數(shù)結(jié)果。根據(jù)獲取次數(shù)對(duì)類(lèi)進(jìn)行分類(lèi),為清楚起見(jiàn),僅顯示下半部分。一些 EMNIST 類(lèi)在 BALD 采集函數(shù)中不具有足夠的代表性,而 BatchBALD 采集函數(shù)獲得的類(lèi)更加統(tǒng)一。根據(jù)所有的采集的點(diǎn)我們創(chuàng)建了如圖示的直方圖。

為了理解 BatchBALD 采集函數(shù)如何更好地解決不受控的場(chǎng)景,我們還嘗試了 MNIST 數(shù)據(jù)集版本,我們將其稱(chēng)為重復(fù)的 MNIST 數(shù)據(jù)集( Repeated MNIST )。我們將 MNIST 數(shù)據(jù)集簡(jiǎn)單地重復(fù)了3次,并增加了一些高斯噪聲,進(jìn)而展示了 BALD 采集函數(shù)如何掉入陷阱中:因?yàn)閿?shù)據(jù)集中有太多類(lèi)似的點(diǎn),使用得分排在前 b 的單個(gè)點(diǎn)是不利于計(jì)算的。 2

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖12: 在采集大小為10時(shí)重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BatchBALD 采集函數(shù)的性能優(yōu)于 BALD 采集函數(shù),而由于數(shù)據(jù)集中的副本,BALD 采集函數(shù)的性能要比隨機(jī)采集差。  

我們還嘗試了不同的采集大小,發(fā)現(xiàn)在 MNIST 數(shù)據(jù)集實(shí)驗(yàn)中,BatchBALD 采集函數(shù)甚至可以一次采集40個(gè)點(diǎn),而數(shù)據(jù)效率幾乎沒(méi)有損失,不過(guò) BALD 采集函數(shù)則會(huì)迅速惡化。            

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

                                                                  (BALD)                                                                  

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

          (BatchBALd)              

圖13: MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能,可增加采集大小。 隨著采集規(guī)模的增加,BALD 采集函數(shù)的性能急劇下降。即使采集數(shù)量增加,BatchBALD 采集函數(shù)仍可保持很好的性能。 

九、最后的一點(diǎn)想法

我們發(fā)現(xiàn)非常令人驚訝的是,當(dāng)在批次數(shù)據(jù)上進(jìn)行估計(jì)時(shí),在主動(dòng)學(xué)習(xí)中廣泛使用的標(biāo)準(zhǔn)采集函數(shù)的結(jié)果甚至比隨機(jī)基準(zhǔn)更差。不過(guò),我們樂(lè)于深入研究問(wèn)題的核心并試圖理解失敗的原因,從而使我們對(duì)在該領(lǐng)域使用信息論工具的方式有了新的見(jiàn)解。

從很多方面來(lái)看,我們?cè)谶@項(xiàng)工作中獲得的真正收獲是:當(dāng)某件事失敗時(shí),我們需要停下來(lái)認(rèn)真地思考。

腳注:

[1] 隨機(jī)獲取也比 BALD 采集函數(shù)能更一致地選擇類(lèi),但不如 BatchBALD 采集函數(shù)效果好。    

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖14: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中獲取的類(lèi)別標(biāo)簽的直方圖。 左邊是 BatchBALD 采集函數(shù),右邊是隨機(jī)采集中心,右邊是 BALD 采集函數(shù)。類(lèi)按獲取數(shù)量排序。在 BALD 采集函數(shù)和隨機(jī)獲取中,一些 EMNIST 類(lèi)的代表性不足,而 BatchBALD 采集函數(shù)則更一致地獲取類(lèi)。直方圖是用所有采集的點(diǎn)繪制的。   

[2] 但是 BALD 采集函數(shù)并不是在這種情況下唯一失敗的采集函數(shù)。     

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

圖15: 重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BALD 采集函數(shù),BatchBALD 采集函數(shù),方差率,標(biāo)準(zhǔn)均方差和隨機(jī)采集:采集大小10,帶有10個(gè) MC Dropout 樣本。  

參考文獻(xiàn)

[1] BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning

Kirsch, A., van Amersfoort, J. and Gal, Y., 2019.    

[2] Bayesian active learning for classification and preference learning    

Houlsby, N., Huszar, F., Ghahramani, Z. and Lengyel, M., 2011. arXiv preprint arXiv:1112.5745.

[3] A new outlook on Shannon's information measures     

Yeung, R.W., 1991. IEEE transactions on information theory, Vol 37(3), pp. 466--474. IEEE.

[4] An analysis of approximations for maximizing submodular set functions—I    

Nemhauser, G.L., Wolsey, L.A. and Fisher, M.L., 1978. Mathematical programming, Vol 14(1), pp. 265--294. Springer.           

[5] Dropout as a Bayesian approximation: Representing model uncertainty in deep learning   

Gal, Y. and Ghahramani, Z., 2016. international conference on machine learning, pp. 1050--1059.

via https://oatml.cs.ox.ac.uk/blog/2019/06/24/batchbald.html    雷鋒網(wǎng) AI 科技評(píng)論編譯  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問(wèn)題!

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)