主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

本文作者：翻譯官balala

編輯：幸麗娟

2019-12-22 12:12

專(zhuān)題：NeurIPS 2019

導(dǎo)語(yǔ)：可有效避免選中重復(fù)的數(shù)據(jù)進(jìn)行無(wú)效標(biāo)注。

雷鋒網(wǎng) AI 科技評(píng)論按：深度學(xué)習(xí)如今能夠大獲成功，其中的一大功臣便是大規(guī)模的標(biāo)注數(shù)據(jù)。然而在大多數(shù)現(xiàn)實(shí)場(chǎng)景中，我們往往只能獲得未經(jīng)標(biāo)注的大規(guī)模數(shù)據(jù)集，如果要對(duì)這么多數(shù)據(jù)進(jìn)行人工標(biāo)注，勢(shì)必耗費(fèi)大量的人力成本。在此前，研究界已經(jīng)提出主動(dòng)學(xué)習(xí)的方法來(lái)解決這一問(wèn)題，然后采用該方法選擇出來(lái)的數(shù)據(jù)可能存在大量重復(fù)的情況，從而造成標(biāo)注冗余問(wèn)題。

對(duì)此，牛津大學(xué)的理論和應(yīng)用機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)（OATML）在一篇 NeurIPS 2019 論文中提出了一種 BatchBALD 采集函數(shù)，可有效解決主動(dòng)學(xué)習(xí)面臨的這一難題， AI 科技評(píng)論編譯如下。

在主動(dòng)學(xué)習(xí)中，我們使用“人在回路”（Human in the Loop）的方法進(jìn)行數(shù)據(jù)標(biāo)注，可有效地減少了需要大量標(biāo)注的數(shù)據(jù)量，并且該方法適用于標(biāo)注成本過(guò)高時(shí)的機(jī)器學(xué)習(xí)。

我們?cè)凇禕atchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning》論文中提出了^[1]，進(jìn)一步提出了 BatchBALD 采集函數(shù)：這是一種在深度主動(dòng)學(xué)習(xí)中選擇信息點(diǎn)批次的全新的實(shí)用方法，它可以解決長(zhǎng)期困擾我們的標(biāo)注冗余問(wèn)題。我們提出的算法基于信息論并在有用的直覺(jué)（Intuition）上進(jìn)行了擴(kuò)展。

實(shí)現(xiàn)代碼 GitHub 地址： https://github.com/BlackHC/BatchBALD

一、什么是主動(dòng)學(xué)習(xí)？

我們?cè)谝幌盗兄匾膶?shí)驗(yàn)中，通過(guò)利用深度學(xué)習(xí)算法和大量經(jīng)標(biāo)注的數(shù)據(jù)集，能得到很好的結(jié)果。但在一般情況下，我們只能獲取到未標(biāo)注的大型數(shù)據(jù)集。例如，我們很容易獲得大量的庫(kù)存照片，但是標(biāo)注這些圖像既費(fèi)時(shí)又昂貴。這就使得許多應(yīng)用無(wú)法從深度學(xué)習(xí)的最新研究進(jìn)展成果中受益。

在主動(dòng)學(xué)習(xí)中，我們僅僅要求專(zhuān)家標(biāo)注信息量最多的數(shù)據(jù)點(diǎn)，而不是預(yù)先標(biāo)注整個(gè)數(shù)據(jù)集。然后我們?cè)偈褂眠@些新獲取的數(shù)據(jù)點(diǎn)和所有先前標(biāo)注好的數(shù)據(jù)點(diǎn)對(duì)模型進(jìn)行反復(fù)訓(xùn)練。重復(fù)此過(guò)程，直到模型結(jié)果的精度滿足我們的要求為止。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖1：主動(dòng)學(xué)習(xí)流程。重復(fù)進(jìn)行主動(dòng)訓(xùn)練、評(píng)分、標(biāo)注和獲取的學(xué)習(xí)步驟，直到模型達(dá)到足夠的精度為止。

要執(zhí)行主動(dòng)學(xué)習(xí)，我們需要定義一些信息評(píng)價(jià)指標(biāo)，這通常是以“采集函數(shù)（acquisition function）”的形式完成。之所以將此評(píng)價(jià)指標(biāo)稱(chēng)為“采集函數(shù)”，是因?yàn)樗?jì)算的分?jǐn)?shù)確定了我們要獲取的數(shù)據(jù)點(diǎn)。我們要發(fā)給專(zhuān)家做標(biāo)注的這些未經(jīng)標(biāo)注的數(shù)據(jù)點(diǎn)，可以最大化采集函數(shù)。

二、存在什么問(wèn)題？

通常來(lái)說(shuō)，未標(biāo)注點(diǎn)的信息量是單獨(dú)進(jìn)行評(píng)估的，其中一種流行的“采集函數(shù)”就是 BALD ^[2]。在主動(dòng)學(xué)習(xí)中，研究者往往普遍采用 BALD 這種采集函數(shù)方法來(lái)分別對(duì)未標(biāo)注點(diǎn)的信息量進(jìn)行評(píng)估，但是由于單個(gè)信息點(diǎn)可能幾乎相同，分別評(píng)估各個(gè)點(diǎn)的信息量極度浪費(fèi)資源。

這意味著，如果我們單純地獲取前 K 個(gè)最有用的點(diǎn)，可能最終會(huì)導(dǎo)致讓專(zhuān)家給 K 個(gè)幾乎相同的點(diǎn)加標(biāo)簽！

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖2：來(lái)自 MNIST 數(shù)據(jù)集（手寫(xiě)數(shù)字）的1000個(gè)隨機(jī)選擇的點(diǎn)的 BALD 得分（信息量）。這些點(diǎn)按數(shù)字標(biāo)簽進(jìn)行顏色編碼，并按分?jǐn)?shù)排序。用于評(píng)分的模型已經(jīng)首先訓(xùn)練達(dá)到 90％的準(zhǔn)確性。如果我們選擇得分最高的分?jǐn)?shù)（例如，得分高于 0.6），則大多數(shù)得分將是 8，即便我們能夠假定模型在獲得了前幾對(duì)得分后會(huì)認(rèn)為它們的信息量要少于其他可用的數(shù)據(jù)。點(diǎn)在x軸上通過(guò)數(shù)字標(biāo)簽進(jìn)行了稍微移動(dòng)以避免重疊。

三、我們的研究成果

在這篇論文中，我們將采集函數(shù)的概念有效地?cái)U(kuò)展到了數(shù)據(jù)點(diǎn)的集合，并提出了一種新的采集函數(shù)，該函數(shù)可以在獲取數(shù)據(jù)點(diǎn)的批次時(shí)考慮到數(shù)據(jù)點(diǎn)之間的相似性。

為此，我們采用了常用的 BALD 采集函數(shù)，并以特定的方式將其擴(kuò)展為 BatchBALD 采集函數(shù)。我們將在下文中對(duì)該采集函數(shù)進(jìn)行解釋。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖3： BALD采集函數(shù) 和 BatchBALD采集函數(shù) 的理想獲取。如果數(shù)據(jù)集的每個(gè)數(shù)據(jù)點(diǎn)包含多個(gè)相似點(diǎn)，則 BALD 采集函數(shù)將以犧牲其他信息數(shù)據(jù)點(diǎn)為代價(jià)選擇單個(gè)信息數(shù)據(jù)點(diǎn)的所有副本，從而浪費(fèi)了數(shù)據(jù)效率。

但是，僅僅知道如何為每個(gè)批次數(shù)據(jù)點(diǎn)評(píng)分是不夠的！我們?nèi)匀幻媾R著尋找得分最高的數(shù)據(jù)點(diǎn)批次的難題。簡(jiǎn)單的解決方案是嘗試數(shù)據(jù)點(diǎn)的所有子集，但那是行不通的，因?yàn)榇嬖?span style="color: #595959;">指數(shù)級(jí)多的可能性。

針對(duì)我們提出的采集函數(shù)，我們發(fā)現(xiàn)它具有一個(gè)非常有用的屬性，叫做子模性（Submodularity），它使我們能夠運(yùn)用貪婪算法：逐個(gè)選擇點(diǎn)，并在先前添加到數(shù)據(jù)點(diǎn)批次中的的所有點(diǎn)上調(diào)節(jié)每個(gè)新點(diǎn)。我們通過(guò)利用這種子模性屬性，可以證明這種貪婪算法找到的子集“足夠好”（也就是：1-1 / e-的近似）。

總體而言，這使得我們提出的采集函數(shù) BatchBALD 在性能上要優(yōu)于 BALD 采集函數(shù) ：對(duì)于大小相差不多的批次，它使用較少的迭代和較少的數(shù)據(jù)點(diǎn)即可達(dá)到更高的精度，并顯著地減少了冗余的模型訓(xùn)練和專(zhuān)家標(biāo)注，從而降低了成本和時(shí)間。

而且，從經(jīng)驗(yàn)上講，它與按順序獲取單個(gè)點(diǎn)的最優(yōu)選擇一樣好，但在速度上要比后者快得多。后者在每個(gè)單點(diǎn)獲取之后，仍需要重新訓(xùn)練模型。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

（a） MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。在采集大小為10的情況下，BatchBALD 采集函數(shù)優(yōu)于 BALD 采集函數(shù)，并且性能接近最佳采集大小1

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

（b） MNIST 數(shù)據(jù)集實(shí)驗(yàn)的相對(duì)總時(shí)間，標(biāo)準(zhǔn)化訓(xùn)練采集大小為10的 BatchBALD 采集函數(shù)至95％的精度。星號(hào)標(biāo)注表示：每種方法達(dá)到95％的準(zhǔn)確度的點(diǎn)。

圖4： MNIST 數(shù)據(jù)集實(shí)驗(yàn)的 BALD 采集函數(shù)和 BatchBALD 采集函數(shù)的性能和訓(xùn)練時(shí)間。采集大小為10的 BatchBALD 采集函數(shù)的性能與采集大小為1的 BALD 采集函數(shù)差異不大，但是它只需要一小段時(shí)間，因?yàn)樗枰匦掠?xùn)練模型的次數(shù)更少。與采集大小為10的 BALD 采集函數(shù)相比，BatchBALD 采集函數(shù)也需要更少的采集來(lái)達(dá)到95％的準(zhǔn)確度。

在解釋采集函數(shù)之前，我們需要了解 BALD 采集函數(shù)的作用。

四、什么是BALD采集函數(shù)？

BALD 是貝葉斯不一致主動(dòng)學(xué)習(xí)（Bayesian Active Learning by Disagreement）的簡(jiǎn)稱(chēng) ^[2]。

如“貝葉斯”其名所示，它假設(shè)貝葉斯設(shè)定能夠讓我們捕獲模型預(yù)測(cè)的不確定性。在貝葉斯模型中，參數(shù)不僅僅是在訓(xùn)練過(guò)程中更新的數(shù)字（點(diǎn)估計(jì)），而且是概率分布。

這使模型可以量化它的理念：參數(shù)的廣泛分布意味著模型無(wú)法確定其真實(shí)值，反之狹窄的參數(shù)分布則可以量化更高的確定性。

BALD 采集函數(shù)（基于模型預(yù)測(cè)的結(jié)果 y 是否能很好地體現(xiàn)模型參數(shù) ω）給一個(gè)數(shù)據(jù)點(diǎn) x進(jìn)行評(píng)分。為此，需要計(jì)算出互信息 Ⅱ（y , ω）。眾所周知，互信息是信息論中的概念，它能捕獲數(shù)量之間的信息重疊。

當(dāng)使用 BALD 采集函數(shù)選擇一個(gè)批次的 b 點(diǎn)時(shí)，我們選擇的是 BALD 采集函數(shù)得分最高的前 b 個(gè)點(diǎn)，這是該領(lǐng)域的標(biāo)準(zhǔn)做法。這與最大化以下批量采集函數(shù)的做法相同：

a_BALD( {x₁, ... , x_b} , p( ω | D_train) ) := Σ^b_i=1Ⅱ(y_i; ω | x_i, D_train)

其中，

{x₁^*, ..., x_b^*} := arg max a_BALD( {x₁, ... , x_b} , p(ω | D_train) )，{x1, ... , xb} ?D_pool

直觀來(lái)看，如果在批次點(diǎn)中，我們將給定一些數(shù)據(jù)點(diǎn)和模型參數(shù)得到的預(yù)測(cè)信息內(nèi)容視作集合，互信息則可以看作是這些集合的交集，這就對(duì)應(yīng)了互信息評(píng)估信息重疊的概念。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖5： BALD采集函數(shù) 背后的直覺(jué)。灰色區(qū)域有助于BALD 得分，深灰色區(qū)域被重復(fù)計(jì)算。

事實(shí)上，Yeuang在論文《A new outlook on Shannon's information measures》中^[3]表明，這種直覺(jué)是有充分依據(jù)的。我們可以定義一個(gè)信息度 μ*，從而能夠使用設(shè)定操作來(lái)代表信息理論量化。

Η（x , y）= μ*(x ∪ y)

Ⅱ(x , y) = μ*(x ∩ y)

E_p(y)Η（x | y）= μ*(x \ y)

圖 5 展示了 BALD 采集函數(shù)在獲取3個(gè)點(diǎn)的批次時(shí)對(duì)這些集合的交集區(qū)域所計(jì)算出來(lái)的分?jǐn)?shù)。

因?yàn)?BALD 采集函數(shù)是一個(gè)簡(jiǎn)單累加計(jì)算，所以會(huì)導(dǎo)致數(shù)據(jù)點(diǎn)之間的互信息被重復(fù)計(jì)算，并且 BALD 采集函數(shù)高估了真實(shí)的互信息。這就是為什么在具有同一點(diǎn)有很多（幾乎相同）副本的數(shù)據(jù)集中，單純使用 BALD 采集函數(shù)會(huì)導(dǎo)致我們選出所有副本的原因：我們對(duì)所有點(diǎn)之間的互信息交集進(jìn)行累積計(jì)算！

五、BatchBALD 采集函數(shù)

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖6： BatchBALD 采集函數(shù)背后的直覺(jué)。 BatchBALD 采集函數(shù)考慮了數(shù)據(jù)點(diǎn)之間的相似性。

為了避免重復(fù)計(jì)算，我們要計(jì)算數(shù)量 μ*(U_i y_i∩ ω)，如圖 6 所示，它對(duì)應(yīng)的是 yi 和 ω 的互信息Ⅱ( y₁, ... , y_b; ω | x₁, .... , x_b, D_train) ：

a_BatchBALD( {x1, ... , xb} , p(ω | D_train)) := Ⅱ(y₁, ... , y_b ; ω | x₁, .... , x_b, D_train)

擴(kuò)展互信息的定義后，我們得到以下兩項(xiàng)之間的區(qū)別：

a_BatchBALD( {x₁, ... , x_b} , p(ω | D_train)) = H(y₁, ... , y_b ; ω | x₁, .... , x_b, D_train)

-E _{p( ω | Dtrain )}[ H(y₁, ... , y_b | x₁, .... , x_b, ω) ]

第一項(xiàng)獲取了模型的一般不確定性，第二項(xiàng)獲取了給定模型參數(shù)描述的預(yù)期不確定性。

我們可以看到，當(dāng)模型對(duì)數(shù)據(jù)點(diǎn)有不同的解釋?zhuān)簿褪悄Ｐ蛯?duì)單個(gè)點(diǎn)更有信心（產(chǎn)生較小的第二項(xiàng)），但預(yù)測(cè)結(jié)果彼此并不不同（產(chǎn)生較大的第一項(xiàng)）時(shí)，該模型得到的分?jǐn)?shù)將變高。這就是“不一致”這個(gè)名稱(chēng)的由來(lái)。（這也是“貝葉斯不一致主動(dòng)學(xué)習(xí)”這一名稱(chēng)中的“不一致”的由來(lái)）

六、子模性

現(xiàn)在為了確定要獲取的數(shù)據(jù)點(diǎn)，我們將使用子模性。

基于子模性我們可以知道，這種做法帶來(lái)的提升會(huì)越來(lái)越?。哼x中兩個(gè)點(diǎn)帶來(lái)的分?jǐn)?shù)提升要比單獨(dú)選中一個(gè)點(diǎn)大，但是也沒(méi)有把兩個(gè)點(diǎn)各自帶來(lái)的提升加起來(lái)那么大：給定函數(shù) f ：Ω→R ，我們稱(chēng)f的子模，如果：

f（A ∪{ x，y }）-f（A）≤（f（A∪{ x }）-f（A））+ （f（A∪ { y }）-f（A））

其中，所有的 A 包含于 Ω 和所有元素 x，y∈Ω 成立。

我們?cè)谡撐牡母戒?A 中證明，我們的采集函數(shù)滿足了這一特性。

Nemhauser等人在論文《An analysis of approximations for maximizing submodular set functions》中^[4]已經(jīng)證明，在子模函數(shù)中，可以使用貪婪算法來(lái)選擇點(diǎn)，并保證其分?jǐn)?shù)至少為 1-1 / e ≈63 ％是最佳的。這樣的算法稱(chēng)為 1-1 / e- 的近似。

貪心算法以一個(gè)空批次 A = { } 開(kāi)始，并計(jì)算所有未標(biāo)注數(shù)據(jù)點(diǎn)的 a_BatchBALD( A∪{x} )，將最高分 X 加到A上并重復(fù)此過(guò)程，直到 A 在獲取大小內(nèi)。

接下來(lái)的文章將對(duì)此進(jìn)行詳細(xì)說(shuō)明。

七、一致的蒙特卡羅 Dropout

我們使用蒙特卡羅 Dropout（MC Dropout）實(shí)現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò)^[5]。但是，與其他實(shí)現(xiàn)方法的重要區(qū)別在于，我們需要一致的 MC Dropout：為了能夠計(jì)算數(shù)據(jù)點(diǎn)之間的聯(lián)合熵，我們需要使用相同的采樣模型參數(shù)來(lái)計(jì)算 a_BatchBALD 。

為了弄清原因，如圖 7 中所示，我們研究了隨著不同樣本模型參數(shù)設(shè)置的 MC Dropout 變化，評(píng)分分?jǐn)?shù)將如何變化。

如果沒(méi)有一致的 MC Dropout，模型將使用不同的采樣模型參數(shù)集對(duì)得分進(jìn)行采樣，這會(huì)導(dǎo)致丟失 y_i與附近的 X_i之間的函數(shù)相關(guān)性，并且由于分?jǐn)?shù)被分散，它與與隨機(jī)采集獲取數(shù)據(jù)的方法基本上沒(méi)有什么區(qū)別。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖7：不同組的100個(gè)采樣模型參數(shù)的 BatchBALD 采集函數(shù)得分。這展示了從數(shù)據(jù)集中隨機(jī)選取的1000個(gè)點(diǎn)的 BatchBALD 采集函數(shù)得分，同時(shí)為已經(jīng)達(dá)到90％精度的 MNIST 數(shù)據(jù)集實(shí)驗(yàn)?zāi)Ｐ瓦x擇了第10個(gè)點(diǎn)。單組100個(gè)模型參數(shù)的得分以藍(lán)色顯示。BatchBALD 采集函數(shù)估計(jì)值表現(xiàn)出很強(qiáng)的帶寬，不同組采樣參數(shù)之間的得分差異大于單個(gè)頻段“軌跡”內(nèi)給定組的不同數(shù)據(jù)點(diǎn)之間的差異。

八、在 MNIST、重復(fù)的 MNIST以及 EMNIST 上進(jìn)行實(shí)驗(yàn)

我們已經(jīng)對(duì) EMNIST 數(shù)據(jù)集進(jìn)行了分類(lèi)實(shí)驗(yàn)，該數(shù)據(jù)集涵蓋了由47個(gè)類(lèi)別和120000個(gè)數(shù)據(jù)點(diǎn)組成的手寫(xiě)字母和數(shù)字。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖8： EMNIST 數(shù)據(jù)集中所有47個(gè)類(lèi)別的示例

我們可以看到：在獲取大批次數(shù)據(jù)時(shí)表現(xiàn)更差（甚至比隨機(jī)獲取還差?。┑?BALD 采集函數(shù)有了明顯的改善：

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖9： EMNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。BatchBALD 采集函數(shù)始終優(yōu)于隨機(jī)采集和 BALD 采集函數(shù)，而 BALD 采集函數(shù)則無(wú)法超越隨機(jī)采集方法。

這是因?yàn)榕c BatchBALD 采集函數(shù)和隨機(jī)采集相比，BALD 采集函數(shù)會(huì)主動(dòng)選擇冗余點(diǎn)。為了更好地理解這一點(diǎn)，我們可以查看所獲取的分類(lèi)標(biāo)簽并計(jì)算其分布的熵。熵越高，獲取的標(biāo)簽就越多樣化：

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖10：在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中，通過(guò)獲取步驟中獲取的類(lèi)標(biāo)簽的熵。BatchBALD 采集函數(shù)穩(wěn)定地獲取了更多不同的數(shù)據(jù)點(diǎn)集。

我們還可以查看模型訓(xùn)練結(jié)束時(shí)所獲得的分類(lèi)的實(shí)際分布，并發(fā)現(xiàn) BALD 采集函數(shù)對(duì)某些分類(lèi)進(jìn)行了欠采樣，而 BatchBALD 采集函數(shù)嘗試更均勻地從不同分類(lèi)中選擇數(shù)據(jù)點(diǎn)（當(dāng)然該算法并不知道分類(lèi)）。 1

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖11：在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中，獲取的類(lèi)別標(biāo)簽的直方圖。左圖為 BatchBALD 采集函數(shù)結(jié)果，右圖為 BALD 采集函數(shù)結(jié)果。根據(jù)獲取次數(shù)對(duì)類(lèi)進(jìn)行分類(lèi)，為清楚起見(jiàn)，僅顯示下半部分。一些 EMNIST 類(lèi)在 BALD 采集函數(shù)中不具有足夠的代表性，而 BatchBALD 采集函數(shù)獲得的類(lèi)更加統(tǒng)一。根據(jù)所有的采集的點(diǎn)我們創(chuàng)建了如圖示的直方圖。

為了理解 BatchBALD 采集函數(shù)如何更好地解決不受控的場(chǎng)景，我們還嘗試了 MNIST 數(shù)據(jù)集版本，我們將其稱(chēng)為重復(fù)的 MNIST 數(shù)據(jù)集（ Repeated MNIST ）。我們將 MNIST 數(shù)據(jù)集簡(jiǎn)單地重復(fù)了3次，并增加了一些高斯噪聲，進(jìn)而展示了 BALD 采集函數(shù)如何掉入陷阱中：因?yàn)閿?shù)據(jù)集中有太多類(lèi)似的點(diǎn)，使用得分排在前 b 的單個(gè)點(diǎn)是不利于計(jì)算的。 2

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖12：在采集大小為10時(shí)重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BatchBALD 采集函數(shù)的性能優(yōu)于 BALD 采集函數(shù)，而由于數(shù)據(jù)集中的副本，BALD 采集函數(shù)的性能要比隨機(jī)采集差。

我們還嘗試了不同的采集大小，發(fā)現(xiàn)在 MNIST 數(shù)據(jù)集實(shí)驗(yàn)中，BatchBALD 采集函數(shù)甚至可以一次采集40個(gè)點(diǎn)，而數(shù)據(jù)效率幾乎沒(méi)有損失，不過(guò) BALD 采集函數(shù)則會(huì)迅速惡化。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

（BALD）

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

（BatchBALd）

圖13： MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能，可增加采集大小。隨著采集規(guī)模的增加，BALD 采集函數(shù)的性能急劇下降。即使采集數(shù)量增加，BatchBALD 采集函數(shù)仍可保持很好的性能。

九、最后的一點(diǎn)想法

我們發(fā)現(xiàn)非常令人驚訝的是，當(dāng)在批次數(shù)據(jù)上進(jìn)行估計(jì)時(shí)，在主動(dòng)學(xué)習(xí)中廣泛使用的標(biāo)準(zhǔn)采集函數(shù)的結(jié)果甚至比隨機(jī)基準(zhǔn)更差。不過(guò)，我們樂(lè)于深入研究問(wèn)題的核心并試圖理解失敗的原因，從而使我們對(duì)在該領(lǐng)域使用信息論工具的方式有了新的見(jiàn)解。

從很多方面來(lái)看，我們?cè)谶@項(xiàng)工作中獲得的真正收獲是：當(dāng)某件事失敗時(shí)，我們需要停下來(lái)認(rèn)真地思考。

腳注：

[1] 隨機(jī)獲取也比 BALD 采集函數(shù)能更一致地選擇類(lèi)，但不如 BatchBALD 采集函數(shù)效果好。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖14：在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中獲取的類(lèi)別標(biāo)簽的直方圖。左邊是 BatchBALD 采集函數(shù)，右邊是隨機(jī)采集中心，右邊是 BALD 采集函數(shù)。類(lèi)按獲取數(shù)量排序。在 BALD 采集函數(shù)和隨機(jī)獲取中，一些 EMNIST 類(lèi)的代表性不足，而 BatchBALD 采集函數(shù)則更一致地獲取類(lèi)。直方圖是用所有采集的點(diǎn)繪制的。

[2] 但是 BALD 采集函數(shù)并不是在這種情況下唯一失敗的采集函數(shù)。

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

圖15：重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BALD 采集函數(shù)，BatchBALD 采集函數(shù)，方差率，標(biāo)準(zhǔn)均方差和隨機(jī)采集：采集大小10，帶有10個(gè) MC Dropout 樣本。

參考文獻(xiàn)

[1] BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning

Kirsch, A., van Amersfoort, J. and Gal, Y., 2019.

[2] Bayesian active learning for classification and preference learning

Houlsby, N., Huszar, F., Ghahramani, Z. and Lengyel, M., 2011. arXiv preprint arXiv:1112.5745.

[3] A new outlook on Shannon's information measures

Yeung, R.W., 1991. IEEE transactions on information theory, Vol 37(3), pp. 466--474. IEEE.

[4] An analysis of approximations for maximizing submodular set functions—I

Nemhauser, G.L., Wolsey, L.A. and Fisher, M.L., 1978. Mathematical programming, Vol 14(1), pp. 265--294. Springer.

[5] Dropout as a Bayesian approximation: Representing model uncertainty in deep learning

Gal, Y. and Ghahramani, Z., 2016. international conference on machine learning, pp. 1050--1059.

via https://oatml.cs.ox.ac.uk/blog/2019/06/24/batchbald.html 雷鋒網(wǎng) AI 科技評(píng)論編譯雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

專(zhuān)題

NeurIPS 2019

本專(zhuān)題其他文章

翻譯官balala

知情人士

發(fā)私信

當(dāng)月熱門(mén)文章

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

一、什么是主動(dòng)學(xué)習(xí)？

二、存在什么問(wèn)題？

三、我們的研究成果

四、什么是BALD采集函數(shù)？

五、BatchBALD 采集函數(shù)

六、子模性

七、一致的蒙特卡羅 Dropout

八、在 MNIST、重復(fù)的 MNIST以及 EMNIST 上進(jìn)行實(shí)驗(yàn)

九、最后的一點(diǎn)想法

腳注：

參考文獻(xiàn)

NeurIPS 2019

主動(dòng)學(xué)習(xí)可減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)卻會(huì)造成標(biāo)注冗余？NeurIPS 2019 論文解決了這個(gè)問(wèn)題！

一、什么是主動(dòng)學(xué)習(xí)？

二、存在什么問(wèn)題？

三、我們的研究成果

四、什么是BALD采集函數(shù)？

五、BatchBALD 采集函數(shù)

六、子模性

七、一致的蒙特卡羅 Dropout

八、在 MNIST、重復(fù)的 MNIST以及 EMNIST 上進(jìn)行實(shí)驗(yàn)

九、最后的一點(diǎn)想法