日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給MrBear
發(fā)送

0

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

本文作者: MrBear 編輯:汪思穎 2018-04-04 10:31
導(dǎo)語(yǔ):計(jì)算機(jī)視覺(jué)入門(mén)到精通,可能比你想象的更簡(jiǎn)單!

雷鋒網(wǎng) AI 研習(xí)社按,在日前結(jié)束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」(冰山圖像分類(lèi)大賽)中,由 David Austin 和 Weimin Wang 組成的隊(duì)伍一舉拔得頭籌,獲得 25000 美元獎(jiǎng)金。據(jù)介紹,他們的解決方案能有效應(yīng)用于實(shí)際生活,保證艦船在危險(xiǎn)的水域更加安全地航行,降低船和貨物的損傷,避免人員傷亡。

據(jù) Kaggle 官網(wǎng)介紹,這次冰川圖像分類(lèi)大賽是 Kaggle 上最火的圖像分類(lèi)競(jìng)賽——擁有史上最多參賽隊(duì)伍。而在所有數(shù)據(jù)競(jìng)賽中,本次比賽熱度位列第 7。

不久前,外媒對(duì) David Austin 進(jìn)行了一次深入采訪,在采訪中,他們討論了以下問(wèn)題:

  • 冰山圖像分類(lèi)競(jìng)賽是什么;

  • 冠軍方案中的處理方法、核心算法以及相關(guān)技術(shù);

  • 在競(jìng)賽中遇到的最大的難題及解決方案;

  • 對(duì)想?yún)⒓?Kaggle 比賽的人的建議。

以下是具體的采訪內(nèi)容,雷鋒網(wǎng) AI 研習(xí)社編譯整理:

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 1:Kaggle 冰山分類(lèi)挑戰(zhàn)賽的任務(wù)目標(biāo)是建立一個(gè)圖像分類(lèi)器,將輸入衛(wèi)星圖像劃分為冰山或者船

問(wèn):你好,David,十分感謝你能接受我的采訪,也恭喜你們?cè)诒綀D像分類(lèi)挑戰(zhàn)賽中取得第一名的好成績(jī)。你是如何對(duì)計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)產(chǎn)生興趣的呢?

答:在過(guò)去兩年里,我對(duì)深度學(xué)習(xí)的興趣與日俱增。因?yàn)槲铱吹饺藗兝盟鼜臄?shù)據(jù)中獲得了難以置信的結(jié)果。我對(duì)深度學(xué)習(xí)領(lǐng)域的前沿研究和實(shí)際應(yīng)用都很感興趣,我認(rèn)為 Kaggle 是一個(gè)非常棒的平臺(tái)。通過(guò)比賽,我能保持對(duì)前沿技術(shù)的掌控能力,可以在合適的場(chǎng)景下嘗試新的技術(shù)。

問(wèn):你在參加這次比賽之前,在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)背景如何?你之前參加過(guò)其他 Kaggle 競(jìng)賽嗎?

答:大概十年前,我首次接觸機(jī)器學(xué)習(xí),那時(shí)我開(kāi)始學(xué)習(xí)梯度提升樹(shù)和隨機(jī)森林相關(guān)知識(shí)并將其應(yīng)用到分類(lèi)問(wèn)題中。近幾年,我開(kāi)始更廣泛地關(guān)注深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)。不到一年前,我開(kāi)始參加 Kaggle 競(jìng)賽,這是提升技能的一種方式,本次比賽是我第三次參加 Kaggle 競(jìng)賽。

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 2:冰山

問(wèn):能再談?wù)劚椒诸?lèi)挑戰(zhàn)賽嗎?是什么驅(qū)使你參加了本次比賽?

答:冰山分類(lèi)挑戰(zhàn)賽是一個(gè)圖像二分類(lèi)問(wèn)題,這個(gè)比賽要求參賽者在衛(wèi)星圖像中將船和冰山區(qū)分開(kāi)來(lái)。這項(xiàng)工作在能源勘探領(lǐng)域尤為重要,它讓我們能夠識(shí)別并且避開(kāi)類(lèi)似浮冰這樣的威脅。

本次比賽的數(shù)據(jù)有兩個(gè)特別有意思的地方:

  • 首先,數(shù)據(jù)集規(guī)模相當(dāng)小,訓(xùn)練集中只有 1604 張圖片。這樣一來(lái),從硬件的角度來(lái)說(shuō),參與競(jìng)賽的門(mén)檻很低。然而,另一方面,使用有限的數(shù)據(jù)完成圖像分類(lèi)任務(wù)又是十分困難的。

  • 其次,如果用肉眼去觀察這些圖片,它們看上去就像電視屏幕上出現(xiàn)的「雪花」圖——一堆亂七八糟的噪點(diǎn)。人類(lèi)用肉眼完全不可能看出來(lái)哪些圖像是船,哪些圖像是冰山。

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 3:人眼很難準(zhǔn)確判斷輸入圖片是「冰山」還是「船」

要讓人類(lèi)僅憑肉眼準(zhǔn)確地區(qū)分圖片類(lèi)別十分困難。我認(rèn)為這是一個(gè)很好的契機(jī)——測(cè)試深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)能夠做到人類(lèi)做不到的事情。

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 4: 冠軍團(tuán)隊(duì)采用集成的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

問(wèn):接下來(lái),讓我們討論稍微技術(shù)性一些的問(wèn)題。能介紹一下你們優(yōu)勝策略中所使用的數(shù)據(jù)處理方法、算法和相關(guān)技術(shù)嗎?

答:好的,總體上我們的數(shù)據(jù)處理方法和大多數(shù)傳統(tǒng)的計(jì)算機(jī)視覺(jué)問(wèn)題中所使用的方法很相似。我們都會(huì)事先花費(fèi)一些時(shí)間去理解數(shù)據(jù)。

使用無(wú)監(jiān)督學(xué)習(xí)方法是一種我最喜歡的技術(shù),通過(guò)學(xué)習(xí)這些模式,我們可以決定接下來(lái)將要使用什么樣的深度學(xué)習(xí)方法。

在這個(gè)任務(wù)中,標(biāo)準(zhǔn)的 KNN(K 最近鄰算法)就能夠識(shí)別出幫助定義模型結(jié)構(gòu)的關(guān)鍵信號(hào)。我們使用了一個(gè)十分龐大的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含超過(guò) 100 個(gè)改造過(guò)的卷積神經(jīng)網(wǎng)絡(luò)和類(lèi)似于 VGG 的結(jié)構(gòu),然后我們使用 greedy blending 策略和兩層結(jié)合了其他的圖像特征的集成學(xué)習(xí)算法將模型結(jié)果融合起來(lái)。

這聽(tīng)起來(lái)是個(gè)很復(fù)雜的方法。但是請(qǐng)記??!這里的目標(biāo)函數(shù)是要最小化對(duì)數(shù)損失誤差。在這個(gè)任務(wù)中,我們僅僅像這樣加入了一些模型,因?yàn)樗鼈兡軌蛟诓话l(fā)生過(guò)擬合的情況下減小對(duì)數(shù)損失。所以,這又是一個(gè)很好的例子,說(shuō)明了將許多弱機(jī)器學(xué)習(xí)模型集成之后的威力。

我們最后再次訓(xùn)練了許多和之前一樣的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),但是這里我們僅僅是使用了一開(kāi)始通過(guò)無(wú)監(jiān)督學(xué)習(xí)挑選出的原始數(shù)據(jù)的子集作為輸入,這同樣也提高了我們模型的性能。

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖5:過(guò)擬合是它們?cè)诒敬伪荣愔杏龅降淖罴值膯?wèn)題

問(wèn):對(duì)于你們來(lái)說(shuō),本次比賽中遇到的最大難題是什么?

答:在比賽中最困難的部分當(dāng)屬驗(yàn)證模型沒(méi)有過(guò)擬合。

說(shuō)實(shí)話,這個(gè)數(shù)據(jù)集對(duì)于圖像分類(lèi)問(wèn)題來(lái)說(shuō)是相當(dāng)小的,所以我們擔(dān)心過(guò)擬合會(huì)是一個(gè)很大的問(wèn)題。為此,得確保所有的模型都要經(jīng)過(guò)4折交叉驗(yàn)證,盡管這會(huì)增加計(jì)算開(kāi)銷(xiāo),但是卻能降低過(guò)擬合的風(fēng)險(xiǎn)。尤其是在處理像對(duì)數(shù)損失這樣非常嚴(yán)格的損失函數(shù)時(shí),需要時(shí)刻注意過(guò)擬合問(wèn)題。

問(wèn):訓(xùn)練模型需要花費(fèi)多長(zhǎng)時(shí)間呢?

答:盡管我們選用的卷積神經(jīng)網(wǎng)絡(luò)規(guī)模巨大,并且在所有的模型訓(xùn)練過(guò)程中都使用了4折交叉驗(yàn)證,訓(xùn)練過(guò)程僅僅花費(fèi)了一到兩天。沒(méi)有交叉驗(yàn)證的單個(gè)模型可以在幾分鐘內(nèi)完成訓(xùn)練。

問(wèn):如果要你選出一項(xiàng)本次比賽中你所使用的最重要的技術(shù)或者小竅門(mén),你會(huì)選什么呢?

答:毫無(wú)疑問(wèn),最重要的步驟當(dāng)屬預(yù)先進(jìn)行的探索性分析,從而對(duì)數(shù)據(jù)有更好的了解。

探索性分析的結(jié)果表明,有一個(gè)圖像數(shù)據(jù)之外的特征中非常重要,它能夠幫助消除數(shù)據(jù)中大量的噪聲。

在我看來(lái),我們?cè)谟?jì)算機(jī)視覺(jué)或者深度學(xué)習(xí)問(wèn)題中最容易忽視的步驟之一,就是需要事先理解數(shù)據(jù),并且利用這些知識(shí)幫助我們做出最佳設(shè)計(jì)選擇。

現(xiàn)成的算法如今更加易于獲得和引用,我們往往會(huì)不假思索、簡(jiǎn)單粗暴地將這些算法應(yīng)用于待解決的問(wèn)題上。然而我們卻沒(méi)有真正想清楚這些算法是不是這一任務(wù)的最佳選擇,或者沒(méi)有想清楚在訓(xùn)練之前或之后是否需要對(duì)數(shù)據(jù)進(jìn)行一些適當(dāng)?shù)奶幚砉ぷ鳌?/p>

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 6:優(yōu)勝解決方案用到了 Tensorflow、Keras、XGBoost 框架

問(wèn):本次比賽中,你選擇了哪些工具和程序庫(kù)?

答:就我個(gè)人而言,我認(rèn)為 TensorFlow 和 Keras 是最好用的,因此在處理深度學(xué)習(xí)問(wèn)題時(shí),我會(huì)傾向于選擇它們。

至于 stacking 和 boosting 兩種集成學(xué)習(xí)方法,我使用 XGBoost 去實(shí)現(xiàn),這也是因?yàn)槲覍?duì)它很熟悉以及它已經(jīng)被證實(shí)有好的運(yùn)算結(jié)果。

比賽中,我使用了我的 dl4cv 虛擬環(huán)境(這是計(jì)算機(jī)視覺(jué)深度神經(jīng)網(wǎng)絡(luò)中用到的 Python 虛擬環(huán)境),并且將 XGBoost 加入其中。

問(wèn):對(duì)于初次參加 Kaggle 競(jìng)賽的新手們,你有什么好的建議嗎?

答:Kaggle 有著很棒的社區(qū)文化,其上的比賽是依靠這個(gè)機(jī)制運(yùn)行的。

社區(qū)中有很多供選手進(jìn)行討論的論壇,也有各種各樣討論的方式。如果參賽選手愿意,他們可以將自己的代碼分享出來(lái)。當(dāng)你試著學(xué)習(xí)通用的方法并將代碼應(yīng)用于具體問(wèn)題上時(shí),這將十分有幫助。

當(dāng)我第一次參加 Kaggle 比賽時(shí),我花了幾個(gè)小時(shí)仔細(xì)閱讀了論壇中的文章以及其它高質(zhì)量的代碼,我發(fā)現(xiàn)這是學(xué)習(xí)的最佳途徑之一。

問(wèn):下一步的打算如何?

答:目前我手頭上有很多項(xiàng)目要去做,因此我將會(huì)忙上一段時(shí)間。還有一些 Kaggle 比賽看上去十分有趣,所以之后我很有可能再回來(lái)參與到其中。

問(wèn):如果讀者想要和你交流,你的聯(lián)系方式是什么呢?

答:最好方式的話,在我的 LinkedIn 用戶資料中有寫(xiě)到。大家同樣可以通過(guò) LinkedIn 聯(lián)系 Weimin Wang。同時(shí),我會(huì)參加 PyImageConf2018,如果大家想要和我當(dāng)面交流,那時(shí)候可以來(lái)找我。

via PyImageSearch

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

Kaggle 冰山圖像分類(lèi)大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)