日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

本文作者: 汪思穎 2018-12-31 23:25
導(dǎo)語:實(shí)驗(yàn)數(shù)據(jù)方面,共使用了33種驗(yàn)證碼方案,涉及網(wǎng)站超過50個(gè),其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個(gè)著名網(wǎng)站。

雷鋒網(wǎng) AI 科技評(píng)論按,本文作者是西北大學(xué)葉貴鑫,他為 AI 科技評(píng)論撰寫了關(guān)于 CCS 2018 論文《使用少量樣本破解文本驗(yàn)證碼》的獨(dú)家解讀,內(nèi)容如下,未經(jīng)許可禁止轉(zhuǎn)載。

1. 前言

相信大家在日常上網(wǎng)的時(shí)候都會(huì)遇到“千奇百怪”的驗(yàn)證碼,而在種類繁多的驗(yàn)證碼家族中,文本驗(yàn)證碼是使用最廣泛的一種,也是我們遇到最多的一種驗(yàn)證碼方案。近年來,隨著深度學(xué)習(xí)技術(shù)的突破性發(fā)展,文本驗(yàn)證碼的安全性也受到了挑戰(zhàn)。通過收集大量目標(biāo)網(wǎng)站的驗(yàn)證碼,并訓(xùn)練一個(gè)深度網(wǎng)絡(luò)模型,就可以實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站驗(yàn)證碼的攻擊。為了抵抗基于深度學(xué)習(xí)模型的攻擊,一方面,各大網(wǎng)站都采用諸如字符扭曲、粘連、旋轉(zhuǎn),背景混淆,空心字體等多種復(fù)雜變換方案來提高文本驗(yàn)證碼的安全性;另一方面,有些網(wǎng)站采用了諸如前端代碼混淆、關(guān)鍵代碼加密等反分析方式來防止驗(yàn)證碼被惡意收集和自動(dòng)爬取,進(jìn)而通過增大攻擊的成本來降低驗(yàn)證碼被攻擊的可能性。然而,上述兩種方式真的能夠增強(qiáng)驗(yàn)證碼的安全性嗎?

接下來,我將介紹一篇ACM CCS 2018上的一篇基于少量樣本構(gòu)建驗(yàn)證碼求解器的論文:《Yet Another Text Captcha Solver: A Generative Adversarial Network Based Approach》,該論文是由中國(guó)西北大學(xué)的房鼎益、陳曉江教授團(tuán)隊(duì)、北京大學(xué)以及英國(guó)蘭卡斯特大學(xué)聯(lián)合發(fā)表的。

論文地址:https://dl.acm.org/citation.cfm?doid=3243734.3243754

論文公開了部分源碼:https://github.com/yeguixin/captcha_solver

2. Idea的由來

我們?cè)谝淮窝芯啃〗M內(nèi)關(guān)于AI的討論中了解到了Generative Adversarial Networks(GANs),當(dāng)時(shí)我們了解到GANs不僅可以生成目標(biāo)數(shù)據(jù),而且其改進(jìn)技術(shù)Conditional Generative Adversarial Networks(CGANs)還可以實(shí)現(xiàn)圖像自動(dòng)標(biāo)注的任務(wù)(如圖像風(fēng)格間的轉(zhuǎn)換)。

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

圖 1:“RGB->油畫”轉(zhuǎn)換效果圖

既然GANs有強(qiáng)大的生成能力,那么就可能生成海量與目標(biāo)網(wǎng)站風(fēng)格類似的驗(yàn)證碼。CGANs既然可以實(shí)現(xiàn)圖像風(fēng)格間的轉(zhuǎn)換(如圖1所示),那么就能夠去掉圖像中的顏色,換句話說,就可以去掉驗(yàn)證碼圖像中復(fù)雜的混淆背景。上述兩點(diǎn)設(shè)想對(duì)于減少訓(xùn)練樣本、降低攻擊成本有至關(guān)重要的作用。具體地,如果能夠自動(dòng)生成大量的驗(yàn)證碼,就直接讓攻擊者從手動(dòng)收集和標(biāo)注驗(yàn)證碼的繁重工作中解脫出來,進(jìn)而降低攻擊成本;如果能夠去掉驗(yàn)證碼中的背景,就能夠減少訓(xùn)練樣本的數(shù)量,從而提高模型的識(shí)別率。

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

圖 2:預(yù)處理結(jié)果示例

然而,事情并沒有我們預(yù)想的那樣一帆風(fēng)順。雖然CGANs可以有效地去除驗(yàn)證碼的背景(如圖2所示)。但GANs的生成效果卻沒有想象中的好。GANs是通過隨機(jī)噪聲或高斯噪聲來生成數(shù)據(jù)的,并且訓(xùn)練過程中需要大量的真實(shí)數(shù)據(jù)作為參考,而當(dāng)前驗(yàn)證碼中加入了非常復(fù)雜的字符變換,若要訓(xùn)練驗(yàn)證碼生成模型,勢(shì)必需要更多真實(shí)驗(yàn)證碼作為參考。

既然使用隨機(jī)噪聲生成驗(yàn)證碼需要大量的真實(shí)數(shù)據(jù),那么我們就開始考慮使用傳統(tǒng)驗(yàn)證碼生成器去生成,將生成的驗(yàn)證碼替換成隨機(jī)噪聲作為GANs的輸入,讓GANs對(duì)生成的驗(yàn)證碼做微調(diào)。然后使用鑒別器評(píng)估生成的驗(yàn)證碼的風(fēng)格是否與真實(shí)驗(yàn)證碼風(fēng)格類似,即生成數(shù)據(jù)與真實(shí)數(shù)據(jù)同分布。于是,我們首先將驗(yàn)證碼參數(shù)化表示,即所用的字符、字符旋轉(zhuǎn)角度、扭曲程度、所用背景、所用字體等參數(shù)化,然后利用網(wǎng)絡(luò)自動(dòng)調(diào)整生成參數(shù)。這樣就實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)生成,減少了人工參與的工作量。利用生成的數(shù)據(jù),就可以訓(xùn)練驗(yàn)證碼識(shí)別模型。為了進(jìn)一步降低生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差別,我們使用了遷移學(xué)習(xí)技術(shù)調(diào)優(yōu)模型,從而提高模型的泛化能力和識(shí)別精度。于是,我們的整個(gè)Idea就這樣產(chǎn)生了。

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

圖 3:系統(tǒng)架構(gòu)圖 

3. 系統(tǒng)架構(gòu)和各模塊簡(jiǎn)介

該系統(tǒng)主要分為4個(gè)模塊(如圖3所示),下面來簡(jiǎn)單介紹下各個(gè)模塊的功能與作用。

(1)驗(yàn)證碼合成模塊。合成驗(yàn)證碼之前,首先需要手動(dòng)分析組成驗(yàn)證碼的主要元素(論文中稱為security features),如由哪些字符或數(shù)字組成,字符是否有扭曲和旋轉(zhuǎn)特征,由哪些背景組成等,然后將上述元素參數(shù)化,并賦予初始值生成初始的驗(yàn)證碼輸入到GANs里面。隨著GANs的訓(xùn)練,生成器不斷調(diào)整生成參數(shù),直到鑒別器無法鑒別是生成的還是真實(shí)的驗(yàn)證碼。為了保證風(fēng)格的一致性,我們使用了500個(gè)真實(shí)驗(yàn)證碼參與到訓(xùn)練過程中。訓(xùn)練好生成器后,便可以生成大量的驗(yàn)證碼用于構(gòu)建初始的驗(yàn)證碼求解器。需要說明的是,對(duì)于有背景的驗(yàn)證碼,需要分別生成有背景和無背景的驗(yàn)證碼,以便進(jìn)行下一步的預(yù)處理。特別地,為了生成無背景的驗(yàn)證碼,只需要將背景的那一項(xiàng)參數(shù)置為NULL。

(2)預(yù)處理模塊。這一模塊主要針對(duì)具有背景或空心字體的驗(yàn)證碼而設(shè)計(jì)的,主要目的是去除復(fù)雜的混淆背景,或者統(tǒng)一字體類型,以減少使用訓(xùn)練數(shù)據(jù)的數(shù)量,進(jìn)而降低模型的復(fù)雜度、加快模型收斂速度。我們使用了Pix2Pix模型來完成這一步驟。以復(fù)雜混淆背景驗(yàn)證碼為例(如圖2所示),訓(xùn)練時(shí)輸入有背景的驗(yàn)證碼,同時(shí)輸入無背景驗(yàn)證碼作為參考數(shù)據(jù)。由于生成器使用了L1 Loss,能夠很好的處理圖像中的低頻部分(圖像的色塊),故根據(jù)目標(biāo)函數(shù),生成器通過調(diào)整模型參數(shù),最終能夠?qū)⒂斜尘暗尿?yàn)證碼轉(zhuǎn)換成無背景的驗(yàn)證碼。

(3)驗(yàn)證碼識(shí)別模型的構(gòu)建。該驗(yàn)證碼識(shí)別模型使用生成數(shù)據(jù)來構(gòu)建,對(duì)于每一種類型的驗(yàn)證碼,我們使用了20萬生成數(shù)據(jù),利用LeNet-5來構(gòu)建驗(yàn)證碼識(shí)別模型,與LeNet-5稍有不同,我們?cè)黾恿?層卷積層和3層池化層來增強(qiáng)其模型的識(shí)別能力。其中,每一層卷積層的卷積核大小為3*3,在池化層中使用了max-pooling。

(4)模型優(yōu)化。為了進(jìn)一步縮小生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差異,我們使用了遷移學(xué)習(xí),利用少量的真實(shí)樣本,將(3)中的模型進(jìn)行調(diào)優(yōu)。由于CNN模型的后面幾層是更為抽象的特征,而由于真實(shí)樣本數(shù)量的限制,我們的生成器在抽象特征上面與真實(shí)數(shù)據(jù)存在差異,故需要訓(xùn)練和調(diào)整模型后面幾層的參數(shù),并保持前面幾層的參數(shù)不變。

4. 簡(jiǎn)單說說實(shí)驗(yàn)

實(shí)驗(yàn)數(shù)據(jù)方面,共使用了33種驗(yàn)證碼方案,涉及網(wǎng)站超過50個(gè),其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個(gè)著名網(wǎng)站。對(duì)于每一種驗(yàn)證碼,自動(dòng)或手動(dòng)收集和標(biāo)記1500個(gè)真實(shí)驗(yàn)證碼,其中500個(gè)用于訓(xùn)練生成器和調(diào)優(yōu)CNN模型,1000個(gè)用于測(cè)試。實(shí)驗(yàn)結(jié)果表明,我們方法不僅識(shí)別率明顯高于state-of-the-arts(如圖5所示),而且時(shí)間開銷明顯要小(如圖4所示)。對(duì)于有些驗(yàn)證碼方案,我們的方法的識(shí)別率高于了人類的識(shí)別率。

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

圖 4:當(dāng)前網(wǎng)站驗(yàn)證碼識(shí)別結(jié)果圖

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

圖 5:與 state-of-the-arts 比較結(jié)果圖

5. 如何應(yīng)對(duì)

為了緩解此類攻擊,建議網(wǎng)站同時(shí)使用多套驗(yàn)證碼方案,驗(yàn)證碼中每個(gè)字符都使用不同的字體和風(fēng)格,并且需要頻繁的更新(最好更新頻率為一天)驗(yàn)證碼方案,以增加攻擊的成本使攻擊難以成功。但這只是暫時(shí)的緩解措施,并不能從根源上增強(qiáng)驗(yàn)證碼的安全性,而且復(fù)雜的驗(yàn)證碼方案由于用戶友好性差并不能很好的推廣使用。我們也相信,資深的攻擊者(或者黑產(chǎn))會(huì)以更高的效率和更短的時(shí)間來發(fā)起攻擊。目前,我們正致力于新的文本驗(yàn)證碼生成方案。

6. 對(duì)當(dāng)前網(wǎng)站驗(yàn)證碼的安全性分析和思考

我們發(fā)現(xiàn),有些網(wǎng)站后臺(tái)使用了機(jī)器人自動(dòng)檢測(cè)技術(shù),即根據(jù)輸入驗(yàn)證碼時(shí)的輸入速度、但應(yīng)時(shí)間等行為特征來判斷前端操作是人還是計(jì)算機(jī)自動(dòng)程序。然而,我們近期的研究發(fā)現(xiàn),這種檢測(cè)技術(shù)也可以被騙過。若故意在相鄰的兩個(gè)操作之間間隔一定的時(shí)間,就可以很輕松的繞過這種檢測(cè)機(jī)制。利用我們訓(xùn)練好的驗(yàn)證碼識(shí)別模型,在兩個(gè)仍然使用文本驗(yàn)證碼的主流網(wǎng)站(其中一個(gè)使用了機(jī)器人自動(dòng)檢測(cè)技術(shù))上進(jìn)行了實(shí)驗(yàn),大多數(shù)情況下攻擊一次就成功了。

我們通過該研究來提高業(yè)界對(duì)驗(yàn)證碼安全性的重視和關(guān)注,并呼吁業(yè)界開發(fā)和使用更加安全、用戶更友好的驗(yàn)證碼方案,也希望能與業(yè)界一道,在身份認(rèn)證技術(shù)上,尋求更高的突破。

【延申閱讀】

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

西北大學(xué)-愛迪德物聯(lián)網(wǎng)信息安全聯(lián)合實(shí)驗(yàn)室(NISL)

2009年7月,西北大學(xué)與國(guó)際知名的數(shù)字電視領(lǐng)先技術(shù)提供商愛迪德(Irdeto)公司共同組建了“西北大學(xué)-愛迪德物聯(lián)網(wǎng)信息安全國(guó)際聯(lián)合實(shí)驗(yàn)室”,主要開展:

(1)無線網(wǎng)絡(luò)、傳感網(wǎng)與物聯(lián)網(wǎng)基礎(chǔ)理論、關(guān)鍵技術(shù)、軟硬件設(shè)計(jì)及其在大型遺址保護(hù)和野生動(dòng)物監(jiān)測(cè)中的示范應(yīng)用;

(2)移動(dòng)互聯(lián)網(wǎng)、工業(yè)網(wǎng)絡(luò)與家庭及個(gè)人網(wǎng)絡(luò)安全技術(shù);

(3)軟件安全、代碼混淆與虛擬機(jī)技術(shù)相結(jié)合的軟件保護(hù)技術(shù)。

實(shí)驗(yàn)室先后承擔(dān)了國(guó)家自然科學(xué)基金、中歐國(guó)際合作計(jì)劃、國(guó)家科技支撐計(jì)劃等多項(xiàng)國(guó)家和省部級(jí)科研項(xiàng)目,擁有“WSN非均勻分簇路由方法”、“移動(dòng)目標(biāo)定位”、“透明加解密”和“文本信息隱藏”等20余項(xiàng)發(fā)明專利,開發(fā)了具有自主知識(shí)產(chǎn)權(quán)的土遺址監(jiān)測(cè)專用傳感節(jié)點(diǎn)、用于野生動(dòng)物監(jiān)測(cè)的WSN網(wǎng)關(guān)和多模數(shù)據(jù)傳輸基站。已在陜北明長(zhǎng)城、西安市含光門、大明宮遺址初步應(yīng)用。與意大利SALENTO大學(xué)、加拿大VITORIA大學(xué)和荷蘭Irdeto公司建立了密切合作關(guān)系。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

CCS 2018論文解讀:使用少量樣本破解文本驗(yàn)證碼

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說