日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
金融科技 正文
發(fā)私信給周舟
發(fā)送

0

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

本文作者: 周舟 2020-12-31 18:33
導(dǎo)語:惡意數(shù)據(jù)對抗將成為常態(tài),銀行業(yè)如何保護數(shù)據(jù)隱私安全?

數(shù)字經(jīng)濟時代,我們一邊享受著數(shù)據(jù)爆發(fā)式增長帶來的便利,一邊也困在數(shù)據(jù)安全中難以自拔。小到詐騙短信、快遞信息,大到財務(wù)狀況、健康狀況、網(wǎng)絡(luò)足跡,我們的個人隱私數(shù)據(jù)面臨著前所未有的挑戰(zhàn)。

而對于銀行來說,數(shù)據(jù)安全更是一條“生命線”。一次事故的發(fā)生,可能造成億萬級的損失,數(shù)億家庭將受到影響。

值此跨年之際,雷鋒網(wǎng)以「線上云峰會」的形式,邀請數(shù)字化風(fēng)控、數(shù)字化營銷、數(shù)字化客服、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)安全、數(shù)據(jù)庫、銀行云、銀行RPA、銀行業(yè)務(wù)系統(tǒng),十大銀行賽道里的科技專家,分享他們對于銀行科技的理解。

在「數(shù)據(jù)安全」這一賽道,我們邀請到微眾銀行區(qū)塊鏈安全科學(xué)家嚴(yán)強博士,他將從技術(shù)、業(yè)務(wù)、合規(guī)等角度,分享他對于銀行「數(shù)據(jù)隱私」的理解。

核心觀點:

  • 數(shù)據(jù)生產(chǎn)者與數(shù)據(jù)消費者之間不再是“買賣”關(guān)系

  • 隱私保護技術(shù)是打破數(shù)據(jù)價值融合“零和博弈”的關(guān)鍵

  • 我們需要尊重“數(shù)據(jù)孤島”作為數(shù)據(jù)產(chǎn)業(yè)的原生態(tài)

  • 發(fā)展健康的數(shù)據(jù)產(chǎn)業(yè)生態(tài),我們需要打通隱私數(shù)據(jù)協(xié)同生產(chǎn)的“雙循環(huán)”

  • 區(qū)塊鏈?zhǔn)浅休d數(shù)據(jù)信任和價值的最佳技術(shù),對于隱私計算和AI應(yīng)用中常見的數(shù)據(jù)品質(zhì)等難題,都可以通過區(qū)塊鏈進行互補或提升效果

以下為嚴(yán)強博士的演講內(nèi)容,雷鋒網(wǎng)AI金融評論作了不改變原意的編輯:

大家好,我是來自微眾銀行區(qū)塊鏈的嚴(yán)強,今天很榮幸受到雷鋒網(wǎng)的邀請,在此和大家分享數(shù)字經(jīng)濟中關(guān)于數(shù)據(jù)隱私的一些思考。

數(shù)字經(jīng)濟中最核心的要素就是數(shù)據(jù),對于很多業(yè)務(wù)而言,要獲取高質(zhì)量的數(shù)據(jù)是首要要務(wù),近幾年的趨勢是,對于數(shù)據(jù)隱私的立法正在不斷的細(xì)化、完善。

而此時傳統(tǒng)的數(shù)據(jù)業(yè)務(wù),在這個過程中就可能不太適用。

新數(shù)字經(jīng)濟時代的數(shù)據(jù)之道,在新的數(shù)據(jù)隱私合規(guī)框架下勢必將發(fā)生顯著變化,這些變化對實際的行業(yè)有哪些影響、有哪些具體改變?以及為了應(yīng)對這樣的改變,有哪些技術(shù)手段可以更好地調(diào)節(jié)自身?

新數(shù)字經(jīng)濟時代的數(shù)據(jù)之道

首先,本次分享的第一部分——新的數(shù)據(jù)之道。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

本次云峰會的主題是AI,眾所周知,AI在很大程度上依賴于數(shù)據(jù),對于數(shù)據(jù)本身,根據(jù)業(yè)務(wù)形態(tài)的不同,歷史上也出現(xiàn)了多種提法,包括了大數(shù)據(jù)、小數(shù)據(jù)、暗數(shù)據(jù)、還有弱數(shù)據(jù),現(xiàn)在還有另類數(shù)據(jù),指的是像衛(wèi)星地圖或者其他的一些傳感器的數(shù)據(jù)。

顯而易見,作為我們在信息化、設(shè)計智能化的過程中必要的燃料,如果沒有數(shù)據(jù),很多業(yè)務(wù)將無法得以開展。

同時,我們也注意到,AI算法或者其他大數(shù)據(jù)算法發(fā)展至今,相對而言還是比較成熟的。所以,對于行業(yè)中的參與者來講,很多時候核心競爭力就體現(xiàn)在于掌控數(shù)據(jù)量的多寡。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

也正因為如此,新的立法也對獲得數(shù)據(jù)和使用數(shù)據(jù)進行價值發(fā)掘的過程產(chǎn)生了顯著影響。數(shù)據(jù)不再是純粹的一種信息表達(dá),因為新的立法框架引入了一個新的概念——數(shù)據(jù)權(quán)益。

雖然目前數(shù)據(jù)安全法還只是處于草案的狀態(tài),但是草案明確提出要關(guān)注數(shù)據(jù)本身的使用,需要在保護公民組織、相關(guān)權(quán)益的前提下,促進數(shù)據(jù)為關(guān)鍵要素的經(jīng)濟發(fā)展,以此增進民眾福祉。

同時,反觀國際社會的《GDPR》,它對數(shù)據(jù)的使用,尤其在數(shù)據(jù)在商用領(lǐng)域的使用提出了一個非常嚴(yán)格的要求,其中的一點,就是懲罰特別高,可能是4%的集團前一年的全球總收入,或者2000萬元兩者取其大,所以數(shù)據(jù)隱私的違規(guī)成本十分高昂。

數(shù)據(jù)權(quán)益代表了數(shù)據(jù)的權(quán)利和利益,對傳統(tǒng)業(yè)務(wù)影響特別大的一點,就是這里的數(shù)據(jù)權(quán)益不僅僅是作用在數(shù)據(jù)的收集階段,還貫穿在數(shù)據(jù)流轉(zhuǎn)的整個生命周期,包括數(shù)據(jù)的使用、存儲、數(shù)據(jù)的遺忘。

這些改變顯然會對現(xiàn)在的行業(yè)產(chǎn)生很大的影響,尤其是數(shù)據(jù)已成為一個不可或缺的生產(chǎn)要素,在大數(shù)據(jù)、人工智能算法都很成熟的條件下,是智能化進展的必不可缺的一個手段,但是如果缺乏數(shù)據(jù)應(yīng)該怎么辦呢?

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

在回答這個問題之前,我們必須要厘清一個關(guān)系,在新的數(shù)據(jù)之道中,數(shù)據(jù)生產(chǎn)者跟數(shù)據(jù)消費者之間的合作關(guān)系發(fā)生了一個本質(zhì)性的變化。

在立法之前,二者之間很多時候是買賣關(guān)系,在獲得數(shù)據(jù)之后,就可以對其進行加工、利用,或者是提供服務(wù),獲得完整的收益。

對數(shù)據(jù)生產(chǎn)者或者是用戶以及其他的供數(shù)機構(gòu)而言,在數(shù)據(jù)授權(quán)或者數(shù)據(jù)公布之后,它很多時候并沒有權(quán)利對后續(xù)的數(shù)據(jù)使用直接進行干涉,這個權(quán)利之前是不受法律保護的。

而在新的立法框架中,兩者之間已經(jīng)從買賣關(guān)系轉(zhuǎn)變成了租賃關(guān)系。

這就意味著,作為數(shù)據(jù)生產(chǎn)者,從來沒有放棄對自己數(shù)據(jù)的權(quán)利,哪怕在對方的平臺上使用了對方的服務(wù),在這部分產(chǎn)生的數(shù)據(jù)僅僅是以租賃的方式提供給對方。

目前很多APP都完善了隱私政策,披露并承諾了數(shù)據(jù)的使用方式,這也是數(shù)據(jù)使用租賃關(guān)系的一種體現(xiàn)。

平臺或服務(wù)方不再擁有數(shù)據(jù)的所有權(quán),而是需要跟數(shù)據(jù)的生產(chǎn)方協(xié)定如何使用數(shù)據(jù),包括收益權(quán)怎么進行分配。

除了分配的問題之外,最重要的一點——作為數(shù)據(jù)生產(chǎn)方,它實際上有權(quán)干涉或禁止自己數(shù)據(jù)的使用方式,以控制自身的隱私風(fēng)險、拒絕不公平的利益分配方式,這就是對業(yè)務(wù)或行業(yè)而言,一個最大的改變。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

在新的法規(guī)下,具體要達(dá)到一個什么樣的要求?為什么這個要求很多時候會引起熱議?

《個人金融信息保護技術(shù)規(guī)范》中,對隱私數(shù)據(jù)生命周期的6個階段進行了描述,從收集、傳輸、存儲、使用、刪除到銷毀,每個階段都會有不同的數(shù)據(jù)權(quán)益保護的要求,其中也會涉及到一些不同的技術(shù)規(guī)范。

同時,換個角度,整個隱私合規(guī)范疇下的數(shù)據(jù)權(quán)益可以被分成兩類,除了對傳統(tǒng)目標(biāo)——數(shù)據(jù)內(nèi)容的保護,還增加了一類是對數(shù)據(jù)權(quán)利的保障。

正是后者,可能會對于業(yè)務(wù)產(chǎn)生較大的影響,具體包括數(shù)據(jù)遺忘權(quán)、限制使用權(quán)等等。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

由此就帶來一個焦點問題——業(yè)務(wù)創(chuàng)新和隱私保護如何兼顧,仔細(xì)分析之后,也許他倆之間并不是一對不可調(diào)和的矛盾。

在新的法規(guī)生效之前,假定業(yè)務(wù)所用的數(shù)據(jù)是一個餅,在法規(guī)生效了之后,這張餅變小了,因為用戶本身已經(jīng)不是原來的買賣關(guān)系,演變成為租賃關(guān)系,有些用戶可能行使了權(quán)利,或因數(shù)據(jù)收益和隱私風(fēng)險不對等,不愿意再貢獻(xiàn)出數(shù)據(jù)。

此時,對應(yīng)業(yè)務(wù)的可用數(shù)據(jù)量變小了,數(shù)據(jù)價值隨之變小。這里就可能出現(xiàn)為保障數(shù)據(jù)權(quán)益,影響了業(yè)務(wù)規(guī)模的零和博弈困局。

但是,如果我們提升一個層面,在行業(yè)的角度上來看,這里的零和博弈并不是絕對的。

縱觀這個行業(yè),在法律法規(guī)生效之前,實際上已經(jīng)出現(xiàn)了數(shù)據(jù)區(qū)域化導(dǎo)致的“數(shù)據(jù)荒”。大量的數(shù)據(jù)可能已經(jīng)在一些大機構(gòu)中匯集,而對于中小企業(yè)來講,想要獲得數(shù)據(jù)是非常困難的。

一個典型的例子,就是對網(wǎng)絡(luò)爬蟲的限制。

在那些有利益沖突的大機構(gòu)之間,他們開放數(shù)據(jù)訪問的意愿很低,而對于整個數(shù)字經(jīng)濟而言,數(shù)據(jù)的流通本身就已經(jīng)處于一定程度的受限狀態(tài)。

如果能夠盤活所有的存量數(shù)據(jù),打通在大機構(gòu)或者在更大范圍里的數(shù)據(jù)源,讓其更好地流通起來,就能把餅做大,產(chǎn)生更大的價值。而實現(xiàn)這一目標(biāo)的關(guān)鍵在于引入技術(shù)手段,有效保障隱私數(shù)據(jù)的權(quán)利。

具體到AI和大數(shù)據(jù),就需要從傳統(tǒng)的集中式算法系統(tǒng)升級到隱私計算,在新的數(shù)據(jù)之道中,打消數(shù)據(jù)協(xié)作參與者的隱私顧慮。

數(shù)據(jù)隱私驅(qū)動的行業(yè)巨變

隱私立法的完善和用戶隱私意識的覺醒造成了深遠(yuǎn)的影響,不僅改變了原有的數(shù)據(jù)之道,對數(shù)據(jù)業(yè)務(wù)帶來不同層面的變化。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

先說技術(shù)面,早期在談到隱私保護時,很多時候僅僅是加密,對數(shù)據(jù)進行脫敏,在數(shù)據(jù)處理階段做了一些工作,就被看成是對數(shù)據(jù)有非常強的隱私保護了,但是,放在AI或者隱私計算大的環(huán)境里來看,實際上是不完善的。所以,在技術(shù)層面上,我們?nèi)绻娴囊ヂ鋵?,實際上需要引入更多的前沿技術(shù)。

業(yè)務(wù)層面,現(xiàn)在越來越多的用戶意識到數(shù)據(jù)本身是有價值的。對于隱私而言,他對自己個人的風(fēng)險的認(rèn)識也越來越全面,這些因素勢必也會影響用戶的行為,對基于數(shù)據(jù)的AI的業(yè)務(wù)產(chǎn)生影響。

合規(guī)層面,合規(guī)主要是指新的合規(guī)業(yè)務(wù),尤其是全生命周期的合規(guī)要求,需要對現(xiàn)有業(yè)務(wù)模式進行一些改變,否則一旦涉足海外市場,難免會遇到合規(guī)風(fēng)險。

以下,在第二部分,將分技術(shù)、業(yè)務(wù)、合規(guī)三個層面進行具體展開。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

先看技術(shù)層面,這里非常重要的一點就是信息化技術(shù)發(fā)展得很快,產(chǎn)生的數(shù)據(jù)會越來越多,尤其是現(xiàn)在大家都在談5G、物聯(lián)網(wǎng)。

什么概念?目前,現(xiàn)在很多的數(shù)據(jù)都是以人為單位,每個人會產(chǎn)生很多數(shù)據(jù),但是,在5G、物聯(lián)網(wǎng)普及的時候,很多時候數(shù)據(jù)產(chǎn)生的單位是以物品為概念的,不再受限于70億人口數(shù)量的限制,上萬億的各種智能設(shè)備,其中必然會產(chǎn)生海量的數(shù)據(jù),并具有不同的權(quán)屬。

對應(yīng)地,便引出了“數(shù)據(jù)孤島”問題。一些看法認(rèn)為,因為有合規(guī)要求,所以才會產(chǎn)生孤島。因為合規(guī)需要對這些數(shù)據(jù)進行保護,我們不能讓它互通,但實際上這個說法并不那么確切,既然承認(rèn)數(shù)據(jù)有價值,也應(yīng)該承認(rèn)“數(shù)據(jù)孤島”是原生態(tài)。

舉個例子,比如資產(chǎn)是有價值的,不會隨隨便便要求大家把自己的資產(chǎn)共享出來,雖然在學(xué)術(shù)論文中也有資產(chǎn)孤島的提法。所以很多時候我們需要尊重這些“孤島”的存在。

從技術(shù)層面上需要怎么做呢?這里有幾個關(guān)鍵詞——多方、海量、高維、異構(gòu)。

對于后三者,大數(shù)據(jù)、傳統(tǒng)AI發(fā)展了這么多年,都有比較好的解決方案,但是,唯獨多方目前還有很多挑戰(zhàn)。

為什么?不妨看看多方隱私大數(shù)據(jù)需要實現(xiàn)的效果。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

最典型的效果之一,便是數(shù)據(jù)不出庫,這是一個非常形象的說法,但其本身并不確切,因為數(shù)據(jù)不出庫并不代表隱私信息不出庫,不代表敏感信息不出庫。

打個比方,在一個發(fā)布會上答記者問,提問某某是否為敏感人群或敏感事件,主辦方回復(fù)“對此我方無法進行評價”,很多時候提問者可以依據(jù)回答的語氣和用詞可以做出一個主觀的判斷——大概率還是敏感。

數(shù)據(jù)業(yè)務(wù)也是如此。

數(shù)據(jù)不出庫,字面意義就是數(shù)據(jù)明文不出庫,傳統(tǒng)的幾個方案包括數(shù)據(jù)哈希出庫、數(shù)據(jù)加密出庫、數(shù)據(jù)脫敏出庫,在AI領(lǐng)域,模型梯度出庫,這些方式是否真的安全?

更傳統(tǒng)的方式如內(nèi)容打碼 、K匿名、差分隱私都可以用上。這里強調(diào)一點,每一種方法的能力都是有邊界的,實際上都需要一些配套的安全假設(shè)。

舉個差分隱私的例子,在2013年和2018年計算理論頂會上,分別有一篇論文分析了差分隱私在處理高維大數(shù)據(jù)上的理論局限性。標(biāo)題是如果我們要處理高維大數(shù)據(jù),這是一個計算困難性問題,計算困難性問題意味著很多時候難以實現(xiàn),所以差分隱私也是有能力邊界的,我們需要根據(jù)實際的業(yè)務(wù)場景選擇是否適用。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

數(shù)據(jù)不出庫只是一類手段,我們最終的目標(biāo)效果是什么?可用不可見?

值得注意的是,“可用不可見”只是一個小目標(biāo),還有很多問題沒有得到妥善解答,比如誰可用誰不可見,限定用途的使用次數(shù)、使用方式有沒有限制,對于數(shù)據(jù)的主體,能不能對可用不可見的方式進行控制。

很多時候在數(shù)據(jù)協(xié)作時,尤其是在AI的學(xué)習(xí)中,結(jié)果正確性如何驗證也是一個非常重要的考量點?,F(xiàn)在很多智能化的業(yè)務(wù)也涉及到一些相對而言比較敏感的服務(wù),會導(dǎo)致比較敏感的后果,如果誤判了怎么辦?如果進行多方協(xié)作的結(jié)果不正確,如何找出惡意的參與方?這些問題“可用不可見”都沒有直接回答,所以它只是一個小目標(biāo)。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

為了實現(xiàn)我們的大目標(biāo),剛才提到的哪些額外的數(shù)據(jù)隱私保護點:不僅僅是需要一類技術(shù),還可能需要融合多類技術(shù),并針對不同場景進行優(yōu)化。

三個主要的技術(shù)路線如下:

TEE可信計算。TEE的優(yōu)點是它本身是個硬件加速的隔離環(huán)境,在計算上沒有任何限制,什么業(yè)務(wù)都能跑,而且開發(fā)很友好。但是從設(shè)計上需要一個中心化的部署方,它只能有一個可信根。而且目前主流的云廠商并不支持TEE的云部署。

所以大家在實際部署上會不可避免的回到物理部署的范疇,在實際的使用中會有一些阻礙。

相對于可信計算而言,聯(lián)邦學(xué)習(xí)和安全多方計算對硬件的依賴則小很多,但同時也有一定的取舍。

聯(lián)邦學(xué)習(xí),擅長各類模型的聯(lián)合訓(xùn)練跟推演,與現(xiàn)有數(shù)據(jù)業(yè)務(wù)協(xié)作模式十分貼合。

安全多方計算,是一個相對歷史悠久的技術(shù),近五六年來有很多比較成熟的工業(yè)方案出現(xiàn),尤其在學(xué)術(shù)界,目前更關(guān)注的可用性問題也得到了很大的提升,同時支持各類通用計算和各類安全模型,比較獨特的優(yōu)勢是它可以支持惡意模型。

什么是惡意模型?如果有多個參與方一起去做模型訓(xùn)練或聯(lián)合推演,只要有一個人做惡,就一定能在第一時間或者在最后結(jié)果產(chǎn)生之前終止運算,由此避免做惡方影響最后結(jié)果的正確性。

在關(guān)鍵的業(yè)務(wù)場景中,這是非常有必要的,作為取舍,其性能相對會低一些。

回到隱私大數(shù)據(jù),海量、高維、異構(gòu)、多方,如何很好的支持它們?如果出現(xiàn)爭議,尤其是在關(guān)鍵業(yè)務(wù)中出現(xiàn)爭議,怎么高效識別作惡的計算參與方,這些都是需要我們在技術(shù)上應(yīng)對的挑戰(zhàn)。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

下一個就是業(yè)務(wù)層面的挑戰(zhàn),如果一個業(yè)務(wù)要采用機器學(xué)習(xí),隱私計算,以及相對而言比較智能的數(shù)據(jù)驅(qū)動方案,這里有一些重要的考量點。

如果是咨詢公司給的報告,一般有兩個維度,一個是商業(yè)價值,另外就是成熟度或者可信度。

特別推薦大家關(guān)注的一個新維度,就是數(shù)據(jù)隱私相關(guān)風(fēng)險。

如果設(shè)計一個多方協(xié)作,在整個協(xié)作過程中會不會產(chǎn)生嚴(yán)重的隱私風(fēng)險?或者不只是模型訓(xùn)練,我們使用的模型推演或者其他的通過隱私計算產(chǎn)生報表類的一些功能。如果因為有一方作惡,產(chǎn)生了一些錯誤的結(jié)果,后果的嚴(yán)重性如何?

這一新維度會直接影響用戶體驗,如果是應(yīng)用在民生領(lǐng)域或者金融領(lǐng)域,有些服務(wù)非常敏感,如果機器誤判,后果對于當(dāng)事人而言可能是相當(dāng)嚴(yán)重的。

這也帶來一個重要的關(guān)聯(lián)問題。如果用戶或合作機構(gòu)有隱私顧慮,是否存在技術(shù)手段影響現(xiàn)有的業(yè)務(wù)系統(tǒng),造成額外的隱私風(fēng)險。

這里具體列舉了幾類風(fēng)險。

如何利用一些攻擊的手段,針對現(xiàn)在一些聯(lián)合的學(xué)習(xí)的訓(xùn)練或者推演,如果攻擊者在聯(lián)合模型訓(xùn)練時,它是否能夠推測出合作方的隱私樣本數(shù)據(jù),或者在訓(xùn)練過程中是否能夠注入對己方有利的偏見。

同時,不僅是針對訓(xùn)練,我沒有參與的推演,訓(xùn)練我能不能在推演的時候去提取出你相對訓(xùn)練的隱私數(shù)據(jù),或者推演我能否操作你推薦的結(jié)果。

從數(shù)據(jù)安全角度而言,這些都是很關(guān)鍵的問題,普通人很多時候可能是難以實施的,因為機器學(xué)習(xí)也好,隱私就本身就是一個相對比較前沿復(fù)雜的技術(shù),所以——對抗魔法需要使用魔法。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

風(fēng)險一:這是一篇 CCS發(fā)表于2017年的論文,這些攻擊本身可能是一個實驗性質(zhì)的,但具有一定的借鑒意義。

這篇論文的結(jié)論:只要是聯(lián)合訓(xùn)練,如果能夠得到明文梯度,就一定能夠或者有一個極大的概率可以獲得合作方的隱私數(shù)據(jù)。

原本可能認(rèn)為通過聯(lián)合訓(xùn)練出去的只是模型梯度,并不直接包含隱私數(shù)據(jù),但是由于攻擊方也使用了機器學(xué)習(xí)的算法,用了一個生成對抗網(wǎng)絡(luò)的GAN的技術(shù),從梯度信息還原出合作方的訓(xùn)練樣本。這個實驗中主要針對深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),實驗中展示的還原成功率還是相當(dāng)高的。

論文同時也指出,即便額外使用了全局差分隱私,對攻擊結(jié)果影響不大。

從PPT截圖中,可以看到作者從梯度還原出了對方的訓(xùn)練樣本照片,而且在使用差分隱私之后,還原出的照片跟原本的照片實際上差距也不是特別大。所以從業(yè)務(wù)層面來說,這還是一個比較顯著的風(fēng)險,大家需要警惕。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

風(fēng)險二:如果共同參與一個聯(lián)合模型訓(xùn)練,是不是有可能注入偏見?答案是肯定的,但是需要多大的代價?

這是2018年一篇發(fā)表在S&P上的頂會論文,指出在某些線性回歸模型中,線性回歸模型在很多風(fēng)控或者類似的一種預(yù)測模型中還是用得比較廣泛的,因為具備良好的解釋性。作者展示了,只需要12%的惡意樣本,就可以引起顯著的預(yù)測偏見。

跟直覺上可能需要50~ 60%或者過半的樣本非常不一樣。

這里采用的也是魔法對抗,但并不是隨機注入樣本,因為參與聯(lián)合訓(xùn)練時,參與者對模型本身是有認(rèn)知的,所以涉及到一個優(yōu)化問題,通過優(yōu)化盡量減少產(chǎn)生偏見所需要的樣本比例。

因此,我們在做聯(lián)合訓(xùn)練的時候,也要將其考慮進去。有沒有可能有一個參與方只貢獻(xiàn)12%或者更低的數(shù)據(jù),但他試圖導(dǎo)致偏移整個模型的效果?在沒有動機時的風(fēng)險比較低,但是如果有動機我們則需要加倍小心。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

風(fēng)險三:沒有參加模型訓(xùn)練,只是使用API,能不能猜出對應(yīng)的隱私數(shù)據(jù)?作者提出了一個很重要的點,答案是有可能。

論文中的實驗展示了,在一個神經(jīng)網(wǎng)絡(luò)中,只要拿到輸出的標(biāo)簽,很多時候就能預(yù)測的結(jié)果,結(jié)合它的置信度和網(wǎng)絡(luò)的結(jié)構(gòu),就能夠推測還原出訓(xùn)練對應(yīng)標(biāo)簽的樣本。

比如得到的標(biāo)簽是張三和置信度,很多置信度是有小數(shù)點的,例如0.837,然后我就通過它的一個類似的優(yōu)化算法,做一個還原重建,最后能夠相對好的還原出這個樣本。

跟之前相比,因為之前是直接拿到梯度的,而現(xiàn)在沒有拿到訓(xùn)練的梯度,效果稍差一點,但是也可以很容易識別出左邊跟右邊的照片是屬于同一個人。

作者做了兩組實驗,一組是對于神經(jīng)網(wǎng)絡(luò)的,另外一組是對于決策樹的,決策樹在很多風(fēng)控模型中也有。很有意思的一點,就是拿決策樹做風(fēng)控模型會不會被別人反推出我們的訓(xùn)練樣本?

如果給出來的置信區(qū)間的精度足夠高,還是有很大的概率可以推測出來,決策樹在論文中甚至實現(xiàn)了一個黑盒的效果。

什么是黑盒效果?我不知道你的決策樹的樣子,只知道你的最后的結(jié)果跟輸出的置信度。我通過不斷的查詢,最后反推出你實際的樣本。但我們也具體應(yīng)對方式,對模型API進行安全加固。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

風(fēng)險四:不再是想推測出訓(xùn)練樣本,但是想操縱最后的推演結(jié)果,可不可行?可行!

這篇論文講的是,如果要在人臉識別系統(tǒng)中假扮另外一個人,最少需要什么?答案是需要這樣一副眼鏡,這副眼鏡不是隨便產(chǎn)生的,它是通過類似的機器學(xué)習(xí)算法,一個比較偏統(tǒng)計的黑盒優(yōu)化算法得出來的。

對于同一個人,查詢API 25次,通過其返回值,做一個黑盒的優(yōu)化,逼近其特征值,在原有的臉部的圖像做一個修正,最后就產(chǎn)生了這副眼鏡上五彩斑斕的樣式,在作者的實驗中實現(xiàn)了100%的偽裝率,只要戴一副眼鏡,可能被識別成另外一個人。

同時,只要戴一副眼鏡,基于機器學(xué)習(xí)的人臉檢測就可能失效。

由此可見,這些風(fēng)險是客觀存在的,所以我們不僅要考慮算法的智能性,很多時候還是要全面考量安全加固措施,否則就有可能引入意料之外的業(yè)務(wù)風(fēng)險。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

最后一個層面——合規(guī)面,合規(guī)面相對而言還是一個比較新的概念,一年前,大家還在爭論通訊錄、頭像數(shù)據(jù)的歸屬,現(xiàn)在明確都是屬于用戶的。

不僅如此,用戶在使用的過程中有很多環(huán)節(jié),有些特殊環(huán)境有特殊的合規(guī)要求。

其中特別想談的兩點,就是限定數(shù)據(jù)用途跟數(shù)據(jù)被遺忘權(quán),限定數(shù)據(jù)用途就是我給到你一個數(shù)據(jù),只能用于廣告推薦,你如何保證只能用于廣告推薦,要在合規(guī)的框架下,不是用戶來自證,而是企業(yè)來自證,這對整個技術(shù)方案或者基礎(chǔ)設(shè)施是有要求的。

因為企業(yè)沒法自證,在用到數(shù)據(jù)時要告訴用戶,具體算法和系統(tǒng)在設(shè)計上的用途。

另外就是數(shù)據(jù)被遺忘權(quán),現(xiàn)在分別來看二者的影響。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

限定數(shù)據(jù)用途,是一個大改變。我們原來很多系統(tǒng)平臺都是明文學(xué)習(xí)的,現(xiàn)在很可能要轉(zhuǎn)向密文學(xué)習(xí)。這里有一些過渡方案:

比如可信計算,相對而言改造成本比較低。因為它是一個容器化的隔離計算的方案,一個項目被稱作閱后即焚,90%以上就是可信計算。

這里也有個問題,我們需要找到一個可信的第三方,因為這個容器本身的真實性、可靠性或者它的隱私性,需要一個中心化的可信機來保證,然而它是一個單點的,很難做到多點,如果我們多方協(xié)作中找不到可信的第三方,整個業(yè)務(wù)就會很難推進。

所以,在多數(shù)情況下,我們會更傾向于聯(lián)邦學(xué)習(xí)和安全多方計算。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

第二點,被遺忘權(quán),這也是因為合規(guī)產(chǎn)生的一個新需求。什么是被遺忘權(quán)?

很多時候用戶是流動的,例如用戶今天在平臺上注冊,但是過一段時間后因為種種原因而注銷了賬戶,這是一個非常關(guān)鍵的點。

用戶一旦注銷,作為企業(yè)方,就需要刪除用戶數(shù)據(jù)對現(xiàn)有業(yè)務(wù)模型的影響。

但很多時候這模型都是一個非常復(fù)雜的過程,一個用戶的數(shù)據(jù)可能會涉及到模型的很多方面,想完全的消除特定用戶數(shù)據(jù)的影響是很難的。

目前非常確定的合規(guī)的解決手段就是重建,我們把原來的數(shù)據(jù)、原來模型推倒重來,這樣就會保證沒有用到被刪除用戶的數(shù)據(jù),但是對業(yè)務(wù)的影響也很大。

這里還有一些其它的思路,我們能否去將模型進行模塊化,每次盡量只更新用戶相關(guān)的一些數(shù)據(jù),然后再引入遷移學(xué)習(xí)等手段來試圖減少模型重新訓(xùn)練的成本。

目前來講,這還是一個開放性的問題,需要大家獻(xiàn)計獻(xiàn)策。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

合規(guī)方面最后一點,不得不提的就是監(jiān)管審計,我們?yōu)榱讼拗朴猛荆芏鄷r候會需要使用密文訓(xùn)練,或者用密文進行推演或者進行一些計算。

在強監(jiān)管的要求下,這個過程也會對監(jiān)管帶來一些新的需求。但是如果我們要實現(xiàn)跨域監(jiān)管,比如跨境或者更大范圍內(nèi)的數(shù)據(jù)互通,挑戰(zhàn)性還是存在的。

以一帶一路為例,其中涉及到很多國家,比如意大利,就是一個歐盟國家。

如何更好的支持監(jiān)管,尤其是對隱私大數(shù)據(jù),怎么更好的處理、實現(xiàn),無需參與方配合,無需給到解密的密鑰,監(jiān)管方怎么能夠自主查驗所需要的內(nèi)容,同時,作為配合方,如何最小化信息的披露,實現(xiàn)分布式的信任,這里就需要用到區(qū)塊鏈相關(guān)技術(shù)了。

微眾銀行在數(shù)據(jù)隱私領(lǐng)域的前沿探索

談完了以上方面,在應(yīng)對數(shù)據(jù)隱私驅(qū)動行業(yè)巨變的同時,我們需要一套完整的方案,在最后一部分,就不得不提“數(shù)據(jù)新基建”。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

談到數(shù)據(jù)新基建,需要回歸到我們的原點——數(shù)據(jù)本身。

數(shù)據(jù)要產(chǎn)生自己的價值。除了那幾個關(guān)鍵詞——多方、海量、高維、異構(gòu),實際上還有一些其他特性,比如易復(fù)制性、非排他性、非競爭性,既別人拿到數(shù)據(jù)后,用100遍可能跟自身用一遍,沒有什么差別。

而分散性就是有很多孤島,我們要尊重這些孤島,如何將它們連接起來,以及多樣性、價值聚合性、價值認(rèn)知多樣性。

價值認(rèn)知多樣性在國際社會上是一個比較重要的話題,對于一次隱私信息泄露,如果當(dāng)事人覺得嚴(yán)重侵害了其隱私,可以要求巨額罰款。

我們很多時候也會有一種觀點,認(rèn)為數(shù)據(jù)只有聚合才有價值,聚合是對公司有價值,但是單個數(shù)據(jù)是對個人是有價值的。

有些東西泄露后就會對個人的生活造成影響,比如醫(yī)療數(shù)據(jù),這些都是切切實實的問題,但其認(rèn)知性實際上是多樣性的,如何照顧好每一個個體,尤其是實現(xiàn)數(shù)據(jù)的生產(chǎn)要素化,需要提供一系列技術(shù)保障。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

若要實現(xiàn)數(shù)據(jù)生產(chǎn)要素化,我們要構(gòu)建一整套的方案以達(dá)成效果,我們要界定其產(chǎn)權(quán),儲存和評估其價值,與最后的價值可流通。大方向都是圍繞價值而言,要確定數(shù)據(jù)的收益。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

同時,我們也要控制數(shù)據(jù)的風(fēng)險,風(fēng)險來自隱私跟安全。為此,釋放數(shù)據(jù)要素生產(chǎn)力需要解決三大核心問題:安全存儲、可信傳輸以及協(xié)同生產(chǎn)。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

最后,為了發(fā)展健康的數(shù)據(jù)產(chǎn)業(yè)生態(tài),我們需要打通隱私數(shù)據(jù)協(xié)同生產(chǎn)的雙循環(huán)。

第一個循環(huán)指個人數(shù)據(jù)應(yīng)用,即個人跟企業(yè)之間的數(shù)據(jù)互通,他們之間實際上是一個反饋關(guān)系。數(shù)據(jù)也不僅僅是停留在單個企業(yè)的,還可以在企業(yè)之間相互流轉(zhuǎn),于是便引入了第二個循環(huán),這里會需要引入不同的技術(shù)能力來滿足、實現(xiàn)協(xié)同生產(chǎn)的效果。

在理想的情況下,這兩個循環(huán)之間還會進一步互惠互補,產(chǎn)生正向反饋,構(gòu)成多方隱私大數(shù)據(jù)價值融合的良性大循環(huán),顯著提升用戶體驗和企業(yè)效能。

為此,我們也做了一定的實踐并整理了一些案例,我們最近發(fā)布了一個白皮書,結(jié)合了多方面的技術(shù)以提升我們關(guān)鍵業(yè)務(wù)應(yīng)用的隱私保障。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

幾個比較典型的事例:

第一,粵澳健康碼互轉(zhuǎn)互認(rèn),就是在跨境時,數(shù)據(jù)如何在隱私合規(guī)的情況下進行可信轉(zhuǎn)化,以及在后臺數(shù)據(jù)不連通的情況下如何實現(xiàn)互通。

第二,醫(yī)療處方線上流轉(zhuǎn),醫(yī)療處方本身涉及很多類別的隱私數(shù)據(jù),而不僅僅是數(shù)字簽名和數(shù)據(jù)加密那么簡單。

第三,綠色出行普惠平臺,這個項目結(jié)合了物聯(lián)網(wǎng)的能力,因為綠色普惠很多時候與跟車輛有關(guān),如何將物聯(lián)網(wǎng)的數(shù)據(jù)以一種安全隱私的方式接入到平臺,完成對應(yīng)的計算評分,也涉及到很多數(shù)據(jù)隱私的問題。

第四,聯(lián)合營銷,效果非常明顯,相比傳統(tǒng)方式,可以提升20%以上的廣告轉(zhuǎn)化率。

之前分享中,提到在使用聯(lián)合學(xué)習(xí)中可能存在的風(fēng)險,但在實際部署中,我們會對方案進行一些隱私和安全的加強,值得一提的就是,我們不能夠簡單地相信一個方案所具有的能力而完全不提它的風(fēng)險,還需要對其進行全方位的考量和評測。

長遠(yuǎn)來看,希望數(shù)據(jù)新基建能夠采用相對可以管控的底層技術(shù),更安全可控。

另外,可驗證的隱私性、安全性,而不只是貼上一個技術(shù)標(biāo)簽,整體方案需要提供技術(shù)手段,允許用戶直接參與到數(shù)據(jù)授權(quán)和限定使用的過程中來。

最后,就是高效率的計算能力,因為每類技術(shù)各有所長,很多時候特別安全的技術(shù),其計算能力可能沒有那么強,所以我們需要做一些融合以找到一個最優(yōu)的解決方案。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

這里和大家分享一組數(shù)字,對于千萬級的大數(shù)據(jù)隱私求交,目前可以做到三分鐘以內(nèi)完成,萬次聯(lián)合的多方乘法計算,可以做到三毫秒以內(nèi),對于同時參與隱私計算的機構(gòu)數(shù)則沒有限制。

回顧剛才的幾個關(guān)鍵詞,多方、海量、高維。

多方,不少傳統(tǒng)的方案都是一個兩方或三方的架構(gòu),既如果有第4個和第5個參與方同時參與隱私計算,要么就是引入一個中心的協(xié)調(diào)方,中心協(xié)調(diào)方本身可能會泄密,這時的合作就很難進行了,但我們這邊沒有限制能夠在很安全的條件下實現(xiàn)這類需求。

大數(shù)據(jù)也是同樣的,實際上現(xiàn)在的隱私數(shù)據(jù),包括政務(wù)部門,無論是人口或者其他方面的數(shù)據(jù),千萬級別都算是偏小的,實際上也有很多上億的數(shù)據(jù)。如果不能夠很好的處理存儲量,很多應(yīng)用難以得到使用。

最近央行頒發(fā)的一項相關(guān)技術(shù)標(biāo)準(zhǔn),目前我們的所有的指標(biāo)都是滿足這個標(biāo)準(zhǔn),而且更有效。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

這里展示了我們主要的一個開源矩陣,以此構(gòu)建我們的“數(shù)據(jù)新基建”的解決方案。

除了人工智能之外,區(qū)塊鏈?zhǔn)浅休d數(shù)據(jù)信任和價值的最佳技術(shù),對于隱私計算和AI應(yīng)用中常見的數(shù)據(jù)品質(zhì)、作惡溯源等難題,都可以通過區(qū)塊鏈進行互補或提升效果。

具體來看,區(qū)塊鏈板塊里涵蓋了微眾銀行牽頭金鏈盟開源工作組開源的底層平臺——FISCO BCOS,還有消息協(xié)作平臺——WeEvent,分布式數(shù)字身份——WeIdentity,這些都是可以跟機器學(xué)習(xí)做密切的結(jié)合的,包括可視化的中間件——WeBASE,將數(shù)據(jù)連起來的跨鏈協(xié)作平臺——WeCross,聚焦數(shù)據(jù)隱私保護的場景式解決方案集——WeDPR。

萬字長文丨微眾銀行嚴(yán)強:數(shù)字經(jīng)濟時代,隱私保護的道與術(shù)

我們努力的終極目標(biāo)只有一個,希望構(gòu)建一個這樣的基礎(chǔ)設(shè)施,以化解大家在數(shù)據(jù)行業(yè)中的技術(shù)難點、業(yè)務(wù)痛點,然后更好地在上面去開發(fā)應(yīng)用、發(fā)展生態(tài)、全面釋放數(shù)據(jù)生產(chǎn)力。

這里的矩陣結(jié)合了各方面的能力,最后實現(xiàn)了這樣的一個效果。當(dāng)然很多具體的技術(shù)領(lǐng)域也是在積極探索中,也誠邀合作伙伴,與我們攜手共創(chuàng)更好的未來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

專注報道AI+金融(微信:18811172358)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說