萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

本文作者：周舟

2020-12-31 18:33

導(dǎo)語：惡意數(shù)據(jù)對抗將成為常態(tài)，銀行業(yè)如何保護數(shù)據(jù)隱私安全？

數(shù)字經(jīng)濟時代，我們一邊享受著數(shù)據(jù)爆發(fā)式增長帶來的便利，一邊也困在數(shù)據(jù)安全中難以自拔。小到詐騙短信、快遞信息，大到財務(wù)狀況、健康狀況、網(wǎng)絡(luò)足跡，我們的個人隱私數(shù)據(jù)面臨著前所未有的挑戰(zhàn)。

而對于銀行來說，數(shù)據(jù)安全更是一條“生命線”。一次事故的發(fā)生，可能造成億萬級的損失，數(shù)億家庭將受到影響。

值此跨年之際，雷鋒網(wǎng)以「線上云峰會」的形式，邀請數(shù)字化風(fēng)控、數(shù)字化營銷、數(shù)字化客服、數(shù)據(jù)平臺、數(shù)據(jù)中臺、數(shù)據(jù)安全、數(shù)據(jù)庫、銀行云、銀行RPA、銀行業(yè)務(wù)系統(tǒng)，十大銀行賽道里的科技專家，分享他們對于銀行科技的理解。

在「數(shù)據(jù)安全」這一賽道，我們邀請到微眾銀行區(qū)塊鏈安全科學(xué)家嚴(yán)強博士，他將從技術(shù)、業(yè)務(wù)、合規(guī)等角度，分享他對于銀行「數(shù)據(jù)隱私」的理解。

核心觀點：

數(shù)據(jù)生產(chǎn)者與數(shù)據(jù)消費者之間不再是“買賣”關(guān)系
隱私保護技術(shù)是打破數(shù)據(jù)價值融合“零和博弈”的關(guān)鍵
我們需要尊重“數(shù)據(jù)孤島”作為數(shù)據(jù)產(chǎn)業(yè)的原生態(tài)
發(fā)展健康的數(shù)據(jù)產(chǎn)業(yè)生態(tài)，我們需要打通隱私數(shù)據(jù)協(xié)同生產(chǎn)的“雙循環(huán)”
區(qū)塊鏈?zhǔn)浅休d數(shù)據(jù)信任和價值的最佳技術(shù)，對于隱私計算和AI應(yīng)用中常見的數(shù)據(jù)品質(zhì)等難題，都可以通過區(qū)塊鏈進行互補或提升效果

以下為嚴(yán)強博士的演講內(nèi)容，雷鋒網(wǎng)AI金融評論作了不改變原意的編輯：

大家好，我是來自微眾銀行區(qū)塊鏈的嚴(yán)強，今天很榮幸受到雷鋒網(wǎng)的邀請，在此和大家分享數(shù)字經(jīng)濟中關(guān)于數(shù)據(jù)隱私的一些思考。

數(shù)字經(jīng)濟中最核心的要素就是數(shù)據(jù)，對于很多業(yè)務(wù)而言，要獲取高質(zhì)量的數(shù)據(jù)是首要要務(wù)，近幾年的趨勢是，對于數(shù)據(jù)隱私的立法正在不斷的細(xì)化、完善。

而此時傳統(tǒng)的數(shù)據(jù)業(yè)務(wù)，在這個過程中就可能不太適用。

新數(shù)字經(jīng)濟時代的數(shù)據(jù)之道，在新的數(shù)據(jù)隱私合規(guī)框架下勢必將發(fā)生顯著變化，這些變化對實際的行業(yè)有哪些影響、有哪些具體改變？以及為了應(yīng)對這樣的改變，有哪些技術(shù)手段可以更好地調(diào)節(jié)自身？

新數(shù)字經(jīng)濟時代的數(shù)據(jù)之道

首先，本次分享的第一部分——新的數(shù)據(jù)之道。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

本次云峰會的主題是AI，眾所周知，AI在很大程度上依賴于數(shù)據(jù)，對于數(shù)據(jù)本身，根據(jù)業(yè)務(wù)形態(tài)的不同，歷史上也出現(xiàn)了多種提法，包括了大數(shù)據(jù)、小數(shù)據(jù)、暗數(shù)據(jù)、還有弱數(shù)據(jù)，現(xiàn)在還有另類數(shù)據(jù)，指的是像衛(wèi)星地圖或者其他的一些傳感器的數(shù)據(jù)。

顯而易見，作為我們在信息化、設(shè)計智能化的過程中必要的燃料，如果沒有數(shù)據(jù)，很多業(yè)務(wù)將無法得以開展。

同時，我們也注意到，AI算法或者其他大數(shù)據(jù)算法發(fā)展至今，相對而言還是比較成熟的。所以，對于行業(yè)中的參與者來講，很多時候核心競爭力就體現(xiàn)在于掌控數(shù)據(jù)量的多寡。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

也正因為如此，新的立法也對獲得數(shù)據(jù)和使用數(shù)據(jù)進行價值發(fā)掘的過程產(chǎn)生了顯著影響。數(shù)據(jù)不再是純粹的一種信息表達(dá)，因為新的立法框架引入了一個新的概念——數(shù)據(jù)權(quán)益。

雖然目前數(shù)據(jù)安全法還只是處于草案的狀態(tài)，但是草案明確提出要關(guān)注數(shù)據(jù)本身的使用，需要在保護公民組織、相關(guān)權(quán)益的前提下，促進數(shù)據(jù)為關(guān)鍵要素的經(jīng)濟發(fā)展，以此增進民眾福祉。

同時，反觀國際社會的《GDPR》，它對數(shù)據(jù)的使用，尤其在數(shù)據(jù)在商用領(lǐng)域的使用提出了一個非常嚴(yán)格的要求，其中的一點，就是懲罰特別高，可能是4%的集團前一年的全球總收入，或者2000萬元兩者取其大，所以數(shù)據(jù)隱私的違規(guī)成本十分高昂。

數(shù)據(jù)權(quán)益代表了數(shù)據(jù)的權(quán)利和利益，對傳統(tǒng)業(yè)務(wù)影響特別大的一點，就是這里的數(shù)據(jù)權(quán)益不僅僅是作用在數(shù)據(jù)的收集階段，還貫穿在數(shù)據(jù)流轉(zhuǎn)的整個生命周期，包括數(shù)據(jù)的使用、存儲、數(shù)據(jù)的遺忘。

這些改變顯然會對現(xiàn)在的行業(yè)產(chǎn)生很大的影響，尤其是數(shù)據(jù)已成為一個不可或缺的生產(chǎn)要素，在大數(shù)據(jù)、人工智能算法都很成熟的條件下，是智能化進展的必不可缺的一個手段，但是如果缺乏數(shù)據(jù)應(yīng)該怎么辦呢？

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

在回答這個問題之前，我們必須要厘清一個關(guān)系，在新的數(shù)據(jù)之道中，數(shù)據(jù)生產(chǎn)者跟數(shù)據(jù)消費者之間的合作關(guān)系發(fā)生了一個本質(zhì)性的變化。

在立法之前，二者之間很多時候是買賣關(guān)系，在獲得數(shù)據(jù)之后，就可以對其進行加工、利用，或者是提供服務(wù)，獲得完整的收益。

對數(shù)據(jù)生產(chǎn)者或者是用戶以及其他的供數(shù)機構(gòu)而言，在數(shù)據(jù)授權(quán)或者數(shù)據(jù)公布之后，它很多時候并沒有權(quán)利對后續(xù)的數(shù)據(jù)使用直接進行干涉，這個權(quán)利之前是不受法律保護的。

而在新的立法框架中，兩者之間已經(jīng)從買賣關(guān)系轉(zhuǎn)變成了租賃關(guān)系。

這就意味著，作為數(shù)據(jù)生產(chǎn)者，從來沒有放棄對自己數(shù)據(jù)的權(quán)利，哪怕在對方的平臺上使用了對方的服務(wù)，在這部分產(chǎn)生的數(shù)據(jù)僅僅是以租賃的方式提供給對方。

目前很多APP都完善了隱私政策，披露并承諾了數(shù)據(jù)的使用方式，這也是數(shù)據(jù)使用租賃關(guān)系的一種體現(xiàn)。

平臺或服務(wù)方不再擁有數(shù)據(jù)的所有權(quán)，而是需要跟數(shù)據(jù)的生產(chǎn)方協(xié)定如何使用數(shù)據(jù)，包括收益權(quán)怎么進行分配。

除了分配的問題之外，最重要的一點——作為數(shù)據(jù)生產(chǎn)方，它實際上有權(quán)干涉或禁止自己數(shù)據(jù)的使用方式，以控制自身的隱私風(fēng)險、拒絕不公平的利益分配方式，這就是對業(yè)務(wù)或行業(yè)而言，一個最大的改變。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

在新的法規(guī)下，具體要達(dá)到一個什么樣的要求？為什么這個要求很多時候會引起熱議？

《個人金融信息保護技術(shù)規(guī)范》中，對隱私數(shù)據(jù)生命周期的6個階段進行了描述，從收集、傳輸、存儲、使用、刪除到銷毀，每個階段都會有不同的數(shù)據(jù)權(quán)益保護的要求，其中也會涉及到一些不同的技術(shù)規(guī)范。

同時，換個角度，整個隱私合規(guī)范疇下的數(shù)據(jù)權(quán)益可以被分成兩類，除了對傳統(tǒng)目標(biāo)——數(shù)據(jù)內(nèi)容的保護，還增加了一類是對數(shù)據(jù)權(quán)利的保障。

正是后者，可能會對于業(yè)務(wù)產(chǎn)生較大的影響，具體包括數(shù)據(jù)遺忘權(quán)、限制使用權(quán)等等。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

由此就帶來一個焦點問題——業(yè)務(wù)創(chuàng)新和隱私保護如何兼顧，仔細(xì)分析之后，也許他倆之間并不是一對不可調(diào)和的矛盾。

在新的法規(guī)生效之前，假定業(yè)務(wù)所用的數(shù)據(jù)是一個餅，在法規(guī)生效了之后，這張餅變小了，因為用戶本身已經(jīng)不是原來的買賣關(guān)系，演變成為租賃關(guān)系，有些用戶可能行使了權(quán)利，或因數(shù)據(jù)收益和隱私風(fēng)險不對等，不愿意再貢獻(xiàn)出數(shù)據(jù)。

此時，對應(yīng)業(yè)務(wù)的可用數(shù)據(jù)量變小了，數(shù)據(jù)價值隨之變小。這里就可能出現(xiàn)為保障數(shù)據(jù)權(quán)益，影響了業(yè)務(wù)規(guī)模的零和博弈困局。

但是，如果我們提升一個層面，在行業(yè)的角度上來看，這里的零和博弈并不是絕對的。

縱觀這個行業(yè)，在法律法規(guī)生效之前，實際上已經(jīng)出現(xiàn)了數(shù)據(jù)區(qū)域化導(dǎo)致的“數(shù)據(jù)荒”。大量的數(shù)據(jù)可能已經(jīng)在一些大機構(gòu)中匯集，而對于中小企業(yè)來講，想要獲得數(shù)據(jù)是非常困難的。

一個典型的例子，就是對網(wǎng)絡(luò)爬蟲的限制。

在那些有利益沖突的大機構(gòu)之間，他們開放數(shù)據(jù)訪問的意愿很低，而對于整個數(shù)字經(jīng)濟而言，數(shù)據(jù)的流通本身就已經(jīng)處于一定程度的受限狀態(tài)。

如果能夠盤活所有的存量數(shù)據(jù)，打通在大機構(gòu)或者在更大范圍里的數(shù)據(jù)源，讓其更好地流通起來，就能把餅做大，產(chǎn)生更大的價值。而實現(xiàn)這一目標(biāo)的關(guān)鍵在于引入技術(shù)手段，有效保障隱私數(shù)據(jù)的權(quán)利。

具體到AI和大數(shù)據(jù)，就需要從傳統(tǒng)的集中式算法系統(tǒng)升級到隱私計算，在新的數(shù)據(jù)之道中，打消數(shù)據(jù)協(xié)作參與者的隱私顧慮。

數(shù)據(jù)隱私驅(qū)動的行業(yè)巨變

隱私立法的完善和用戶隱私意識的覺醒造成了深遠(yuǎn)的影響，不僅改變了原有的數(shù)據(jù)之道，對數(shù)據(jù)業(yè)務(wù)帶來不同層面的變化。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

先說技術(shù)面，早期在談到隱私保護時，很多時候僅僅是加密，對數(shù)據(jù)進行脫敏，在數(shù)據(jù)處理階段做了一些工作，就被看成是對數(shù)據(jù)有非常強的隱私保護了，但是，放在AI或者隱私計算大的環(huán)境里來看，實際上是不完善的。所以，在技術(shù)層面上，我們?nèi)绻娴囊ヂ鋵?，實際上需要引入更多的前沿技術(shù)。

業(yè)務(wù)層面，現(xiàn)在越來越多的用戶意識到數(shù)據(jù)本身是有價值的。對于隱私而言，他對自己個人的風(fēng)險的認(rèn)識也越來越全面，這些因素勢必也會影響用戶的行為，對基于數(shù)據(jù)的AI的業(yè)務(wù)產(chǎn)生影響。

合規(guī)層面，合規(guī)主要是指新的合規(guī)業(yè)務(wù)，尤其是全生命周期的合規(guī)要求，需要對現(xiàn)有業(yè)務(wù)模式進行一些改變，否則一旦涉足海外市場，難免會遇到合規(guī)風(fēng)險。

以下，在第二部分，將分技術(shù)、業(yè)務(wù)、合規(guī)三個層面進行具體展開。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

先看技術(shù)層面，這里非常重要的一點就是信息化技術(shù)發(fā)展得很快，產(chǎn)生的數(shù)據(jù)會越來越多，尤其是現(xiàn)在大家都在談5G、物聯(lián)網(wǎng)。

什么概念？目前，現(xiàn)在很多的數(shù)據(jù)都是以人為單位，每個人會產(chǎn)生很多數(shù)據(jù)，但是，在5G、物聯(lián)網(wǎng)普及的時候，很多時候數(shù)據(jù)產(chǎn)生的單位是以物品為概念的，不再受限于70億人口數(shù)量的限制，上萬億的各種智能設(shè)備，其中必然會產(chǎn)生海量的數(shù)據(jù)，并具有不同的權(quán)屬。

對應(yīng)地，便引出了“數(shù)據(jù)孤島”問題。一些看法認(rèn)為，因為有合規(guī)要求，所以才會產(chǎn)生孤島。因為合規(guī)需要對這些數(shù)據(jù)進行保護，我們不能讓它互通，但實際上這個說法并不那么確切，既然承認(rèn)數(shù)據(jù)有價值，也應(yīng)該承認(rèn)“數(shù)據(jù)孤島”是原生態(tài)。

舉個例子，比如資產(chǎn)是有價值的，不會隨隨便便要求大家把自己的資產(chǎn)共享出來，雖然在學(xué)術(shù)論文中也有資產(chǎn)孤島的提法。所以很多時候我們需要尊重這些“孤島”的存在。

從技術(shù)層面上需要怎么做呢？這里有幾個關(guān)鍵詞——多方、海量、高維、異構(gòu)。

對于后三者，大數(shù)據(jù)、傳統(tǒng)AI發(fā)展了這么多年，都有比較好的解決方案，但是，唯獨多方目前還有很多挑戰(zhàn)。

為什么？不妨看看多方隱私大數(shù)據(jù)需要實現(xiàn)的效果。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

最典型的效果之一，便是數(shù)據(jù)不出庫，這是一個非常形象的說法，但其本身并不確切，因為數(shù)據(jù)不出庫并不代表隱私信息不出庫，不代表敏感信息不出庫。

打個比方，在一個發(fā)布會上答記者問，提問某某是否為敏感人群或敏感事件，主辦方回復(fù)“對此我方無法進行評價”，很多時候提問者可以依據(jù)回答的語氣和用詞可以做出一個主觀的判斷——大概率還是敏感。

數(shù)據(jù)業(yè)務(wù)也是如此。

數(shù)據(jù)不出庫，字面意義就是數(shù)據(jù)明文不出庫，傳統(tǒng)的幾個方案包括數(shù)據(jù)哈希出庫、數(shù)據(jù)加密出庫、數(shù)據(jù)脫敏出庫，在AI領(lǐng)域，模型梯度出庫，這些方式是否真的安全？

更傳統(tǒng)的方式如內(nèi)容打碼、K匿名、差分隱私都可以用上。這里強調(diào)一點，每一種方法的能力都是有邊界的，實際上都需要一些配套的安全假設(shè)。

舉個差分隱私的例子，在2013年和2018年計算理論頂會上，分別有一篇論文分析了差分隱私在處理高維大數(shù)據(jù)上的理論局限性。標(biāo)題是如果我們要處理高維大數(shù)據(jù)，這是一個計算困難性問題，計算困難性問題意味著很多時候難以實現(xiàn)，所以差分隱私也是有能力邊界的，我們需要根據(jù)實際的業(yè)務(wù)場景選擇是否適用。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

數(shù)據(jù)不出庫只是一類手段，我們最終的目標(biāo)效果是什么？可用不可見？

值得注意的是，“可用不可見”只是一個小目標(biāo)，還有很多問題沒有得到妥善解答，比如誰可用誰不可見，限定用途的使用次數(shù)、使用方式有沒有限制，對于數(shù)據(jù)的主體，能不能對可用不可見的方式進行控制。

很多時候在數(shù)據(jù)協(xié)作時，尤其是在AI的學(xué)習(xí)中，結(jié)果正確性如何驗證也是一個非常重要的考量點?，F(xiàn)在很多智能化的業(yè)務(wù)也涉及到一些相對而言比較敏感的服務(wù)，會導(dǎo)致比較敏感的后果，如果誤判了怎么辦？如果進行多方協(xié)作的結(jié)果不正確，如何找出惡意的參與方？這些問題“可用不可見”都沒有直接回答，所以它只是一個小目標(biāo)。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

為了實現(xiàn)我們的大目標(biāo)，剛才提到的哪些額外的數(shù)據(jù)隱私保護點：不僅僅是需要一類技術(shù)，還可能需要融合多類技術(shù),并針對不同場景進行優(yōu)化。

三個主要的技術(shù)路線如下：

TEE可信計算。TEE的優(yōu)點是它本身是個硬件加速的隔離環(huán)境，在計算上沒有任何限制，什么業(yè)務(wù)都能跑，而且開發(fā)很友好。但是從設(shè)計上需要一個中心化的部署方，它只能有一個可信根。而且目前主流的云廠商并不支持TEE的云部署。

所以大家在實際部署上會不可避免的回到物理部署的范疇，在實際的使用中會有一些阻礙。

相對于可信計算而言，聯(lián)邦學(xué)習(xí)和安全多方計算對硬件的依賴則小很多，但同時也有一定的取舍。

聯(lián)邦學(xué)習(xí)，擅長各類模型的聯(lián)合訓(xùn)練跟推演,與現(xiàn)有數(shù)據(jù)業(yè)務(wù)協(xié)作模式十分貼合。

安全多方計算，是一個相對歷史悠久的技術(shù)，近五六年來有很多比較成熟的工業(yè)方案出現(xiàn)，尤其在學(xué)術(shù)界，目前更關(guān)注的可用性問題也得到了很大的提升，同時支持各類通用計算和各類安全模型，比較獨特的優(yōu)勢是它可以支持惡意模型。

什么是惡意模型？如果有多個參與方一起去做模型訓(xùn)練或聯(lián)合推演，只要有一個人做惡，就一定能在第一時間或者在最后結(jié)果產(chǎn)生之前終止運算，由此避免做惡方影響最后結(jié)果的正確性。

在關(guān)鍵的業(yè)務(wù)場景中，這是非常有必要的，作為取舍，其性能相對會低一些。

回到隱私大數(shù)據(jù)，海量、高維、異構(gòu)、多方，如何很好的支持它們？如果出現(xiàn)爭議，尤其是在關(guān)鍵業(yè)務(wù)中出現(xiàn)爭議，怎么高效識別作惡的計算參與方，這些都是需要我們在技術(shù)上應(yīng)對的挑戰(zhàn)。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

下一個就是業(yè)務(wù)層面的挑戰(zhàn)，如果一個業(yè)務(wù)要采用機器學(xué)習(xí)，隱私計算，以及相對而言比較智能的數(shù)據(jù)驅(qū)動方案，這里有一些重要的考量點。

如果是咨詢公司給的報告，一般有兩個維度，一個是商業(yè)價值，另外就是成熟度或者可信度。

特別推薦大家關(guān)注的一個新維度，就是數(shù)據(jù)隱私相關(guān)風(fēng)險。

如果設(shè)計一個多方協(xié)作，在整個協(xié)作過程中會不會產(chǎn)生嚴(yán)重的隱私風(fēng)險？或者不只是模型訓(xùn)練，我們使用的模型推演或者其他的通過隱私計算產(chǎn)生報表類的一些功能。如果因為有一方作惡，產(chǎn)生了一些錯誤的結(jié)果，后果的嚴(yán)重性如何？

這一新維度會直接影響用戶體驗，如果是應(yīng)用在民生領(lǐng)域或者金融領(lǐng)域，有些服務(wù)非常敏感，如果機器誤判，后果對于當(dāng)事人而言可能是相當(dāng)嚴(yán)重的。

這也帶來一個重要的關(guān)聯(lián)問題。如果用戶或合作機構(gòu)有隱私顧慮，是否存在技術(shù)手段影響現(xiàn)有的業(yè)務(wù)系統(tǒng)，造成額外的隱私風(fēng)險。

這里具體列舉了幾類風(fēng)險。

如何利用一些攻擊的手段，針對現(xiàn)在一些聯(lián)合的學(xué)習(xí)的訓(xùn)練或者推演，如果攻擊者在聯(lián)合模型訓(xùn)練時，它是否能夠推測出合作方的隱私樣本數(shù)據(jù)，或者在訓(xùn)練過程中是否能夠注入對己方有利的偏見。

同時，不僅是針對訓(xùn)練，我沒有參與的推演，訓(xùn)練我能不能在推演的時候去提取出你相對訓(xùn)練的隱私數(shù)據(jù)，或者推演我能否操作你推薦的結(jié)果。

從數(shù)據(jù)安全角度而言，這些都是很關(guān)鍵的問題，普通人很多時候可能是難以實施的，因為機器學(xué)習(xí)也好，隱私就本身就是一個相對比較前沿復(fù)雜的技術(shù)，所以——對抗魔法需要使用魔法。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

風(fēng)險一：這是一篇 CCS發(fā)表于2017年的論文，這些攻擊本身可能是一個實驗性質(zhì)的，但具有一定的借鑒意義。

這篇論文的結(jié)論：只要是聯(lián)合訓(xùn)練，如果能夠得到明文梯度，就一定能夠或者有一個極大的概率可以獲得合作方的隱私數(shù)據(jù)。

原本可能認(rèn)為通過聯(lián)合訓(xùn)練出去的只是模型梯度，并不直接包含隱私數(shù)據(jù)，但是由于攻擊方也使用了機器學(xué)習(xí)的算法，用了一個生成對抗網(wǎng)絡(luò)的GAN的技術(shù)，從梯度信息還原出合作方的訓(xùn)練樣本。這個實驗中主要針對深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，實驗中展示的還原成功率還是相當(dāng)高的。

論文同時也指出，即便額外使用了全局差分隱私，對攻擊結(jié)果影響不大。

從PPT截圖中，可以看到作者從梯度還原出了對方的訓(xùn)練樣本照片，而且在使用差分隱私之后，還原出的照片跟原本的照片實際上差距也不是特別大。所以從業(yè)務(wù)層面來說，這還是一個比較顯著的風(fēng)險，大家需要警惕。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

風(fēng)險二：如果共同參與一個聯(lián)合模型訓(xùn)練，是不是有可能注入偏見？答案是肯定的，但是需要多大的代價？

這是2018年一篇發(fā)表在S&P上的頂會論文，指出在某些線性回歸模型中，線性回歸模型在很多風(fēng)控或者類似的一種預(yù)測模型中還是用得比較廣泛的，因為具備良好的解釋性。作者展示了，只需要12%的惡意樣本，就可以引起顯著的預(yù)測偏見。

跟直覺上可能需要50~ 60%或者過半的樣本非常不一樣。

這里采用的也是魔法對抗，但并不是隨機注入樣本，因為參與聯(lián)合訓(xùn)練時，參與者對模型本身是有認(rèn)知的，所以涉及到一個優(yōu)化問題，通過優(yōu)化盡量減少產(chǎn)生偏見所需要的樣本比例。

因此，我們在做聯(lián)合訓(xùn)練的時候，也要將其考慮進去。有沒有可能有一個參與方只貢獻(xiàn)12%或者更低的數(shù)據(jù)，但他試圖導(dǎo)致偏移整個模型的效果？在沒有動機時的風(fēng)險比較低，但是如果有動機我們則需要加倍小心。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

風(fēng)險三：沒有參加模型訓(xùn)練，只是使用API，能不能猜出對應(yīng)的隱私數(shù)據(jù)？作者提出了一個很重要的點，答案是有可能。

論文中的實驗展示了，在一個神經(jīng)網(wǎng)絡(luò)中，只要拿到輸出的標(biāo)簽，很多時候就能預(yù)測的結(jié)果，結(jié)合它的置信度和網(wǎng)絡(luò)的結(jié)構(gòu)，就能夠推測還原出訓(xùn)練對應(yīng)標(biāo)簽的樣本。

比如得到的標(biāo)簽是張三和置信度，很多置信度是有小數(shù)點的，例如0.837，然后我就通過它的一個類似的優(yōu)化算法，做一個還原重建，最后能夠相對好的還原出這個樣本。

跟之前相比，因為之前是直接拿到梯度的，而現(xiàn)在沒有拿到訓(xùn)練的梯度，效果稍差一點，但是也可以很容易識別出左邊跟右邊的照片是屬于同一個人。

作者做了兩組實驗，一組是對于神經(jīng)網(wǎng)絡(luò)的，另外一組是對于決策樹的，決策樹在很多風(fēng)控模型中也有。很有意思的一點，就是拿決策樹做風(fēng)控模型會不會被別人反推出我們的訓(xùn)練樣本？

如果給出來的置信區(qū)間的精度足夠高，還是有很大的概率可以推測出來，決策樹在論文中甚至實現(xiàn)了一個黑盒的效果。

什么是黑盒效果？我不知道你的決策樹的樣子，只知道你的最后的結(jié)果跟輸出的置信度。我通過不斷的查詢，最后反推出你實際的樣本。但我們也具體應(yīng)對方式，對模型API進行安全加固。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

風(fēng)險四：不再是想推測出訓(xùn)練樣本，但是想操縱最后的推演結(jié)果，可不可行？可行！

這篇論文講的是，如果要在人臉識別系統(tǒng)中假扮另外一個人，最少需要什么？答案是需要這樣一副眼鏡，這副眼鏡不是隨便產(chǎn)生的，它是通過類似的機器學(xué)習(xí)算法，一個比較偏統(tǒng)計的黑盒優(yōu)化算法得出來的。

對于同一個人，查詢API 25次，通過其返回值，做一個黑盒的優(yōu)化，逼近其特征值，在原有的臉部的圖像做一個修正，最后就產(chǎn)生了這副眼鏡上五彩斑斕的樣式，在作者的實驗中實現(xiàn)了100%的偽裝率，只要戴一副眼鏡，可能被識別成另外一個人。

同時，只要戴一副眼鏡，基于機器學(xué)習(xí)的人臉檢測就可能失效。

由此可見，這些風(fēng)險是客觀存在的，所以我們不僅要考慮算法的智能性，很多時候還是要全面考量安全加固措施，否則就有可能引入意料之外的業(yè)務(wù)風(fēng)險。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

最后一個層面——合規(guī)面，合規(guī)面相對而言還是一個比較新的概念，一年前，大家還在爭論通訊錄、頭像數(shù)據(jù)的歸屬，現(xiàn)在明確都是屬于用戶的。

不僅如此，用戶在使用的過程中有很多環(huán)節(jié)，有些特殊環(huán)境有特殊的合規(guī)要求。

其中特別想談的兩點，就是限定數(shù)據(jù)用途跟數(shù)據(jù)被遺忘權(quán)，限定數(shù)據(jù)用途就是我給到你一個數(shù)據(jù)，只能用于廣告推薦，你如何保證只能用于廣告推薦，要在合規(guī)的框架下，不是用戶來自證，而是企業(yè)來自證，這對整個技術(shù)方案或者基礎(chǔ)設(shè)施是有要求的。

因為企業(yè)沒法自證，在用到數(shù)據(jù)時要告訴用戶，具體算法和系統(tǒng)在設(shè)計上的用途。

另外就是數(shù)據(jù)被遺忘權(quán)，現(xiàn)在分別來看二者的影響。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

限定數(shù)據(jù)用途，是一個大改變。我們原來很多系統(tǒng)平臺都是明文學(xué)習(xí)的，現(xiàn)在很可能要轉(zhuǎn)向密文學(xué)習(xí)。這里有一些過渡方案：

比如可信計算，相對而言改造成本比較低。因為它是一個容器化的隔離計算的方案，一個項目被稱作閱后即焚，90%以上就是可信計算。

這里也有個問題，我們需要找到一個可信的第三方，因為這個容器本身的真實性、可靠性或者它的隱私性，需要一個中心化的可信機來保證，然而它是一個單點的，很難做到多點，如果我們多方協(xié)作中找不到可信的第三方，整個業(yè)務(wù)就會很難推進。

所以，在多數(shù)情況下，我們會更傾向于聯(lián)邦學(xué)習(xí)和安全多方計算。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

第二點，被遺忘權(quán)，這也是因為合規(guī)產(chǎn)生的一個新需求。什么是被遺忘權(quán)？

很多時候用戶是流動的，例如用戶今天在平臺上注冊，但是過一段時間后因為種種原因而注銷了賬戶，這是一個非常關(guān)鍵的點。

用戶一旦注銷，作為企業(yè)方，就需要刪除用戶數(shù)據(jù)對現(xiàn)有業(yè)務(wù)模型的影響。

但很多時候這模型都是一個非常復(fù)雜的過程，一個用戶的數(shù)據(jù)可能會涉及到模型的很多方面，想完全的消除特定用戶數(shù)據(jù)的影響是很難的。

目前非常確定的合規(guī)的解決手段就是重建，我們把原來的數(shù)據(jù)、原來模型推倒重來，這樣就會保證沒有用到被刪除用戶的數(shù)據(jù)，但是對業(yè)務(wù)的影響也很大。

這里還有一些其它的思路，我們能否去將模型進行模塊化，每次盡量只更新用戶相關(guān)的一些數(shù)據(jù)，然后再引入遷移學(xué)習(xí)等手段來試圖減少模型重新訓(xùn)練的成本。

目前來講，這還是一個開放性的問題，需要大家獻(xiàn)計獻(xiàn)策。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

合規(guī)方面最后一點，不得不提的就是監(jiān)管審計，我們?yōu)榱讼拗朴猛荆芏鄷r候會需要使用密文訓(xùn)練，或者用密文進行推演或者進行一些計算。

在強監(jiān)管的要求下，這個過程也會對監(jiān)管帶來一些新的需求。但是如果我們要實現(xiàn)跨域監(jiān)管，比如跨境或者更大范圍內(nèi)的數(shù)據(jù)互通，挑戰(zhàn)性還是存在的。

以一帶一路為例，其中涉及到很多國家，比如意大利，就是一個歐盟國家。

如何更好的支持監(jiān)管，尤其是對隱私大數(shù)據(jù)，怎么更好的處理、實現(xiàn)，無需參與方配合，無需給到解密的密鑰，監(jiān)管方怎么能夠自主查驗所需要的內(nèi)容，同時，作為配合方，如何最小化信息的披露，實現(xiàn)分布式的信任，這里就需要用到區(qū)塊鏈相關(guān)技術(shù)了。

微眾銀行在數(shù)據(jù)隱私領(lǐng)域的前沿探索

談完了以上方面，在應(yīng)對數(shù)據(jù)隱私驅(qū)動行業(yè)巨變的同時，我們需要一套完整的方案，在最后一部分，就不得不提“數(shù)據(jù)新基建”。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

談到數(shù)據(jù)新基建，需要回歸到我們的原點——數(shù)據(jù)本身。

數(shù)據(jù)要產(chǎn)生自己的價值。除了那幾個關(guān)鍵詞——多方、海量、高維、異構(gòu)，實際上還有一些其他特性，比如易復(fù)制性、非排他性、非競爭性，既別人拿到數(shù)據(jù)后，用100遍可能跟自身用一遍，沒有什么差別。

而分散性就是有很多孤島，我們要尊重這些孤島，如何將它們連接起來，以及多樣性、價值聚合性、價值認(rèn)知多樣性。

價值認(rèn)知多樣性在國際社會上是一個比較重要的話題，對于一次隱私信息泄露，如果當(dāng)事人覺得嚴(yán)重侵害了其隱私，可以要求巨額罰款。

我們很多時候也會有一種觀點，認(rèn)為數(shù)據(jù)只有聚合才有價值，聚合是對公司有價值，但是單個數(shù)據(jù)是對個人是有價值的。

有些東西泄露后就會對個人的生活造成影響，比如醫(yī)療數(shù)據(jù)，這些都是切切實實的問題，但其認(rèn)知性實際上是多樣性的，如何照顧好每一個個體，尤其是實現(xiàn)數(shù)據(jù)的生產(chǎn)要素化，需要提供一系列技術(shù)保障。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

若要實現(xiàn)數(shù)據(jù)生產(chǎn)要素化，我們要構(gòu)建一整套的方案以達(dá)成效果，我們要界定其產(chǎn)權(quán)，儲存和評估其價值，與最后的價值可流通。大方向都是圍繞價值而言，要確定數(shù)據(jù)的收益。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

同時，我們也要控制數(shù)據(jù)的風(fēng)險，風(fēng)險來自隱私跟安全。為此，釋放數(shù)據(jù)要素生產(chǎn)力需要解決三大核心問題：安全存儲、可信傳輸以及協(xié)同生產(chǎn)。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

最后，為了發(fā)展健康的數(shù)據(jù)產(chǎn)業(yè)生態(tài)，我們需要打通隱私數(shù)據(jù)協(xié)同生產(chǎn)的雙循環(huán)。

第一個循環(huán)指個人數(shù)據(jù)應(yīng)用，即個人跟企業(yè)之間的數(shù)據(jù)互通，他們之間實際上是一個反饋關(guān)系。數(shù)據(jù)也不僅僅是停留在單個企業(yè)的，還可以在企業(yè)之間相互流轉(zhuǎn)，于是便引入了第二個循環(huán)，這里會需要引入不同的技術(shù)能力來滿足、實現(xiàn)協(xié)同生產(chǎn)的效果。

在理想的情況下，這兩個循環(huán)之間還會進一步互惠互補，產(chǎn)生正向反饋，構(gòu)成多方隱私大數(shù)據(jù)價值融合的良性大循環(huán)，顯著提升用戶體驗和企業(yè)效能。

為此，我們也做了一定的實踐并整理了一些案例，我們最近發(fā)布了一個白皮書，結(jié)合了多方面的技術(shù)以提升我們關(guān)鍵業(yè)務(wù)應(yīng)用的隱私保障。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

幾個比較典型的事例：

第一，粵澳健康碼互轉(zhuǎn)互認(rèn)，就是在跨境時，數(shù)據(jù)如何在隱私合規(guī)的情況下進行可信轉(zhuǎn)化，以及在后臺數(shù)據(jù)不連通的情況下如何實現(xiàn)互通。

第二，醫(yī)療處方線上流轉(zhuǎn)，醫(yī)療處方本身涉及很多類別的隱私數(shù)據(jù)，而不僅僅是數(shù)字簽名和數(shù)據(jù)加密那么簡單。

第三，綠色出行普惠平臺，這個項目結(jié)合了物聯(lián)網(wǎng)的能力，因為綠色普惠很多時候與跟車輛有關(guān)，如何將物聯(lián)網(wǎng)的數(shù)據(jù)以一種安全隱私的方式接入到平臺，完成對應(yīng)的計算評分，也涉及到很多數(shù)據(jù)隱私的問題。

第四，聯(lián)合營銷，效果非常明顯，相比傳統(tǒng)方式，可以提升20%以上的廣告轉(zhuǎn)化率。

之前分享中，提到在使用聯(lián)合學(xué)習(xí)中可能存在的風(fēng)險，但在實際部署中，我們會對方案進行一些隱私和安全的加強，值得一提的就是，我們不能夠簡單地相信一個方案所具有的能力而完全不提它的風(fēng)險，還需要對其進行全方位的考量和評測。

長遠(yuǎn)來看，希望數(shù)據(jù)新基建能夠采用相對可以管控的底層技術(shù)，更安全可控。

另外，可驗證的隱私性、安全性，而不只是貼上一個技術(shù)標(biāo)簽，整體方案需要提供技術(shù)手段，允許用戶直接參與到數(shù)據(jù)授權(quán)和限定使用的過程中來。

最后，就是高效率的計算能力，因為每類技術(shù)各有所長，很多時候特別安全的技術(shù)，其計算能力可能沒有那么強，所以我們需要做一些融合以找到一個最優(yōu)的解決方案。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

這里和大家分享一組數(shù)字，對于千萬級的大數(shù)據(jù)隱私求交，目前可以做到三分鐘以內(nèi)完成，萬次聯(lián)合的多方乘法計算，可以做到三毫秒以內(nèi)，對于同時參與隱私計算的機構(gòu)數(shù)則沒有限制。

回顧剛才的幾個關(guān)鍵詞，多方、海量、高維。

多方，不少傳統(tǒng)的方案都是一個兩方或三方的架構(gòu)，既如果有第4個和第5個參與方同時參與隱私計算，要么就是引入一個中心的協(xié)調(diào)方，中心協(xié)調(diào)方本身可能會泄密，這時的合作就很難進行了，但我們這邊沒有限制能夠在很安全的條件下實現(xiàn)這類需求。

大數(shù)據(jù)也是同樣的，實際上現(xiàn)在的隱私數(shù)據(jù)，包括政務(wù)部門，無論是人口或者其他方面的數(shù)據(jù)，千萬級別都算是偏小的，實際上也有很多上億的數(shù)據(jù)。如果不能夠很好的處理存儲量，很多應(yīng)用難以得到使用。

最近央行頒發(fā)的一項相關(guān)技術(shù)標(biāo)準(zhǔn)，目前我們的所有的指標(biāo)都是滿足這個標(biāo)準(zhǔn)，而且更有效。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

這里展示了我們主要的一個開源矩陣，以此構(gòu)建我們的“數(shù)據(jù)新基建”的解決方案。

除了人工智能之外，區(qū)塊鏈?zhǔn)浅休d數(shù)據(jù)信任和價值的最佳技術(shù)，對于隱私計算和AI應(yīng)用中常見的數(shù)據(jù)品質(zhì)、作惡溯源等難題，都可以通過區(qū)塊鏈進行互補或提升效果。

具體來看，區(qū)塊鏈板塊里涵蓋了微眾銀行牽頭金鏈盟開源工作組開源的底層平臺——FISCO BCOS，還有消息協(xié)作平臺——WeEvent，分布式數(shù)字身份——WeIdentity，這些都是可以跟機器學(xué)習(xí)做密切的結(jié)合的，包括可視化的中間件——WeBASE，將數(shù)據(jù)連起來的跨鏈協(xié)作平臺——WeCross,聚焦數(shù)據(jù)隱私保護的場景式解決方案集——WeDPR。

萬字長文丨微眾銀行嚴(yán)強：數(shù)字經(jīng)濟時代，隱私保護的道與術(shù)

我們努力的終極目標(biāo)只有一個，希望構(gòu)建一個這樣的基礎(chǔ)設(shè)施，以化解大家在數(shù)據(jù)行業(yè)中的技術(shù)難點、業(yè)務(wù)痛點，然后更好地在上面去開發(fā)應(yīng)用、發(fā)展生態(tài)、全面釋放數(shù)據(jù)生產(chǎn)力。

這里的矩陣結(jié)合了各方面的能力，最后實現(xiàn)了這樣的一個效果。當(dāng)然很多具體的技術(shù)領(lǐng)域也是在積極探索中，也誠邀合作伙伴，與我們攜手共創(chuàng)更好的未來。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章