在大數據時代背景下,數據的價值進一步得到了體現,因此科技公司往往比較關注數據的采集,由于數據的價值與數據維度有密切的關系,所以數據采集的維度也通常比較高,這也有可能會觸及到部分用戶的隱私,因此在大數據時代,人們對于個人隱私數據也越來越關注。
根據IDC發布的數據,截止到2018年底,中國大數據解決方案市場軟硬服總額達到388.8億元人民幣,并有望在2023年超過800億元人民幣,全球市場則將超過3000億美元。在這種背景下,兼顧隱私保護和數據利用的計算方式就成為了企業和學界研究的重點,各國對于隱私數據的監管越嚴厲,隱私計算行業的發展前景就越大。
一、隱私計算的概念
隱私計算的概念最早是在2016年提出的,隱私計算是面向隱私信息全生命周期保護的計算理論和方法,是隱私信息的所有權、管理權和使用權分離時隱私度量、隱私泄漏代價、隱私保護與隱私分析復雜性的可計算模型與公理化系統。隱私計算涵蓋了信息搜集者、發布者和使用者在信息產生、感知、發布、傳播、存儲、處理、使用、銷毀等全生命周期過程的所有計算操作,并包含支持海量用戶、高并發、高效能隱私保護的系統設計理論與架構。簡單來說,隱私計算是從數據的產生、收集、保存、分析、利用、銷毀等環節中對隱私進行保護的方法。
二、隱私計算的三大矛盾
隱私數據的處理過程當中還面臨著三個內部矛盾:安全、效率、數據孤島。
安全方面,目前的大數據行業主要依托于可信第三方的計算服務。這些第三方包括主要應用于科研領域的超算中心和主要應用于商業領域的數據中心。大數據行業的高性能、高投入需求讓規模化、集中化的運算成為了市場主流,2011年起,我國規劃建設了255個數據中心,總設計服務器規模728萬臺,承擔了我國大部分民用數據的計算服務。但這些集中化、規模化的數據中心可能出現問題也并非危言聳聽:就在今年2月,由于阿里云代碼托管平臺的項目權限設置存在歧義,導致開發者操作失誤,造成至少40家以上企業的200多個項目代碼泄露,其中涉及到萬科集團、咪咕音樂、51信用卡旗下51足跡、百度無人車合作伙伴ecarx等知名企業。
效率方面,在隱私信息的生命周期中,受益于密碼學發展,隱私的加密化、匿名化和脫敏技術都已經非常成熟,可以大規模應用在隱私獲取、儲存、流轉等環節中。但大數據時代的到來,讓隱私數據的處理成為了一個難題:大規模的加密數據處理一定會導致計算性能下降,而非加密數據處理又極大概率會導致隱私信息的泄露。
數據孤島是指的是數據被保存在無法自由流動的環境之下,互相獨立存儲、獨立維護。數據被視為數字時代的石油,每家企業都想守著自己的數據挖掘出巨大的商業價值。甚至數據隱私本身的保護服務,就蘊藏著商業利潤。Gartner就預測2019年全球消費者安全軟件支出將達到66億美元。至于各地的政府部門本身,由于責任邊界、數據共享的技術條件等問題,也缺乏足夠的動力來推動。
以醫院的病歷數據舉例,隨著信息化的推進醫院已經積累了許多臨床醫療的數據。如果這些數據可以開放出來,被制藥公司、學術機構進行研究,可以幫助我們更好地探索疾病和治療手段。然而,由于隱私保護的原因,醫院并不會這樣做。一方面,它不具備足夠的技術手段,將大量的患者信息以一種較為安全的途徑傳遞出去。其次,它也無法保證外部機構在拿到這些數據后,會對它們做些什么。畢竟,病歷信息屬于個人隱私,誰都不想別人知道自己得了什么病。這聽上去很合理,卻是一種巨大的浪費。
三、當隱私計算遇上區塊鏈技術
隱私計算雖然是近幾年隨著大數據技術的高速發展而出現的新概念,但其核心理念卻是隨著互聯網誕生就出現的:可信計算(Trusted Computing)由TCPA(可信賴運算平臺聯盟,Trusted CompuTIng Platform Alliance)提出,這個術語來源于可信系統,并且有其特定含義:如果一個實體的行為總是按照預期的方式和目標進行,那它就是可信的。其主要思路是在計算機硬件平臺上引入安全芯片架構,通過提供的安全特性來提高終端系統的安全性。
可信計算的反對者們認為這項技術“太中心化”了。區塊鏈技術適用于解決信任問題,這也是區塊鏈技術天生適合隱私計算的主要原因。雖然區塊鏈能夠解決信任的問題,但其他問題依然存在:區塊鏈的公開透明和全節點驗證,數據將流經區塊鏈上的每個全節點,使其無法很好的處理隱私數據,大數據應用的迅猛發展對隱私保護服務請求的用戶容量、并發程度和能效優化提出了極高的要求。在這個過程當中,明文大數據分析會導致隱私泄露,而將數據加密之后,大規模數據密態化又會極大的影響分析效率。
四、Layer-2 隱私計算的破局法則
區塊鏈行業中 Layer-2 的關鍵特征是計算被移除至鏈下,以實現隱私或節省計算資源的目的。大數據行業中的計算一直有巨規模、多樣化、高增速的特征,將所有數據上鏈進行計算,一方面讓儲存、通信成本急劇上升,另一方面也使隱私銷毀無法實現。因此,Layer-2 隱私計算的特征是,鏈上僅僅作為賬本,對數據資產實現確權和記錄,實際上的計算全部發生在鏈下。鏈下計算的過程中,為避免數據泄露,計算過程往往會發生在 TEE(可信硬件)中,或采用 MPC 的方式進行計算。
基于 TEE(可信硬件)的可信計算協議(Trusted CompuTIng Protocol,簡稱 TCP)。可信執行環境 (TEE) 是 Global Platform (GP) 提出的概念。是移動設備主處理器上的一個安全區域,其可以保證加載到該環境內部的代碼和數據的安全性、機密性以及完整性。TEE 提供一個隔離的執行環境,提供的安全特征包含:隔離執行、可信應用的完整性、可信數據的機密性、安全存儲等。該技術的核心是企業和個人可以把數據處理模型部署在區塊鏈上,在鏈下,例如 Intel SGX 可信執行環境中處理隱私數據,最終把可驗證結果存儲到鏈上并更新狀態。
基于 MPC(安全多方計算,Secure MulTI-Party ComputaTIon)的方式。MPC是一種在無可信第三方的情況下,安全地計算一個約定函數的方式,計算參與方只需參與計算協議,無需依賴第三方就能完成數據計算,并且各參與方拿到計算結果后也無法推斷出原始數據。MPC當前問題主要在于性能和效率,大部分現有的Demo實現都是基于semi-honest模型,更強的malicious-security模型性能極差;另外MPC是交互式的,即多輪迭代,導致大量網絡帶寬的需求,同時需要OT,會對性能造成很大影響。
就基于 TEE 方案的項目而言,由于所有計算過程都在鏈下的可信任環境中,所以不存在密態數據的計算效率問題:加密數據進入可信硬件中進行解密、計算、加密,最終得到加密數據,形成一個黑箱,在保證安全的同時保證了效率。
五、區塊鏈+隱私計算帶來的數據革命
過去人們的隱私信息被嚴重泄露,主要原因還是信息保管方式不當,比如學校,公司,賓館,招聘網站,旅游景點等,這些地方不斷地要你填寫你的各種信息,但是又不好好保管。
有了隱私計算+區塊鏈技術就不一樣了。你可以選擇把你的信息以加密方式都存在區塊鏈上,當你需要用你的信息去填各種表格的時候,可以直接用加密方式提供。對方拿到了加密后的個人信息,可以直接拿到區塊鏈上去驗證。這樣對方既可以確保你信息的真實性又免于了直接拿到你的信息。
舉個例子:你叫李紅,身份證號是 310101199708311528,人長得溫婉可人。你存在區塊鏈上的信息可能成為了 il99dskkdsf3234dsfs9893jdsjjadsf 等一串長長的密文,人臉像也被哈希加密。當你入住酒店的時候,你無需出示你的身份證,只需要把密文 il99dskkdsf3234dsfs9893jdsjjadsf 發給需要你信息的酒店,秘鑰只有你自己知道。酒店可以通過智能AI對你進行人臉識別,然后你的數據會在一個可信的計算環境中和你鏈上的加密人臉數據進行比對,確定你的入住身份。同時也會比較你的身份密文數據和公安系統通緝要犯庫中的數據密文,如果匹配不成功,那么你就 OK 了,可以入住。整個過程中,酒店方不會知道你的姓名和住址,但是又能夠確認是你本人,而且不是通緝要犯,沒用假身份證,讓你可以辦理入住。
除此之外,現在進入到了大數據和人工智那能時代。很多大數據需要用用戶的各種信息來統計,人工智能也要用用戶信息來訓練。你也可以有選擇地賣出你的部分個人信息,作為回報。大數據公司和人工智能訓練實驗室會付給你相應的價格作為回報。
再舉個例子,某家電商想用用戶數據做一個推薦算法,又沒辦法拿到淘寶或者京東的用戶數據。直接買,又擔心有人刷單薅羊毛。但是如果接入了區塊鏈。那我可以只賣出我的淘寶購物數據和京東購物數據,而不提供出我的快遞地址,姓名,支付寶號等。因為都記在區塊鏈上,我既沒法辦法把相同數據賣給這家電商兩次,又沒法賣給電商假數據。作為回報,店家給我支付酬勞,并且獲了真正的數據來幫助他自己完善算法,一舉兩得。
每個人的隱私信息被保護地更好了,而且獲得了收益。但是同時,公司和機構又得到了更精準,更有效的消息。這就是隱私計算+區塊鏈的魅力。