本文選自中國工程院院刊《Engineering》2019年第6期 作者:李鳳華,李暉,牛犇,陳金俊 來源:Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192. 編者按 隨著信息技術(shù)的快速發(fā)展和個性化服務的不斷演進,海量用戶個人信息數(shù)據(jù)的頻繁跨境、跨系統(tǒng)、跨生態(tài)圈交互已成為常態(tài),加劇了隱私信息在不同信息系統(tǒng)中有意/無意留存,隨之而來的隱私信息保護短板效應、隱私侵犯追蹤溯源難等問題越來越嚴重,現(xiàn)有的隱私保護方案已不能提供體系化的保護。 中國工程院院刊《Engineering》刊發(fā)《隱私計算——概念、計算框架及其未來發(fā)展趨勢》,從信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期的各個環(huán)節(jié)出發(fā),闡明了現(xiàn)有常見應用場景下隱私保護算法的局限性,提出了隱私計算理論及關(guān)鍵技術(shù)體系,其核心內(nèi)容包括:隱私計算框架、隱私計算形式化定義、隱私計算應遵循的4個原則、算法設(shè)計準則、隱私保護效果評估、隱私計算語言等內(nèi)容。文章以4個應用場景為示例描述了隱私計算的普適性應用,并展望了隱私計算的未來研究方向和待解決問題,期待指引開放環(huán)境下用戶隱私保護等方面的理論與技術(shù)研究。 一、引言 信息技術(shù)、移動通信技術(shù)等的緊密結(jié)合與快速發(fā)展,以及智能終端軟硬件的不斷升級與換代,促進了互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等方面的技術(shù)發(fā)展,同時催生了以Amazon/淘寶為代表的電商、以Facebook/微信為代表的社交、以Uber/滴滴為代表的出行等各種新型服務模式,大幅度提升了人們的生活品質(zhì)。 然而,新技術(shù)、新服務模式的產(chǎn)生與快速發(fā)展促使海量用戶個人信息跨系統(tǒng)、跨生態(tài)圈甚至跨境交互成為常態(tài),用戶個人信息在采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期各個環(huán)節(jié)中不可避免地會在不同信息系統(tǒng)中留存,導致信息的所有權(quán)、管理權(quán)與使用權(quán)分離,嚴重威脅了用戶的知情權(quán)、刪除權(quán)/被遺忘權(quán)、延伸授權(quán)。另一方面,缺少有效的監(jiān)測技術(shù)支撐,導致隱私侵犯溯源取證困難。 現(xiàn)有隱私保護方案大都聚焦于相對孤立的應用場景和技術(shù)點,針對給定的應用場景中存在的具體問題提出解決方案: 基于訪問控制技術(shù)的隱私保護方案適用于單一信息系統(tǒng),但元數(shù)據(jù)存儲、發(fā)布等環(huán)節(jié)的隱私保護問題并未解決。 基于密碼學的隱私保護方案也同樣僅適用于單一信息系統(tǒng),雖然借助可信第三方實施密鑰管理可以實現(xiàn)多信息系統(tǒng)之間的隱私信息交換,但交換后的隱私信息的刪除權(quán)/被遺忘權(quán)、延伸授權(quán)并未解決。 基于泛化、混淆、匿名等技術(shù)的隱私保護方案因?qū)?shù)據(jù)進行了模糊處理,經(jīng)過處理后的數(shù)據(jù)不能被還原,適用于單次去隱私化、隱私保護力度逐級加大的多次去隱私化等應用場景,但因這類隱私保護方案降低了數(shù)據(jù)可用性,導致在實際信息系統(tǒng)中,經(jīng)常采用保護能力較弱的這類隱私保護方案,或者同時保存原始數(shù)據(jù)。 目前缺乏能夠?qū)㈦[私信息與保護需求一體化的描述方法及計算模型,并缺乏能實現(xiàn)跨系統(tǒng)隱私信息交換、多業(yè)務需求隱私信息共享、動態(tài)去隱私化等復雜應用場景下的按需隱私保護計算架構(gòu)。 總之,現(xiàn)有隱私保護技術(shù)無法滿足復雜信息系統(tǒng)的隱私保護需求,導致電子商務、社交網(wǎng)絡(luò)等典型應用場景下的隱私保護問題尚未得到根本性解決。為此,本文從隱私信息全生命周期保護的角度出發(fā),針對復雜應用場景下的體系化隱私保護需求,提出了隱私計算理論及關(guān)鍵技術(shù)體系,包括隱私計算框架、隱私計算形式化定義、隱私計算應遵循的四個原則、算法設(shè)計準則、隱私保護效果評估、隱私計算語言等內(nèi)容,以圖像、位置隱私保護等應用場景為示例描述了隱私計算的普適性應用,并展望了隱私計算的未來研究方向和待解決問題。 二、國內(nèi)外現(xiàn)狀 現(xiàn)有的隱私保護研究主要集中在信息處理過程中的隱私保護、隱私度量與評估兩個方面。 (一)信息處理過程中的隱私保護 學術(shù)界在信息采集、存儲、處理、發(fā)布(含交換)、銷毀等各個環(huán)節(jié)均開展了隱私信息保護研究,并在社交網(wǎng)絡(luò)、位置服務、云計算等典型應用場景下提出了大量保護方案,其隱私保護方法主要分為訪問控制、信息混淆、密碼學等三類。 訪問控制技術(shù)通過制定信息資源的訪問策略以保證只有被授權(quán)的主體才能訪問信息,從而實現(xiàn)信息的隱私保護。近年來,多個基于訪問控制的隱私保護方案被相繼提出。Scherzer等提出了基于強制訪問控制(MAC)模型的高可用智能卡隱私保護方案。Slamanig則提出了基于自主訪問控制(DAC)模型的外包數(shù)據(jù)存儲隱私保護方案。為了提高權(quán)限管理效率,Sandhu等提出了角色訪問控制(RBAC),用戶通過成為適當?shù)慕巧蓡T獲得相應的信息訪問權(quán)限,極大地簡化了復雜場景中的權(quán)限管理。Dafa-Alla等基于角色訪問控制提出了一種適用于多場景的隱私保護數(shù)據(jù)挖掘方法。2018年,Li等提出了面向網(wǎng)絡(luò)空間的訪問控制模型(CoAC),該模型涵蓋了訪問請求實體、廣義時態(tài)、接入點、訪問設(shè)備、網(wǎng)絡(luò)、資源、網(wǎng)絡(luò)交互圖和資源傳播鏈等要素,可有效防止由于數(shù)據(jù)所有權(quán)與管理權(quán)分離、信息二次/多次轉(zhuǎn)發(fā)等帶來的安全問題?;诖四P?,他們提出了一種基于場景的訪問控制方法——HideMe,為照片分享應用中的用戶提供隱私保護。此外,基于屬性的加密(ABE)將用戶的身份標識形式化為一系列的屬性,并將屬性信息嵌入加解密的過程中,使公鑰密碼體制具備了細粒度訪問控制的能力。FINE方案利用基于屬性加密的密碼學算法來實現(xiàn)細粒度的訪問控制,保護了用戶的位置隱私。 信息混淆技術(shù)是基于特定策略修改真實的原始數(shù)據(jù),使攻擊者無法通過發(fā)布后的數(shù)據(jù)來獲取真實數(shù)據(jù)信息,進而實現(xiàn)隱私保護。k-匿名、l-多樣性和t-近鄰等多種匿名化技術(shù)通過將用戶的原始數(shù)據(jù)隱藏到一個匿名空間中實現(xiàn)敏感信息的隱私保護。差分隱私由于對攻擊者的背景知識無要求而成為一種被廣泛認可的隱私保護技術(shù),文獻將差分技術(shù)與位置大數(shù)據(jù)服務相結(jié)合,針對發(fā)布數(shù)據(jù)聚集易受相似性攻擊的問題,提出一種最大化差分隱私效果的匿名算法。然而,差分隱私需要在查詢結(jié)果中加入大量的隨機化,隨著隱私保護要求增多,可用性會急劇下降。 密碼學技術(shù)是利用加密技術(shù)和陷門函數(shù),使攻擊者在無法獲得密鑰情況下不能得到用戶隱私信息。為了保護云計算中用戶的隱私信息,Rivest等首次提出了同態(tài)加密的概念?;谕瑧B(tài)加密,Zhu等構(gòu)造了隱私保護的空間多邊形查詢方案。1999年,Paillier設(shè)計出了基于復合模數(shù)的加法同態(tài)加密算法,在多種場景下得到了廣泛應用?;赑aillier加密系統(tǒng),Lu等提出了一種面向智能電網(wǎng)的隱私保護的數(shù)據(jù)聚合方案,該方案能夠保護用戶隱私并抵抗多種攻擊。2009年,Gentry基于理想格成功構(gòu)造了全同態(tài)加密方案,雖然近年來提出了許多改進方案,但是其復雜度仍然過高,不能應用于實際。為解決此問題,Zhu等基于輕量級隱私保護余弦相似度計算協(xié)議,設(shè)計了高效隱私保護的POI查詢方案,實現(xiàn)了用戶查詢信息和位置信息的隱私保護。此外,還提出了一些基于密碼學的方案,來為云計算場景下的用戶數(shù)據(jù)提供隱私保護。 上述各種隱私保護方案主要是針對特定場景局部數(shù)據(jù)集的具體算法,缺少針對特定場景動態(tài)數(shù)據(jù)集的算法框架,更缺少適應多場景動態(tài)數(shù)據(jù)集的普適性算法框架;其次針對多媒體數(shù)據(jù)需要多個隱私保護算法的組合,目前也缺少成熟的方案;第三,將不同隱私保護算法互相疊加以獲得更好保護效果的方法也有待開展研究。 (二)隱私度量與評估 目前學術(shù)界從信息論和應用領(lǐng)域?qū)Υ碎_展針對性的研究。文獻提出使用條件熵和互信息作為互補的隱私度量。Ma和Yau提出了一種時間序列數(shù)據(jù)的隱私度量標準,用于量化對手在嘗試推斷給定任何已發(fā)布數(shù)據(jù)范圍內(nèi)的原始數(shù)據(jù)時可用的信息量。Cuff和Yu提出了一種基于條件互信息的度量,通過描述對手觀察公開數(shù)據(jù)后,原始數(shù)據(jù)中隱私信息不確定性的下降來度量隱私信息。Jorgensen等結(jié)合差分隱私算法中ε可控的特點,根據(jù)用戶對數(shù)據(jù)隱私保護強度的要求,通過調(diào)整噪聲的分配策略生成符合lap(?f/ε)分布的噪聲,其中,lap(·)為Laplace分布函數(shù)。當ε越小,添加的噪聲越多,隱私保護強度越高。Asoodeh等通過互信息來度量隱私泄露的程度,他們通過計算攻擊者在觀察到發(fā)布數(shù)據(jù)之前和之后,在原始數(shù)據(jù)集中隱私信息的不確定量的降低來度量隱私信息。Zhao和Wagner應用4個全新的標準來評估車輛工作中的41個隱私指標強度。他們的研究結(jié)果表明,沒有一個指標能夠滿足所有標準和交通條件。應用領(lǐng)域的研究則主要聚焦在社交網(wǎng)絡(luò)、位置服務、云計算等方面。 社交網(wǎng)絡(luò)領(lǐng)域。Gervais等提出了針對網(wǎng)頁搜索中基于混淆技術(shù)的隱私保護方案,對用戶隱私進行了量化,在考慮用戶意圖不同時每個個體不同的搜索行為,設(shè)計了一個通用性工具,對基于混淆技術(shù)的隱私保護方案進行隱私度量;Cao等在考慮時空關(guān)聯(lián)的情況下,通過對隱私形式化描述,以及數(shù)據(jù)分析與計算,量化了在差分隱私技術(shù)下潛在的風險。Luo等提出使用Salus算法保護私有數(shù)據(jù)免受數(shù)據(jù)重建攻擊,該算法能夠?qū)崿F(xiàn)差分隱私。他們還量化了隱私風險,并為包含Salus的群體感知應用提供了準確實用的預測。在社交推薦場景中,Yang等提出了PrivRank,該框架能抵御成員推斷攻擊并給出個性化的推薦結(jié)果。他們利用Kendall的τ秩距離來測量數(shù)據(jù)失真程度,并通過最優(yōu)數(shù)據(jù)混淆學習來最小化隱私泄漏。 位置服務領(lǐng)域。Shokri等提出關(guān)于位置隱私保護機制的框架,利用確定攻擊模型以及敵手的背景知識,通過信息熵等方法來描述攻擊過程的精確性、確定性、正確性,從而實現(xiàn)隱私保護效果的度量;并同時提出一種基于博弈理論的框架,通過Bayesian Stackelberg博弈模型,該模型中的領(lǐng)頭者在該框架中指的是用戶,跟隨者是攻擊者,以此研究用戶和攻擊者的博弈,從而找出能夠抵抗最強推測攻擊的最佳隱私保護機制。Kiekintveld等提出了一個框架來尋找能夠抵抗最強推斷攻擊的最佳隱私機制。最近,Zhao等提出了一個隱私保護范式驅(qū)動的室內(nèi)定位框架(P3-LOC),利用特殊設(shè)計的k-匿名和差分隱私技術(shù)來保護其室內(nèi)定位系統(tǒng)中傳輸?shù)臄?shù)據(jù),既保證了用戶的定位優(yōu)先級,又保證了定位服務器的數(shù)據(jù)隱私。Zhang等提出了一種利用功率分配策略防止竊聽的位置隱私保護方法。通過使用精確的近似算法,不同的功率分配策略能夠在定位精度和隱私強度之間達到更好的平衡。 云計算領(lǐng)域。SAFE是以服務為導向的隱私保護框架,為云計算中對協(xié)議和本體的在跨鄰域交互下實現(xiàn)了安全協(xié)調(diào)。Wu等基于博弈論和差分隱私,對用戶所涉及的博弈元素進行多級量化,通過的單一數(shù)據(jù)集的分析實現(xiàn)用戶的隱私度量。Zhang等利用了差分的概念來對參與用戶的隱私等級進行量化,進而實現(xiàn)準確的激勵機制。為了保護云端的數(shù)據(jù)隱私,Chaudhari和Das提出了一種基于單個關(guān)鍵字的可搜索加密方案,適用于多個數(shù)據(jù)所有者上傳數(shù)據(jù)、多個用戶訪問數(shù)據(jù)的應用。 上述各類隱私度量方案缺乏對隱私概念的統(tǒng)一定義;其次,隱私度量隨信息接收主體、擁有數(shù)據(jù)量大小以及場景動態(tài)變化,目前缺乏隱私的動態(tài)度量方法;第三,信息跨系統(tǒng)傳播,缺乏不同系統(tǒng)隱私度量的一致性、隱私信息操作控制的形式化描述方法,不能支持跨平臺的隱私信息交換、延伸授權(quán)等動態(tài)保護需求。 綜上所述,現(xiàn)有的隱私保護以及隱私度量方案零散孤立,還缺乏隱私信息操作審計和約束條件的形式化描述方法,尚未有將隱私保護與隱私侵犯取證追蹤一體化考慮的方案,無法構(gòu)建涵蓋信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期各個環(huán)節(jié)的隱私保護和隱私侵犯取證追蹤的技術(shù)體系。 三、隱私計算的定義與框架 本節(jié)依次介紹隱私與隱私計算的基本概念,隱私計算框架及形式化定義,隱私保護方案的設(shè)計準則及效果評估。 (一)隱私與隱私計算的概念 1. 隱私權(quán)與隱私信息 從隱私保護的角度,本文更多側(cè)重隱私信息的全生命周期保護,具體而言,隱私信息包括當事人不愿他人知道或他人不便知道的個人信息、只愿在本人認可的人群范圍且本人認可的傳播方式傳播等。隱私信息還可被用來精準刻畫用戶的個人畫像,從而影響其生活和工作。 從學術(shù)上來講,隱私信息與時空場景、主體認知能力等因素緊密相關(guān),并呈現(xiàn)出動態(tài)的感知結(jié)果。本文主要從技術(shù)角度對隱私信息進行定義和描述,因此本文所定義的隱私概念與法律的定義有所差異,是為了支持跨系統(tǒng)隱私信息交換、隱私信息處理、隱私保護效果自動化評估等方面的研究。 2. 隱私計算 隱私計算是面向隱私信息全生命周期保護的計算理論和方法,具體是指在處理視頻、音頻、圖像、圖形、文字、數(shù)值、泛在網(wǎng)絡(luò)行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、算法及應用技術(shù),支持多系統(tǒng)融合的隱私信息保護。 隱私計算涵蓋信息所有者、信息轉(zhuǎn)發(fā)者、信息接收者在信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期過程的所有計算操作,是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時隱私信息描述、度量、保護、效果評估、延伸控制、隱私泄漏收益損失比、隱私分析復雜性等方面的可計算模型與公理化系統(tǒng)。 從全生命周期的角度出發(fā),本文提出了如圖1所示的隱私計算框架。該框架面向任意格式的明文信息M,首先將全過程分解成以下幾個元素:語義提取、場景提取、隱私信息變換、隱私信息整合、隱私操作選取、隱私保護方案選擇/設(shè)計、隱私效果評估、場景描述以及反饋機制。然后,將這些元素整合到以下5個步驟中,以此實現(xiàn)隱私計算框架。 圖1 隱私計算框架。F:隱私計算操作集合;A:隱私屬性向量;Γ:廣義定位信息集合;Ω:審計控制信息集合;Θ:約束條件集合;Ψ:傳播控制操作集; :歸一化隱私信息; f:隱私計算操作;:執(zhí)行操作后的歸一化隱私信息 步驟1:隱私信息提取。根據(jù)明文信息M的格式、語義等,抽取隱私信息X,并得到隱私信息向量I。 步驟2:場景抽象。根據(jù)I中各隱私信息分量的類型、語義等,對應用場景進行定義與抽象。 步驟3:隱私操作選取。選取各隱私信息分量 所支持的隱私操作,并生成傳播控制操作集合。 步驟4:隱私保護方案設(shè)計/選取。根據(jù)需求選擇/設(shè)計合適的隱私保護方案。如有可用且適合的方案及參數(shù)則直接選擇,如無,則重新設(shè)計。 步驟5:隱私保護效果評估。根據(jù)相關(guān)評價準則,本文使用基于熵或基于失真的隱私度量來評估所選擇的隱私保護方案的隱私保護效果。有關(guān)評估保護隱私效果的詳情,請參閱第3.5節(jié)。 對所采用的隱私保護方案進行效果評價。當隱私保護效果評價結(jié)果沒有達到預期,則執(zhí)行反饋機制,包括3種具體情況:①當場景抽象不當時,則對場景重新進行抽象迭代;②當場景抽象無誤但隱私操作選取不當時,則對隱私操作重新進行規(guī)約;③當場景、操作均無誤時,則對隱私保護方案進行調(diào)整/完善,以達到滿意的隱私保護效果。 需要注意的是,這些元素和步驟可以根據(jù)具體場景自由組合,該過程如圖1所示。 (二)隱私信息的形式化定義 本節(jié)首先定義隱私信息X及其所涵蓋的6個基本元素,以及相關(guān)公理、定理和假設(shè)等,這些是描述隱私計算其他內(nèi)容的基礎(chǔ)。需要指出的是,針對任意信息M的隱私信息向量的提取方法不在本文研究范疇內(nèi),因為它們受特定領(lǐng)域提取條件的約束。隱私信息的量化也不在本文研究范疇內(nèi),因為這是信息系統(tǒng)編程人員或建模人員的任務。 定義1:隱私信息X 由六元組〈I,A, Γ, Ω, Θ, Ψ〉組成,其中,這6個元素分別代表隱私信息向量、隱私屬性向量、廣義定位信息集合、審計控制信息集合、約束條件集合、傳播控制操作集合。 定義2:隱私信息向量I= (IID,i1,i2, …,ik, …,in),其中,ik(1≤k≤n)是隱私信息分量,用于表示信息M中語義上含有信息量的、不可分割的、彼此互不相交的原子信息,其信息類型包括文本、音頻、視頻、圖像等,語義特征包括字、詞、語調(diào)、語氣、音素、音調(diào)、幀、像素、顏色等。IID為該隱私信息向量的唯一標識。例如,文字信息“U1和U2去Loc喝酒”,這句話中I= (IID,i1,i2,i3,i4,i5,i6,i7) = (IID,U1, 和,U2, 去, Loc, 喝, 酒),n= 7。注意:某些特定的信息片段,如諺語,可以用自然語言處理方案進行有效的切分。 公理1:在某種自然語言及其語法規(guī)則下,在單詞、短語(phrase)、俚語的粒度下,隱私信息向量I的分量數(shù)量一定有界。 性質(zhì)1:隱私信息向量符合第1范式(1NF)和第2范式(2NF)。 隱私信息分量定義為不可細分的最小粒度,具有原子屬性。1NF的定義為:稱一個關(guān)系模式R 屬于第一范式,當且僅當R的所有屬性的域都是原子的。所以符合第1范式。隱私信息向量I有唯一標識的IID為主鍵,其他非主屬性的元素均依賴于該主鍵。2NF的定義為:若R∈1NF,且每一個非主屬性完全函數(shù)依賴于唯一的主鍵,則R∈2NF。所以ik符合第2范式。 定義3:約束條件集合Θ = {θ1,θ2,…, θk, …, θn},θk(1≤k≤n)表示隱私信息分量ik對應的約束條件向量,用于描述在不同場景下實體訪問 所需的訪問權(quán)限,例如,誰、在什么時間、使用什么設(shè)備、以什么方式訪問和使用隱私信息向量,并持續(xù)使用隱私信息向量多長時間等。只有滿足約束條件向量θk中全部訪問權(quán)限的訪問實體才能正常訪問隱私信息分量ik。實體包括信息所有者、信息接收者、信息發(fā)布者等。 定義4:隱私屬性向量A=(a1,a2, …,ak, …,an,an+1,…,am),ak代表隱私屬性分量,用于量化隱私信息分量及分量組合的保護程度。在現(xiàn)實應用時,在不同場景下不同的隱私信息分量可進行加權(quán)動態(tài)組合,這些組合會產(chǎn)生新的隱私信息,但基于隱私信息分量的原子性,本文將不同ik組合的隱私信息保護程度,以隱私屬性分量表示。當1≤k≤n時,ak與ik一一對應;當n ≤k≤m時,ak表示兩個或兩個以上隱私信息分量組合后的隱私信息的保護程度。 ak取值范圍定義為[0, 1],其中,ak取值為0時表示隱私信息所有者在安全可控的環(huán)境下信息獨享,即信息沒有任何共享性,不允許有任何泄漏的可能,代表信息得到最高程度的保護,保護后的隱私信息與原始隱私信息的互信息為0。例如,如果是加密之類的隱私保護方法,代表密鑰丟失、信息完全不可恢復的情況;如果是添加噪聲、泛化等不可逆有損的隱私保護方法,代表信息失真度,使得保護后信息與原始信息完全不相關(guān)。ak取值為1時,代表ik分量不受任何保護,可以不加限制地隨意發(fā)布。不同的中間值代表對不同隱私信息分量的保護程度,取值越低,表示隱私信息的保護程度越好。 將隱私保護程度量化操作函數(shù)記為σ,其中,人工標記、加權(quán)函數(shù)等都可作為隱私保護程度量化操作函數(shù),因為 有不同的信息類型,因此對應的σ表達式也不同,可記為 ak= σ (ik,θk) (1≤k≤n)。對于隱私信息分量i1,i2, …, in的任一組合 ,運算符定義為多個隱私信息分量的組合,通過隱私保護程度量化操作函數(shù)σ生成隱私屬性分量an+j,即an+j= (1≤k1<…<ks≤n)。對于隱私信息分量i1,i2, …,in和隱私信息分量組合in+1,in+2, …, im,生成隱私屬性向量A= (a1,a2, …, ak, …, an,an+1, …, am),其中,m取值為大于或等于n的正整數(shù)。將上述隱私信息向量與隱私屬性向量的關(guān)系簡記為A=σ(I, Θ)。量化操作與約束條件密切相關(guān),不同實體在不同場景訪問時的量化結(jié)果可能不同。 定理1:對一個特定的分量個數(shù)有界的隱私信息向量I= (IID,i1,i2, …,ik, …,in),其隱私屬性向量A=(a1,a2, …,ak, …,an,an+1,…,am)的維數(shù)有界,當I中各隱私信息分量的二元/多元組合僅對應唯一隱私屬性分量時,其隱私屬性分量個數(shù)m≤2 n– 1。 證明:由定義1和公理1可知,在隱私信息向量I 給定的條件下,其維數(shù)有界,即為n。再由隱私屬性向量的定義可知,隱私屬性分量對應隱私信息分量及其組合,因此隱私屬性向量維數(shù)有界。當隱私信息分量組合與隱私屬性分量一一對應時,隱私屬性向量維數(shù)最多為隱私信息分量的所有組合個數(shù),包括2到n元組合,即 為– 1,所以有m≤2n– 1。 定義5:廣義定位信息集合Γ= (γ,1 γ2, …, γk, …, γn),γk為廣義定位信息向量,表示隱私信息分量ik在信息M中的位置信息及屬性信息,可對隱私信息分量ik快速定位。位置信息用于描述所述 在信息M中的具體位置,如頁碼、章節(jié)、段落、序號、坐標、幀序號、時間段、音軌、圖層、像素等位置信息。在文本文件中,位置信息主要有頁碼、章節(jié)、段落、序號等,屬性信息主要有字體、字號、粗細、斜體、下劃線、刪除線、上角標、下角標、樣式、行間距等;屬性信息在音頻或視頻文件中則包含字體、大小、粗細、行間距、像素、色度、亮度、音調(diào)、語調(diào)、語氣等。 定義6:審計控制信息集合Ω= (ω1,ω2, …, ωk, …,ωn),ωk表示ik在傳播過程中一個具體的審計控制向量,用于記錄隱私信息分量ik在流轉(zhuǎn)過程中的主客體信息和被執(zhí)行的操作記錄,若發(fā)生隱私信息泄露時,可進行追蹤溯源。例如,流轉(zhuǎn)過程中主客體信息包括信息所有者、信息轉(zhuǎn)發(fā)者、信息接收者、信息發(fā)送設(shè)備、信息接收設(shè)備、信息傳輸方式、信息傳輸信道等;操作記錄包括復制、粘貼、剪切、轉(zhuǎn)發(fā)、修改、刪除等。 定義7:傳播控制操作集合Ψ = (ψ1,ψ2, …, ψk, …,ψn),ψk為傳播控制操作向量,用于描述ik及其組合可被執(zhí)行的操作,如復制、粘貼、轉(zhuǎn)發(fā)、剪切、修改、刪除等操作,這些操作不破壞I 的原子性。其中,ψl =judg(al, θl),約束條件向量 (n+1≤l≤m),judg為操作判別函數(shù),包括但不限于包括人工標記、加權(quán)函數(shù)中的一種或多種的任意組合。 公理2:跨系統(tǒng)交換時,延伸授權(quán)的信息管控雙方若不能完整有效地交換,則一定會導致隱私信息泄漏。 假設(shè)1:隱私計算可以定義成有限個原子操作,其他操作是在有限個原子操作的基礎(chǔ)上進行組合得到的。 假設(shè)2:隱私計算是建立在隱私信息分量的個數(shù)有界的前提下。 (三)隱私計算應遵循的四個原則 原則1:原子性。隱私分量之間相互獨立,可以刻畫到不可細分的粒度。 原則2:一致性。對相同的隱私信息,不同隱私保護算法均使隱私屬性向量A的所有分量趨向于0。 原則3:順序性。隱私保護算法中部分操作的順序不同可能導致隱私保護的效果不同。 原則4:可逆性。一些隱私保護算法是可逆的,如基于加密的算法可以通過解密來恢復。然而,其他的隱私信息處理往往是不可逆的。 (四)隱私計算的刻畫要素 定義8:隱私計算涉及4個元素(X,F,C,Q),其中,X分別代表隱私信息(參見定義1),F代表隱私運算操作集合,C代表隱私保護代價,Q代表隱私保護效果。 定義9:隱私運算操作集合F= {f1,f2, …, fk, …},F為對隱私信息X實施的隱私保護原子運算操作集合,如模加、模乘、模冪等運算,插入、刪除等操作。隱私保護算法由隱私運算操作集合中的多個元素構(gòu)成,且每個元素可重復多次使用。 隱私感知、隱私保護、隱私分析、隱私信息的交換和二次傳播、隱私信息融合、隱私信息更新等都可定義為若干個原子運算操作組合而成的特定操作。 公理3:當對信息M進行隱私運算操作處理后,會導致隱私信息向量的變化,由I變?yōu)?em>I ′,進而導致隱私屬性向量A變?yōu)?em>A′,其分量ai′的數(shù)量及數(shù)值也將發(fā)生變化。即當I進行隱私運算操作fk后得到到I′= fk(I),其相應的A′≠A,其中,A=σ(I),A′=σ(I′) =σ( fk(I))。 定義10:隱私保護復雜度C代表對信息M實施所需的隱私保護所耗費的各種資源的量化,包括計算/存儲/網(wǎng)絡(luò)傳輸開銷等。每個隱私信息分量ik都對應一個隱私保護復雜性代價Ck。其中, Ck與隱私信息分量ik、約束條件向量θk、隱私運算操作向量fk有關(guān),可以表示為: 由于每個ik都可能有不同的信息類型,例如,在一個word文件中有文字、圖像,甚至還有插入的音頻等,因此ik對應的每個函數(shù)ck會因信息類型的不同而具有不同的表達形式,C則由向量{Ck}(1≤k≤m)描述。 定義11:隱私保護效果Q代表對信息M進行隱私保護后所達到的保護效果,即為隱私保護前后隱私度量的差值。通常需要綜合考慮信息M的隱私信息向量、信息訪問實體(包括信息所有者、信息接收者、信息發(fā)布者等信息創(chuàng)建、傳遞過程中的參與者)、約束條件、隱私運算操作等要素。在前文中已經(jīng)介紹了隱私度量,即隱私屬性分量的表達式為ak= σ(ik, θk),其中,函數(shù)σ已經(jīng)包含了對隱私運算操作向量的因素;另外,約束條件的定義中也已經(jīng)涵蓋信息訪問實體的因素,故與隱私信息分量對應的隱私保護效果Qk可表示為: 式中,σbefore表示加入隱私保護之前的隱私度量函數(shù);σafter表示信息經(jīng)過隱私保護后的隱私度量函數(shù)。 定義12:隱私泄露收益損失比L = {Lk}代表隱私信息披露后的收益和隱私泄露帶來的損失比。其與隱私保護復雜性代價C、隱私保護效果Q的關(guān)系如下: 隱私計算模型的核心是對隱私計算4個因素和隱私泄露收益損失比L變量及其關(guān)系的刻畫。 (五)隱私保護效果評估 定義13:隱私保護算法/方案f是由隱私運算操作集合F 中的操作fi組合而成的。f對隱私信息向量I進行作用后,對應的隱私屬性向量A 中各分量將趨近于0。即對向量I,A,其中A =σ(I),若存在f∈Fk,I′= f(I),A′=σ(I′),s.t.||A′|| < ||A||,則f 稱為隱私保護算法,其中,||·||表示向量A的某種測度,如L2范數(shù)。 定義14:隱私保護效果評估,是指隱私信息向量I被不同隱私保護算法f作用后,新的隱私信息向量I′對應的隱私屬性向量的評估。即σ(f(I))越趨近于0,則隱私保護算法的效果越好。 定理2:對于特定的隱私信息內(nèi)容和相關(guān)的隱私保護算法,隱私保護效果Q是可評估的。 證明:根據(jù)定義2、公理1和定義4,任意信息都可以表示為隱私向量I,并被進一步劃分為有限數(shù)目的隱私信息元素 。在這里,假設(shè)1≤k≤n。每個隱私信息元素及其組合都可以由隱私屬性向量A來衡量,A=(a1,a2, …,ak, …,an,an+1,…,am),其中,ak=σ(ik, ·) + ok(·),ok(·)是一個無窮小量,表示計算時的偏差。本文定義ak∈[0,1]取值為0時表示隱私信息分量ik受到最高等級保護, 取值為1表示這個分量不受任何保護,可不加限制地發(fā)布。也就是說,能夠為每一個分量 計算一個值,在最壞情況下,該值的誤差在可接受范圍內(nèi)。根據(jù)定義11,Q=Q1⊙Q2⊙…⊙Qn+m,⊙代表一類運算操作。簡單起見,此處直接用“+”號。由于Qk= Δak,設(shè)定Q= ∑kΔσ(ik, ·) + ∑kΔok(·)。綜上,隱私保護效果是可以評估的。 效果評估主要包括保護過后的隱私信息的可用性、隱私保護的不可逆性、在可受控環(huán)境下的可逆性。隱私信息的可用性指隱私信息在經(jīng)過隱私保護算法作用后的新信息對系統(tǒng)功能或性能的影響。隱私保護的不可逆性指第三方或攻擊者基于其能力,從其所獲取的隱私保護算法和信息中無法推斷出原始的隱私信息。在可受控環(huán)境下的可逆性指第三方在某些信息已知情況下可以對隱私保護后的信息進行全部或部分還原。基于此,本文將現(xiàn)有論文中對隱私保護效果評估的關(guān)注點抽象為五大評價指標:可逆性、延伸控制性、偏差性、復雜性和信息損失性。 1. 可逆性 可逆性是指隱私保護算法執(zhí)行前后,隱私信息的被還原能力。具體是指:攻擊者/第三方從所觀測到的隱私信息分量推斷出隱私信息分量 的能力。若能準確推斷出 ,則具備可逆性,否則不具備可逆性。 例如,當有數(shù)據(jù)需要發(fā)布時,首先對所選隱私保護方案在不同攻擊下的抵抗能力進行評估,然后根據(jù)隱私保護處理過的待發(fā)布信息計算隱私屬性向量,進而得出不同攻擊下的非授權(quán)信息還原度和授權(quán)信息還原度。 猜想1:可逆的隱私保護算法在隱私信息跨信任域傳播后,如果隱私保護策略不匹配,會造成隱私泄露。 2. 延伸控制性 延伸控制性是指跨系統(tǒng)交換過程中接收方隱私信息保護效果與發(fā)送方的保護要求的匹配程度。具體是指:隱私信息X從系統(tǒng)Sys1轉(zhuǎn)到系統(tǒng)Sys2后,其在系統(tǒng)Sys1中的隱私屬性分量 與在系統(tǒng)Sys2中的隱私分量的偏差。即對任意k,在不同系統(tǒng)中,若ak= ak′,則說明延伸控制性良好,否則延伸控制性有偏差。例如,用戶Alice、Bob、Charles互為朋友,Alice在微信朋友圈中發(fā)布的一條隱私信息,設(shè)置了允許Bob看,不允許Charles看,但Bob將該信息轉(zhuǎn)發(fā)至其新浪微博,且未設(shè)置訪問權(quán)限限制,此時Charles就會看到。在該情況下,用戶Alice對其該條隱私信息在新浪微博中的訪問控制權(quán)限與其在微信朋友圈中的訪問控制權(quán)限就不匹配。 3. 偏差性 偏差性是指隱私保護算法執(zhí)行前后,隱私信息分量 和隱私保護后發(fā)布出去/攻擊者或第三方可觀測到的隱私信息分量之間的偏差。例如,位置隱私保護中,用戶真實所處位置(m,n)與位置隱私保護算法(位置偏移算法)執(zhí)行后的位置(m′,n′)之間的物理距離 。 4. 復雜性 復雜性指執(zhí)行隱私保護算法所需要的代價,即隱私保護復雜性代價C。例如,在用戶手持終端上執(zhí)行一次2048位的RSA加密算法所需消耗的計算資源大于執(zhí)行一次AES算法所需的計算資源。 5. 信息損失性 信息損失性指信息被擾亂、混淆等不可逆的隱私保護算法作用后,對信息擁有者來說缺失了一定的可用性。 例如,在位置隱私當中,若用戶不進行k匿名時,向服務器發(fā)送真實的地址,會返回精確的推送信息;但當采取k匿名后,服務器會返送回對用戶來說粗粒度的推送信息,不可用的結(jié)果比例增加,造成了一定的信息可用性損失。 (六)隱私保護算法設(shè)計準則 不同應用場景、不同信息類型的隱私保護需求差異性很大,但是在隱私保護算法設(shè)計過程中仍需遵守一定的共性準則,根據(jù)隱私計算的思想,本文給出隱私保護算法設(shè)計的5個基本準則。 準則1:預處理。對隱私信息X進行預處理,確定數(shù)據(jù)分布特征、取值范圍、數(shù)據(jù)隱私保護敏感度、隱私操作次數(shù)的期望值、隱私操作結(jié)果的社會經(jīng)驗值等。例如,隱私操作次數(shù)的期望值time =f(I,A, Θ) 。 準則2:算法框架。根據(jù)應用場景和信息類別,確定隱私保護算法的數(shù)學基礎(chǔ),具體給出算法步驟及步驟間的組合關(guān)系,并給出隱私屬性向量與隱私信息向量之間的關(guān)系。例如,對于不要求被保護信息可逆的應用場景,可采用基于泛化、混淆、匿名、差分等技術(shù)的隱私保護機制。以差分隱私保護為例,需在準則一的指導下,結(jié)合I,A, Θ,C,Q,L等要素,確定具體的加噪機制。 準則3:算法參數(shù)設(shè)計。根據(jù)隱私保護效果與可用性的應用需求,結(jié)合準則1、2,確定隱私保護算法中相關(guān)參數(shù)的具體取值。如差分隱私機制中需根據(jù)隱私保護需求確定隱私操作次數(shù)的期望值(對基于拉普拉斯機制的差分隱私保護方案確定隱私預算ε的取值),還需根據(jù)具體的查詢函數(shù)確定敏感度、隱私操作結(jié)果的社會經(jīng)驗值,在準則2中已確定的加噪機制前提下,結(jié)合I, Θ,確定添加噪聲的具體分布。 準則4:算法組合。根據(jù)應用場景和信息特征,在算法內(nèi)部實現(xiàn)不同步驟的組合,或在相似算法間實現(xiàn)排列組合,以達到安全性或性能方面的提升。例如,在采用差分隱私保護過程中,結(jié)合I, Θ,以及差分隱私相關(guān)組合性質(zhì),包括后處理性質(zhì)、順序組合性質(zhì)和平行組合性質(zhì)等,實現(xiàn)同一算法在步驟間的靈活組合;對于具有復雜隱私保護需求的應用場景,例如,同時兼顧發(fā)布數(shù)據(jù)的統(tǒng)計特征和匿名性,需在隱私信息處理過程中充分考慮各類具有相近數(shù)學機制的算法的特征,通過有機整合以確保滿足復雜隱私保護需求,并提升整體的安全性和性能。 準則5:算法復雜度與效能分析。從需要保護的隱私信息分量數(shù)目、算法安全參數(shù)取值范圍、算法的時間復雜度和空間復雜度、隱私保護效果的期望值等因素,綜合分析評估隱私保護算法的實現(xiàn)代價,以評估所選算法是否適合所對應的應用場景。 下面以差分隱私機制為例說明上述準則的適用性。 (1)預處理。在差分隱私保護算法中,記數(shù)據(jù)集為X,根據(jù)X、約束條件集合Θ和傳播控制操作集合Ψ生成對應的隱私信息向量集合I = i(X, Θ, Ψ),分析I的分布特征,確定I 的取值空間或者取值集合Ran。根據(jù)定義在I 上的統(tǒng)計查詢函數(shù)g(·),確定查詢次數(shù)的期望值t(·)和查詢結(jié)果的社會經(jīng)驗值υ(·),得到添加的噪聲取值空間或取值集合S=s(Φ, Ran,g(·),t(·)),并計算統(tǒng)計查詢函數(shù)g(·)的敏感度。對于一個定義在I的子集D上的統(tǒng)計查詢函數(shù)g(·),其敏感度定義如下: 式中,D,1 D2? I,D1,D2為任意兩個相差最多一個元素的集合,稱其為相鄰集合,p≥1且p∈N。 (2)算法框架?;陬A處理結(jié)果,充分考慮隱私保護復雜度C、隱私保護效果Q 等要素,將差分隱私機制的數(shù)學定義表示為: h(·) =h(λ,ε,κ)表示擴展的隱私預算,其中,λ為常數(shù),與噪聲分布相關(guān),ε 與查詢次數(shù)期望值相關(guān),κ與查詢結(jié)果社會經(jīng)驗值相關(guān)。δ(·) =δ(ε,κ)為修正參數(shù),用來放寬條件使得算法滿足差分隱私定義。D,1 D2是一對相鄰集合,Alg為一隨機化算法。 差分隱私保護算法框架為: 式中,Noise(·)為噪聲函數(shù)集,產(chǎn)生的噪聲滿足(h(·),δ(·)) – DP條件,其中,μ(·)表示產(chǎn)生噪聲的期望,b(·)為尺度參數(shù)函數(shù),控制噪聲分布的范圍,q(·)為指數(shù)機制中的效用函數(shù),控制數(shù)據(jù)經(jīng)過加噪后輸出某種結(jié)果的概率預期。根據(jù)應用場景和信息類別,選擇具體的噪聲分布和算法參數(shù)。 (3)算法參數(shù)設(shè)計。根據(jù)用戶對隱私保護強度和可用性的應用需求,并結(jié)合隱私信息向量I的取值范圍Ran、查詢次數(shù)的期望值t(·)等要素,確定噪聲分布的具體參數(shù)取值。其中,μ與輸出結(jié)果的均值需求有關(guān);b(·)與h(·)、數(shù)據(jù)集敏感度Δg、噪聲取值空間或取值集合S等有關(guān),即b(·) =b(h(·), ?g,S);q(·)與S、查詢結(jié)果的社會經(jīng)驗值有關(guān),即即q(·) =q(S,υ(·))。 (4)算法組合。差分隱私機制具有如下組合特性: · 后處理性質(zhì)(post-processing property)。如果Alg1(·)滿足ε– DP,則對于任意的算法(可能是隨機的)Alg2(·),組合后的算法Alg2(Alg (·))也滿足1 ε– DP。 – DP。 · 順序組合性質(zhì)(sequential composition)。如果Alg1(·)滿足ε1– DP,并且對于任意的s,Alg2(s)滿足ε2– DP,則Alg(D) = Alg2(Alg1(D),D滿足(ε1+ε2) – DP。 · 平行組合性質(zhì)(parallel composition)。如果Alg1,Alg2, …, Algk 是k個滿足ε1– DP,ε2– DP, …, εk– DP的算法,D1,D2, …,Dk是k個不相交的數(shù)據(jù)集,則Alg1(D),Alg1 2(D2), …, Algk (Dk)滿足max(ε1,ε2, …, εk) – DP。 當使用差分隱私保護算法對不同數(shù)據(jù)集的多種查詢統(tǒng)計進行保護時,可以利用上述三種性質(zhì),對算法的不同步驟進行組合。 (5)算法復雜度和效能分析。差分隱私保護算法是將噪聲與隱私信息相加,因此復雜度主要取決于噪聲的生成,隱私保護效果也取決于噪聲的大小,這些均與數(shù)據(jù)集特征、數(shù)據(jù)集敏感度計算等噪聲生成的參數(shù)相關(guān)??捎上旅婀絹砜坍嫞?/p> 算法Alg的復雜度C(Alg) =c(Φ, Δg,h(·),δ(·),μ(·),b(·),q(·)); 算法Alg的隱私保護效果Q(Alg) = Δσ(h(·),δ(·),μ(·),b(·),q(·))。 (七)隱私計算語言 本文提出一種隱私計算語言(privacy computing language, PCL),用以自動化地實現(xiàn)隱私信息全生命周期的形式化描述、傳播控制、運算、事務處理等操作,隱私計算語言主要包括以下三部分:隱私定義語言、隱私操作語言和隱私控制語言。 (1)隱私定義語言。用于描述信息M的隱私計算四要素的數(shù)據(jù)類型和數(shù)據(jù)格式,及其相關(guān)的完整性約束。其中,數(shù)據(jù)類型主要包括比特串型、整型、浮點型、字符串型、邏輯型、表頁數(shù)據(jù)、元數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)等。隱私定義語言還用于描述文本、圖像、音頻、視頻等對象的計算步驟,包括隱私信息抽取、場景抽象、隱私操作選取、隱私保護方案選擇/設(shè)計、隱私保護效果評估等。 (2)隱私操作語言。用于描述對信息M 進行操作的行為,如模加、模乘、模冪、異或、置換、擾亂、查詢、選中、刪除、修改、復制、粘貼、剪切、轉(zhuǎn)發(fā)等。 (3)隱私控制語言。用于描述對信息M的訪問控制權(quán)限的授予、鑒別和撤銷等,其中,權(quán)限主要包括選中、復制、粘貼、轉(zhuǎn)發(fā)、剪切、修改、刪除、查詢等。 (八)隱私侵犯溯源取證 在隱私計算的框架體系下,隱私侵犯行為及取證存在于其各個步驟中。隱私侵犯溯源取證主要包括對隱私信息的界定、隱私侵犯行為的判定、隱私侵犯的取證以及隱私侵犯的溯源等四部分,支撐隱私侵犯行為的溯源取證。 基于隱私計算框架,對隱私侵犯的特征和流程進行抽象,并將其整合到隱私計算框架各個步驟中,隱私侵犯行為追蹤溯源取證框架如圖2所示。 圖2 隱私侵犯行為追蹤溯源取證框架 (1)隱私信息抽取。信息M產(chǎn)生時,通過語義邏輯的計算分析抽取或標注其隱私信息,得到隱私信息向量I、廣義定位信息集合Γ和審計控制信息集合Ω,并計算得到隱私屬性向量A。此階段主要用于界定隱私信息。 (2)場景描述。對信息所處場景進行抽象描述,得到約束條件集合Θ、傳播控制操作集合Ψ。該階段提供了對隱私侵犯行為的判定標準,當不滿足上述條件時,則判定為隱私侵犯行為發(fā)生。 (3)隱私操作。依據(jù)場景限制給各個隱私信息分量分配可進行的操作,形成隱私運算操作集合F,并在此基礎(chǔ)上建立傳播控制操作集Ψ;記錄信息主體對該信息的隱私操作,生成或更新審計控制信息集合Ω。超出上述兩個集合的操作亦會被判定為隱私侵犯。 (4)選擇/設(shè)計方案。在該過程中,分析所選擇/所設(shè)計方案中涉及的運算是否滿足隱私運算操作集合,操作的動作、對象、結(jié)果等是否超出約束條件集合。防范隱私侵犯行為發(fā)生,并作為隱私侵犯判定標準。 (5)隱私保護效果評估。在該環(huán)節(jié)通過分析計算隱私保護代價C、隱私保護效果Q、隱私泄露損失收益比L,當上述因素未達到預定目標時,則需要對隱私信息全生命周期保護進行反饋審核。 溯源取證:當發(fā)生隱私侵犯時,需對前四個步驟中的信息流進行溯源分析,追蹤隱私侵犯發(fā)生的主體?;陔[私信息六元組以及第三方監(jiān)控或托管,界定隱私信息,判定隱私侵犯行為,并通過隱私計算框架中各個步驟的聯(lián)動,對異常行為進行取證,并找到侵犯行為的源頭,實現(xiàn)溯源取證。 四、隱私計算的應用實例 隨著跨系統(tǒng)、跨生態(tài)圈,甚至跨境信息交互的常態(tài)化,隱私信息未授權(quán)保存的問題越來越嚴重,給用戶的隱私安全造成巨大威脅。以下以信息系統(tǒng)交互的四種模式為例,依次描述隱私計算框架下如何實現(xiàn)隱私保護,并在發(fā)生隱私侵犯行為時實現(xiàn)溯源取證。 (一)系統(tǒng)內(nèi)部不同域間信息交互時的隱私計算實例 實例1:信息系統(tǒng)以社交網(wǎng)絡(luò)為例,社交網(wǎng)絡(luò)1其注冊用戶U= {u1,u2, …},每個用戶可能有多個朋友圈,記為朋友圈M= {m1,m2, …},用戶之間可通過朋友圈分享信息文件,文件集合記為D,其中,mi? 2U,即朋友圈由多個用戶構(gòu)成,定義用戶朋友圈函數(shù)如下: 這表示用戶擁有的朋友圈,其中 ,表示用戶的第j 個朋友圈,則有: 如圖3所示,用戶u1將其產(chǎn)生的多媒體文件d在其朋友圈 中發(fā)布,其圈中好友獲得該文件,并將該文件轉(zhuǎn)發(fā)給自己的朋友圈中用戶。圖3 系統(tǒng)內(nèi)部不同域間信息交互 步驟1:需要預置用戶ui的隱私保護需求 以及場景描述信息 ,并通過隱私標簽生成函數(shù)prTag生成隱私標簽,再利用標記函數(shù)TagAppend將標記到被用戶u1操作后的多媒體文件后,生成被用戶標記的文件上傳。其中,隱私保護需求需要用戶設(shè)置,包括文件中隱私信息的保護效果、文件允許流轉(zhuǎn)的范圍、允許的訪問實體、允許使用的操作集合等,用戶隱私保護需求集合記為PR = {pr1, pr2, …},定義隱私保護需求設(shè)置函數(shù)如下: 這表示用戶對隱私的相關(guān)保護需求,則用戶ui的隱私保護需求表示為: 場景描述信息需要從系統(tǒng)中分析得到,包含文件的生成時間、文件產(chǎn)生者、對文件的操作等,記為SS = {ss1,ss2, …},生成場景描述信息的函數(shù)定義為: 這表示系統(tǒng)生成的用戶所處場景下的描述信息,則用戶ui的場景描述信息為: 同時文件操作函數(shù)定義為: 這表示用戶對文件操作后得到新的文件,原文件d被用戶ui操作后的文件記為: 隱私標簽生成函數(shù)prTag,表示文件轉(zhuǎn)發(fā)中經(jīng)過某用戶主體而產(chǎn)生的隱私標記,定義為: 令 ,表示生成的標記,其中,X為隱私信息六元組,F為隱私運算操作集合。表示用戶產(chǎn)生的隱私標記,則有:標記函數(shù)tagAppend定義為: 這表示文件流轉(zhuǎn)過程中每經(jīng)過一個用戶,都會將其產(chǎn)生的標簽標記到原文件上,并依次迭代,則有: 步驟2:首先檢驗多媒體文件的標記信息 用戶是否滿足u2的約束條件集合Θ、傳播控制操作集合Ψ等,若滿足,則可對多媒體進行允許范圍內(nèi)的操作,如下載、剪輯等,由于該文件允許朋友圈中的好友下載,故用戶u2可下載得到。 步驟3:用戶u2可對從u1處獲得的多媒體文件進行修改、增加、刪除等允許范圍內(nèi)的操作,得到新文件 =,其中,表示文件d 先被u1、后被u2操作后得到的文件,并準備再次轉(zhuǎn)發(fā)給用戶u3或上傳至其所在的其他朋友圈。此時,系統(tǒng)將在從 處獲得的多媒體文件上標記用戶u2的隱私標簽,得到:步驟4:系統(tǒng)檢驗標記信息,若滿足每個標簽、 中的隱私需求,則用戶u3能夠看到用戶u2在社交網(wǎng)絡(luò)1中發(fā)布的多媒體文件,并進行下載或其他允許范圍內(nèi)的操作。 在上述信息流轉(zhuǎn)過程中,若出現(xiàn)異常行為,如某用戶的操作或其他行為超出了所約定的約束條件集合Θ或傳播控制操作集合Ψ等時,則可判定為發(fā)生隱私侵犯行為。此時,需要通過分析多媒體文件所攜帶的隱私標簽信息進行溯源,根據(jù)審計控制信息集合Ω等信息重現(xiàn)隱私侵犯現(xiàn)場,回溯在哪一主體處、因哪一操作的違規(guī)而出現(xiàn)異常,并據(jù)此對全生命周期的隱私信息流轉(zhuǎn)進行有效管控,實現(xiàn)對隱私侵犯行為的溯源取證。 (二)封閉系統(tǒng)間自主信息交互時的隱私計算實例 實例2:在本實例中,信息交互發(fā)生在同一企業(yè)生態(tài)圈的兩個封閉系統(tǒng)中。如圖4所示,用戶u1將其產(chǎn)生的多媒體文件d 按照公式(14)進行標記后得到,并在其社交網(wǎng)絡(luò)1中的朋友圈 中發(fā)布。服務器得到u1,并在滿足u1的隱私保護需求的情況下,將文件轉(zhuǎn)發(fā)到同一生態(tài)圈到社交網(wǎng)絡(luò)2中。圖4 封閉系統(tǒng)間用戶自主信息交互 此實例中,信息可以在不同的信息系統(tǒng)中傳播,而無需借助用戶,因此無需實例1的步驟3。由此社交網(wǎng)絡(luò)2發(fā)布的文件可供用戶u2進行下載或閱讀操作。 在相同的企業(yè)生態(tài)系統(tǒng)中,當社交網(wǎng)絡(luò)1和社交網(wǎng)絡(luò)2都有一個共同的用戶時,用戶在不同的封閉信息系統(tǒng)之間進行自主信息交互的情況同樣容易說明。 (三)開放系統(tǒng)間信息交互時的隱私計算實例 實例3:本節(jié)介紹隱私計算在開放系統(tǒng)間或開放系統(tǒng)與封閉系統(tǒng)間信息交互時的應用實例。如圖5所示,開放系統(tǒng)Z 論壇用戶u1將其產(chǎn)生的多媒體文件d 按照公式(14)進行標記后得到,并發(fā)布在該系統(tǒng)中,該系統(tǒng)的另一個用戶u2在滿足用戶u1的隱私保護需求的情況下獲得該信息并對文件d進行操作,根據(jù)公式(15)生成加入自己標簽的新文件,并在滿足u1、u2的隱私保護需求、 的情況下,將該信息發(fā)布在開放系統(tǒng)T論壇上,或登錄封閉系統(tǒng)社交網(wǎng)絡(luò)2,將其轉(zhuǎn)發(fā)給封閉系統(tǒng)的用戶u3。 圖5 開放系統(tǒng)間的信息交互 此實例中,區(qū)別主要在于步驟4,當所轉(zhuǎn)發(fā)的系統(tǒng)為開放系統(tǒng)時,該開放系統(tǒng)的所有用戶均能訪問所轉(zhuǎn)發(fā)的文件;當所轉(zhuǎn)發(fā)的系統(tǒng)為封閉系統(tǒng)時,僅轉(zhuǎn)發(fā)信息的用戶所在的朋友圈中,滿足相關(guān)隱私標簽中限制條件的其他用戶,才能夠訪問所轉(zhuǎn)發(fā)的文件,其他用戶如 則無法訪問。 (四)百度的差分隱私計算實例 實例4:數(shù)據(jù)集為百度DuerOS用戶訪問DuerOS中所有應用的訪問記錄,以查詢總訪問次數(shù)PV的差分隱私保護為例,說明如何在隱私保護算法設(shè)計準則的指導下實現(xiàn)差分隱私計算,如圖6所示。 圖6 支持隱私保護的PV/UV統(tǒng)計數(shù)據(jù)發(fā)布 (1)在預處理階段,根據(jù)應用場景,Θ, Ψ均為空集,即Θ = ?,Ψ = ?。令關(guān)注的隱私信息向量I為由數(shù)據(jù)集X 統(tǒng)計得到的一維數(shù)據(jù),即總訪問次數(shù)PV。查詢統(tǒng)計函數(shù)g為對數(shù)據(jù)集中所有用戶對全部應用的訪問次數(shù)求和。分析PV的分布情況,以得到PV的社會經(jīng)驗值υ(·)。計算敏感度時取p = 1,得到: 式中,D,1 D2 為任意相鄰集合。在百度的具體應用場景下,?g 為所有用戶中某天、某應用的最大訪問次數(shù)。 (2)在算法框架階段,由于PV是數(shù)值型數(shù)據(jù),因此采用Laplace加噪機制,選取λ = e, ε=ε,不考慮參數(shù)κ,h(λ,ε,κ) = eε,δ(·) = 0,即: 查詢統(tǒng)計函數(shù)為g(D) = PV。該Laplace隨機化算法Alg為: 式中,Lap(·)為服從參數(shù)為( μ,b)的Laplace概率分布函數(shù)。 如果Alg(·)值不在社會期望值υ(·)范圍內(nèi),則重新生成噪聲直到滿足要求為止。 (3)在算法參數(shù)設(shè)計階段,為了使得上述機制滿足差分隱私定義,即: 則Laplace機制下的參數(shù)需滿足μ(·) = 0,b(·) = Δg/ε。這種情況下噪聲參數(shù)不考慮效用函數(shù)q(·),同時根據(jù)用戶的查詢次數(shù)的期望值、輸出結(jié)果的社會經(jīng)驗值等隱私需求,調(diào)整參數(shù)ε 控制輸出噪聲范圍,以得到最優(yōu)的噪聲期望。 (4)在算法組合階段,由于PV報表中的周同比數(shù)據(jù)是基于一周每天PV的數(shù)據(jù)累加計算得到的,因此根據(jù)差分隱私的后處理性質(zhì),經(jīng)過累加的算法仍滿足ε– DP;而當各個廠商應用的PV值均以滿足ε – DP的條件發(fā)布時,根據(jù)差分隱私的平行組合性質(zhì),整體的數(shù)據(jù)也滿足ε– DP。 (5)通過了解百度對用戶隱私的保護需求,以及百度公司各業(yè)務部門對PV數(shù)據(jù)可用性的需求,可對所生成的加噪數(shù)據(jù)報表進行分析,并結(jié)合該差分算法復雜度,綜合評估其隱私保護、數(shù)據(jù)可用性、代價等多個方面的效果。 五、未來研究方向 (一)動態(tài)隱私度量 大型互聯(lián)網(wǎng)企業(yè)等機構(gòu)所控制的數(shù)據(jù)跨系統(tǒng)、跨境、跨生態(tài)圈流轉(zhuǎn),由于存在各種不同的數(shù)據(jù)類型和不同的應用場景,隱私度量的未來研究可以集中在三個方面:適合于多媒體場景下隱私信息的評估方法,隱私度量的動態(tài)調(diào)整機制,以及將隱私度量自動映射到約束條件和策略。通過解決大數(shù)據(jù)集動態(tài)隱私度量的核心問題可以支持場景自適應的隱私控制,特別是在大數(shù)據(jù)通過隨機路徑進行傳播難以預測其流向的情況下。 (二)隱私保護算法的基礎(chǔ)理論 針對不同信息類型和隱私保護需求的隱私保護原子操作,需研究高效的隱私保護原語的基礎(chǔ)理論。在基于加密的可逆隱私保護原語方面,重點在于全同態(tài)加密方法、部分同態(tài)加密算法、密文搜索、密文統(tǒng)計等密文計算理論。基于擾動的不可逆隱私保護原語方面,重點在于改進差分隱私模型并引入信息論中新的理論方法。 (三)隱私保護效果評估 隱私保護算法的效果評估重點是要建立一套科學合理的量化體系,在這一量化體系指導下,對可逆和不可逆的隱私保護原語以及由原語的組合提出各對應指標的量化評估方法,包括隱私保護效果、數(shù)據(jù)可用性、算法復雜度等,以期為隱私保護方案的設(shè)計、比較和改進提供科學的評價依據(jù)。 (四)隱私計算語言 研究隱私計算語言的語法體系,包括語句定義、編程接口、隱私保護原語的融合操作描述方法等,為復雜隱私保護方案的實現(xiàn)提供方便快捷、與硬件和操作系統(tǒng)等平臺無關(guān)的編程工具,以支撐隱私保護機制在復雜互聯(lián)信息系統(tǒng)中的實施部署。 (五)隱私侵犯的判定準則與取證方法 在隱私計算框架對隱私信息進行描述的基礎(chǔ)上,可以結(jié)合場景感知、隱私信息操作判定、隱私信息約束條件匹配等,對隱私侵權(quán)的多因素聯(lián)合決策準則進行研究,從而確定決策的量化閾值。為了解決隱私侵犯事件發(fā)生后時空場景重構(gòu)的關(guān)鍵問題,應該基于隱私信息描述中內(nèi)嵌的取證信息、第三方監(jiān)控與交叉多元素大數(shù)據(jù)分析,設(shè)計實用有效的取證方案。 六、結(jié)語 互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)快速發(fā)展,并通過云服務匯聚數(shù)據(jù),形成具有海量性、異構(gòu)性等典型特征的大數(shù)據(jù),為廣大民眾提供個性化服務,深刻地改變了人們的生產(chǎn)和生活方式。然而,信息服務卻面臨著收集、存儲、共享、發(fā)布(含交換)、銷毀等環(huán)節(jié)中的隱私信息泄露問題。 現(xiàn)有的各類解決方案趨于零散,尚未形成理論體系,本文所提出的隱私計算概念及其框架旨在建立全生命周期的隱私保護理論體系,包括隱私計算框架、隱私計算形式化定義、隱私計算應遵循的四個原則、算法設(shè)計準則、隱私保護效果評估與隱私計算語言。其中,隱私計算框架可支持跨平臺的隱私信息交換、隱私信息流轉(zhuǎn)的延伸授權(quán)、隱私侵犯的取證追蹤;隱私計算語言(PCL)的設(shè)計目標是滿足描述無歧義性、平臺無關(guān)性和計算一致性,以支撐隱私保護的分層跨系統(tǒng)實施?;诒疚乃岢龅碾[私計算框架,在百度DuerOS中實現(xiàn)了差分隱私保護機制。最后,展望了隱私計算的研究發(fā)展趨勢,期待隱私計算能夠指引實用化的隱私保護技術(shù)研究,并指導大規(guī)模信息系統(tǒng)中隱私保護子系統(tǒng)的開發(fā);同時,也期望隱私計算能為隱私保護標準的制定和隱私保護能力的評估提供理論支持。 注:本文內(nèi)容呈現(xiàn)略有調(diào)整,若需可查看原文。 改編原文: Fenghua Li, Hui Li, Ben Niu, Jinjun Chen.Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192. |
|
來自: 懶人葛優(yōu)癱 > 《技術(shù)》