{% note info %} {% endnote %} Questions
Abstract{% hideToggle 詞匯 %}
{% endhideToggle %} 目前AI領(lǐng)域面臨著兩個(gè)重要的挑戰(zhàn):
安全聯(lián)邦學(xué)習(xí)(secure federated learning)中包含的三個(gè)方面:
論文介紹了聯(lián)邦學(xué)習(xí)框架中的一些定義、架構(gòu)和應(yīng)用,并全面調(diào)查了聯(lián)邦學(xué)習(xí)方面已有的工作。此外,論文中還提出了如何在不同的組織之間基于聯(lián)邦機(jī)制來構(gòu)建數(shù)據(jù)網(wǎng)絡(luò),作為一個(gè)解決方案使得能在不泄漏用戶隱私的情況下分享知識(shí)(knowledge)。 Introduction{% hideToggle 詞匯 %}
{% endhideToggle %} 由于市場(chǎng)資金的注入和大數(shù)據(jù)的支持,AI自2016年便迎來了空前的繁榮。 在大部分領(lǐng)域,數(shù)據(jù)有限或者數(shù)據(jù)的質(zhì)量低,這使得AI技術(shù)的實(shí)現(xiàn)超乎想象的困難。一種可能的方法就是將不同機(jī)構(gòu)的數(shù)據(jù)運(yùn)輸?shù)酵粋€(gè)地方融合在一起。但是由于行業(yè)競(jìng)爭(zhēng)、隱私安全和復(fù)雜管理程序方面的原因,即使是同一公司內(nèi)不同部門之間的數(shù)據(jù)集成也會(huì)遇到很大的阻力。 facebook 的隱私外泄引起了廣泛的抗議,世界各國(guó)開始加強(qiáng)數(shù)據(jù)安全和隱私方面的法律法規(guī)。這也給如今在AI領(lǐng)域普遍使用的數(shù)據(jù)事務(wù)程序帶來了新的挑戰(zhàn)。
AI 領(lǐng)域中傳統(tǒng)的數(shù)據(jù)處理(data processing)模型涉及了一些簡(jiǎn)單的數(shù)據(jù)事務(wù)(data transactions)模型,其中一方收集和傳輸數(shù)據(jù)到負(fù)責(zé)清洗并融合數(shù)據(jù)的另一方,最終一個(gè)第三方會(huì)得到集成好的數(shù)據(jù)并構(gòu)建其他方也可以使用的模型。構(gòu)建好的模型通常也是最終的產(chǎn)品,作為一項(xiàng)服務(wù)銷售。傳統(tǒng)的處理程序面對(duì)著來自新法規(guī)的挑戰(zhàn),而用戶也可能因不清楚模型在未來的使用從而觸犯法律。因此,我們處在這樣一個(gè)困境中:數(shù)據(jù)處于一種孤島的形式,而我們?cè)诤芏嗲榫持斜唤谷ナ占?、融合來自不同地點(diǎn)的數(shù)據(jù)用以AI處理。 為了促進(jìn)聯(lián)邦學(xué)習(xí)的發(fā)展,論文作者希望能將AI發(fā)展的焦點(diǎn)從提高模型的表現(xiàn)切換到探索符合數(shù)據(jù)隱私安全法的數(shù)據(jù)集成方法上,前者是當(dāng)前大部分AI領(lǐng)域都在做的事情。 An Overview of Federated Learning{% hideToggle 詞匯 %}
{% endhideToggle %} 聯(lián)邦學(xué)習(xí)中最優(yōu)化問題的幾個(gè)重要因素:
Definition of Federated Learning假定有 \(N\) 個(gè)數(shù)據(jù)擁有者 \(\{ \mathcal{F}_1,\cdots,\mathcal{F}_N \}\) 希望通過聯(lián)合他們各自的數(shù)據(jù) \(\{ \mathcal{D}_1,\cdots,\mathcal{D}_N \}\) 來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)的模型。一種常見的方法就是把數(shù)據(jù)放在一起,即有 \(\mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N\),由此訓(xùn)練模型 \(\mathcal{M}_{SUM}\) 聯(lián)邦學(xué)習(xí)系統(tǒng)就是一個(gè)數(shù)據(jù)擁有者們合作性地訓(xùn)練模型 \(\mathcal{M}_{FED}\) 的學(xué)習(xí)過程,在這個(gè)過程中任意數(shù)據(jù)擁有者 \(\mathcal{F}_i\) 都不會(huì)將其數(shù)據(jù) \(\mathcal{D}_i\) 暴露給其他的數(shù)據(jù)持有者 用 \(\mathcal{V}_{FED}\) 表示模型 \(\mathcal{M}_{FED}\) 的精確度。\(\mathcal{V}_{FED}\) 必須十分接近 \(\mathcal{V}_{SUM}\) (\(\mathcal{M}_{SUM}\) 的性能) 令 \(\delta > 0\),若 \[\vert \mathcal{V}_{FED}-\mathcal{V}_{SUM} \vert < \delta
\tag{1}
\] 則稱這個(gè)聯(lián)邦學(xué)習(xí)算法有 \(\delta\) 精確度損失 Privacy of Federated Learning隱私是聯(lián)邦學(xué)習(xí)中的一個(gè)重要屬性,其需要安全模型和分析以提供有意義的隱私保證。論文介紹了聯(lián)邦學(xué)習(xí)中一些隱私技術(shù),識(shí)別方法以及間接隱私泄漏的預(yù)防中的潛在挑戰(zhàn)。
研究者們也開始考慮引入?yún)^(qū)塊鏈(blockchain)作為平臺(tái)來促進(jìn)聯(lián)邦學(xué)習(xí)。Hysung Kim 等人提出了一個(gè)基于區(qū)塊鏈的聯(lián)邦學(xué)習(xí)架構(gòu)(BlockFL),通過利用區(qū)塊鏈來交換并驗(yàn)證移動(dòng)設(shè)備之間本地學(xué)習(xí)模型的更新。他們也考慮了 an optimal block generation、網(wǎng)絡(luò)的可拓展性及健壯性的問題。 A Categorization of Federated Learning我們可以數(shù)據(jù)的分布特征為標(biāo)準(zhǔn),來給聯(lián)邦學(xué)習(xí)分類。 用矩陣 \(\mathcal{D}_i\) 表示數(shù)據(jù)擁有者 \(i\) 所持有的數(shù)據(jù),矩陣的每一行都代表一個(gè)樣本,每一列都代表一種特征。 同時(shí),一些數(shù)據(jù)集可能還包含了標(biāo)簽(label)字段。我們用 \(\mathcal{X}\) 表示特征空間,\(\mathcal{Y}\) 表示標(biāo)簽空間,\(\mathcal{I}\) 表示樣本ID空間,這三者組成了完整的訓(xùn)練數(shù)據(jù)集 \((\mathcal{I},\mathcal{X},\mathcal{Y})\)。 參與方們的數(shù)據(jù)的特征空間和樣本空間也許不是完全相同的,所以我們可以基于數(shù)據(jù)在不同參與方(parties)的特征空間和樣本 ID 空間上的分布情況,將聯(lián)邦學(xué)習(xí)分為水平聯(lián)邦學(xué)習(xí)(horizontal federated learing)、垂直聯(lián)邦學(xué)習(xí)(vertical federated learning)和聯(lián)邦遷移學(xué)習(xí)(federated transfer learning)。
Architecture for a federated learning system水平聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu) 在水平聯(lián)邦學(xué)習(xí)系統(tǒng)中,k 個(gè)參與者擁有相同的數(shù)據(jù)結(jié)構(gòu),通過參數(shù)服務(wù)器或者云服務(wù)器來共同學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)模型。假設(shè)參與者都是誠(chéng)實(shí)的,而服務(wù)器是 honest-but-curious,因此從任何參與方到服務(wù)器的泄漏是不被允許的。水平聯(lián)邦學(xué)習(xí)系統(tǒng)的訓(xùn)練過程包含了以下4個(gè)過程:
不斷的迭代這4個(gè)步驟直到損失函數(shù)收斂,整個(gè)訓(xùn)練過程就完成了。 這個(gè)構(gòu)架不依賴特殊的機(jī)器學(xué)習(xí)算法(如 logistic regression 和 DNN 等),并且所有的參與方都能分享最終模型的參數(shù)。 安全分析:如果采用了 SMC 或者同態(tài)加密來聚集梯度,這種架構(gòu)就可以用來預(yù)防半誠(chéng)實(shí)(semi-honest)的服務(wù)器引起的數(shù)據(jù)泄露。但是在其他安全模式的聯(lián)合訓(xùn)練過程中,水平聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu)很容易遭到惡意參與方的攻擊,通過訓(xùn)練一個(gè)生成對(duì)抗性網(wǎng)絡(luò)(Generative Aderversarial Network, GAN) 垂直聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu) 假設(shè)公司 A 和 B 共同訓(xùn)練一個(gè)模型,它們的商務(wù)系統(tǒng)有各自的數(shù)據(jù)。此外,公司B持有模型需要預(yù)測(cè)的標(biāo)簽。出于數(shù)據(jù)隱私和安全的考慮,A 和 B 之間不能直接交換數(shù)據(jù)。為了確保在訓(xùn)練過程中數(shù)據(jù)的機(jī)密性,可以引入一個(gè)第三方合作者 C。假設(shè) C 是誠(chéng)實(shí)的,且不與 A 或 B 串通,而 A、B 之間相互是 honest-but-curious。這樣一個(gè)可信任的第三方 C 通常由權(quán)威機(jī)構(gòu)來充當(dāng),比如政府,或者安全計(jì)算結(jié)點(diǎn)(如Intel Software Guard Extension, SGX)。垂直聯(lián)邦學(xué)習(xí)系統(tǒng)通常由兩部分構(gòu)成:
在實(shí)體對(duì)齊和模型訓(xùn)練的過程中,A 和 B 的數(shù)據(jù)都被保存在本地,且數(shù)據(jù)參與訓(xùn)練的交集部分也不會(huì)導(dǎo)致數(shù)據(jù)隱私泄漏。C 引起的數(shù)據(jù)泄露可能或不可能(may or may not)被認(rèn)為是隱私泄露(privacy violation)。在這個(gè)情境中為了進(jìn)一步預(yù)防 C 學(xué)習(xí)來自 A 和 B 的信息,A 和 B 會(huì)添加加密的隨機(jī)掩碼(encrypted random mask)來向 C 隱藏它們的信息。因此,兩個(gè)參與方都到達(dá)了它們的目的:通過聯(lián)邦學(xué)習(xí)來聯(lián)合訓(xùn)練一個(gè)公共模型。 因?yàn)樵谡麄€(gè)訓(xùn)練過程中,每個(gè)參與方接收到的損失值和梯度,與在數(shù)據(jù)被收集在同一個(gè)地方且沒有隱私約束的情況下訓(xùn)練模型而得到的損失值和梯度是一樣的。所以,這個(gè)模型是無損失的,其效率取決于交流的成本和加密數(shù)據(jù)計(jì)算的成本。 在每次迭代過程中,A 和 B 之間傳輸數(shù)據(jù)的規(guī)模取決于重疊樣本的多少。因此,可以采用分布式并行計(jì)算技術(shù)來進(jìn)一步提高算法的效率。 安全分析:訓(xùn)練協(xié)議不會(huì)泄漏任何信息給 C,因?yàn)?C 學(xué)習(xí)到的都是添加掩碼后的梯度。并且添加掩碼后的矩陣,其隨機(jī)性和安全性都得到了保證。在這樣的協(xié)議中,參與方 A 在每一步都能學(xué)習(xí)到自身的梯度,但這并不足夠讓其學(xué)習(xí)到 B 的任何信息。因?yàn)闃?biāo)量積協(xié)議的安全性建立于這樣一個(gè)基本事實(shí):不能從 n 個(gè)等式中求解出超過 n 個(gè)未知量。 聯(lián)邦遷移學(xué)習(xí)系統(tǒng)的架構(gòu) 在上面垂直聯(lián)邦學(xué)習(xí)的例子中,A 和 B 只有很小的樣本交集,我們希望學(xué)習(xí)到參與方 A 所有數(shù)據(jù)集的標(biāo)簽。垂直聯(lián)邦學(xué)習(xí)框架只操作了數(shù)據(jù)的重疊部分,為了將其覆蓋范圍拓展到整個(gè)樣本空間,我們引入了遷移學(xué)習(xí)。這并沒有改變垂直聯(lián)邦學(xué)習(xí)整體的框架,但是參與方 A 和 B 之間交換中間計(jì)算結(jié)果的細(xì)節(jié)改變了。 遷移學(xué)習(xí)涉及了 A 和 B 的特征之間公共表示(common representation)的學(xué)習(xí)過程,以及利用原始域方(source-domain party)標(biāo)簽來預(yù)測(cè)目標(biāo)域方(target-domain party)標(biāo)簽過程中的誤差最小化。因此,A 和 B 的梯度計(jì)算過程與在垂直聯(lián)邦學(xué)習(xí)中是不一樣的。在推理時(shí),仍然需要每個(gè)參與方去計(jì)算其預(yù)測(cè)結(jié)果。 獎(jiǎng)勵(lì)機(jī)制 為了將不同組織間的聯(lián)邦學(xué)習(xí)充分商業(yè)化,就需要去開發(fā)一個(gè)公平的平臺(tái)和激勵(lì)機(jī)制。模型建立后,其性能可以在具體的應(yīng)用中表現(xiàn),并且可以記錄在一個(gè)永久的數(shù)據(jù)記錄機(jī)制中(如區(qū)塊鏈)。機(jī)構(gòu)能更加寬裕的提供更多數(shù)據(jù),而模型的效果取決于數(shù)據(jù)提供者對(duì)系統(tǒng)的貢獻(xiàn)。模型的效能惠及聯(lián)邦機(jī)制的各個(gè)參與者,這又繼續(xù)激勵(lì)更多的機(jī)構(gòu)參與到數(shù)據(jù)聯(lián)合中。 這種架構(gòu)的實(shí)現(xiàn)不止考慮了隱私保護(hù)和多機(jī)構(gòu)間協(xié)作建模的效果,還顧及了如何獎(jiǎng)勵(lì)貢獻(xiàn)了更多數(shù)據(jù)的機(jī)構(gòu)以及如何通過共識(shí)機(jī)制(consensus mechanism)來執(zhí)行獎(jiǎng)勵(lì)措施。因此,聯(lián)邦學(xué)習(xí)是一種閉環(huán)的學(xué)習(xí)機(jī)制。 Related Work{% hideToggle 詞匯 %}
{% endhideToggle %} 聯(lián)邦學(xué)習(xí)使得多個(gè)參與方能協(xié)作構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,且其私人訓(xùn)練數(shù)據(jù)仍然保持私密性。作為一門新興的技術(shù),聯(lián)邦學(xué)習(xí)有幾條有創(chuàng)意的路線,其中一些根植于已存在的領(lǐng)域。 Privacy-preserving machine learning聯(lián)邦機(jī)器學(xué)習(xí)可以看作是保護(hù)隱私的分散協(xié)作機(jī)器學(xué)習(xí)(privacy-preserving decentralized collaborative machine learning),與多方保密的機(jī)器學(xué)習(xí)(multi-party privacy mechine learning)密切相關(guān)。 Federated Learning vs Distributed Machine Learning第一眼看上去,水平聯(lián)邦學(xué)習(xí)很像分布式機(jī)器學(xué)習(xí)(distributed machine learning)。分布式機(jī)器學(xué)習(xí)包含了很多方面:訓(xùn)練數(shù)據(jù)的分布存儲(chǔ)、計(jì)算任務(wù)的分布式操作以及模型結(jié)果的分布式分布(distributed distribution of model results)。 參數(shù)服務(wù)器(parameter server)是一個(gè)分布式機(jī)器學(xué)習(xí)中的典型元素,可用來加速訓(xùn)練過程。參數(shù)服務(wù)器存儲(chǔ)了分布式工作結(jié)點(diǎn)上的數(shù)據(jù),并且通過中心調(diào)度結(jié)點(diǎn)來分配數(shù)據(jù)和計(jì)算資源,這提高了訓(xùn)練的效率。 在水平聯(lián)邦學(xué)習(xí)中,工作結(jié)點(diǎn)就是數(shù)據(jù)持有者,其對(duì)本地?cái)?shù)據(jù)擁有完全的自治權(quán),可以決定何時(shí)以及如何加入聯(lián)邦學(xué)習(xí)。而在其參數(shù)服務(wù)器中,中心結(jié)點(diǎn)始終保有控制權(quán)。所以,聯(lián)邦學(xué)習(xí)面對(duì)著更加復(fù)雜的學(xué)習(xí)環(huán)境。此外,聯(lián)邦學(xué)習(xí)強(qiáng)調(diào)在訓(xùn)練過程中保護(hù)數(shù)據(jù)持有者的數(shù)據(jù)隱私。有效的隱私保護(hù)方法可以在未來更好的處理日益嚴(yán)格的隱私保護(hù)和數(shù)據(jù)安全管理環(huán)境。 如同在分布式機(jī)器學(xué)習(xí)中,聯(lián)邦學(xué)習(xí)也需要去定位非獨(dú)立相似分布的數(shù)據(jù)(address Non-IID data)。 Federated Learning vs Edge Computing聯(lián)邦學(xué)習(xí)提供了關(guān)于協(xié)調(diào)性和安全性的學(xué)習(xí)協(xié)議,所以也可以看作是邊緣計(jì)算的操作系統(tǒng)。 Federated Learning vs Federated Database Systems聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)將多個(gè)數(shù)據(jù)庫(kù)單元集成起來,并且將集成系統(tǒng)作為一個(gè)整體來管理。聯(lián)邦數(shù)據(jù)庫(kù)的概念被提出來用以實(shí)現(xiàn)多個(gè)相互獨(dú)立的數(shù)據(jù)庫(kù)之間的互操作性(interoperability),其數(shù)據(jù)庫(kù)單元使用分布式存儲(chǔ),而每個(gè)單元中對(duì)數(shù)據(jù)的操作是多樣的(heterogeneous)。因此,聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)與聯(lián)邦學(xué)習(xí)在數(shù)據(jù)的類型和存儲(chǔ)上有很多相似的地方。 但是聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)在集成數(shù)據(jù)庫(kù)的過程中沒有涉及任何隱私保護(hù)機(jī)制,所有的數(shù)據(jù)庫(kù)單元對(duì)于管理系統(tǒng)來說都是完全可見的。也就是說,聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)致力于數(shù)據(jù)的基本操作(如插入、刪除、搜索和合并等),而聯(lián)邦學(xué)習(xí)是在保護(hù)數(shù)據(jù)隱私的前提下創(chuàng)建一個(gè)聯(lián)合模型。因此數(shù)據(jù)包含的各種價(jià)值和規(guī)律為我們提供了更好的服務(wù)。 Applications{% hideToggle 詞匯 %}
{% endhideToggle %} 聯(lián)邦學(xué)習(xí)是一種創(chuàng)新的建模機(jī)制,能基于來自不同參與方的數(shù)據(jù)上訓(xùn)練聯(lián)合模型,且不泄漏這些數(shù)據(jù)的隱私和安全,在銷售、金融以及其他(出于知識(shí)產(chǎn)權(quán)、隱私保護(hù)和數(shù)據(jù)安全的原因,數(shù)據(jù)不能直接聚集起來用以訓(xùn)練機(jī)器學(xué)習(xí)模型的)行業(yè)上很有前途。 聯(lián)邦學(xué)學(xué)習(xí)可用于智慧零售(smart retail)。智慧零售的目的是使用機(jī)器學(xué)習(xí)技術(shù)來給消費(fèi)者提供個(gè)性化服務(wù),主要包括商品推薦和銷售服務(wù),其業(yè)務(wù)的數(shù)據(jù)特征主要有:
這些數(shù)據(jù)通常存儲(chǔ)在三個(gè)不同的部門或者企業(yè)中。 這樣的話,我們就面臨了兩個(gè)問題:
而使用聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)時(shí),這些問題迎刃而解。
因此,聯(lián)邦學(xué)習(xí)為我們提供了很好的技術(shù)支持,讓我們能為大數(shù)據(jù)和人工智能構(gòu)建跨企業(yè)、跨數(shù)據(jù)、跨領(lǐng)域的生態(tài)圈。 聯(lián)邦學(xué)習(xí)框架可用于不暴露數(shù)據(jù)的多方數(shù)據(jù)庫(kù)查詢(multi-party database querying without exposing the data)。在金融的應(yīng)用中,我們對(duì)探測(cè)多方借貸(detecting multi-party borrowing)很感興趣,這通常是銀行行業(yè)的一個(gè)主要風(fēng)險(xiǎn)因素,往往發(fā)生在有某些惡意用戶從一個(gè)銀行中借錢來支付另一家銀行的貸款時(shí)。多方借貸對(duì)金融穩(wěn)定來說是一個(gè)威脅,大量的這種非法行為可能會(huì)導(dǎo)致整個(gè)金融系統(tǒng)崩潰。 銀行 A 和銀行 B 為了找到這種用戶且不將自身的用戶名單泄漏給對(duì)方,可以利用聯(lián)邦學(xué)習(xí)框架。特別是,我們可以采用加密機(jī)制來加密每個(gè)參與方的用戶名單,并且把加密名單的交集加入聯(lián)邦中。最終結(jié)果的譯碼給出了多方借貸者的名單,而且這并不會(huì)將參與方自身的“好”用戶暴露給其他參與方。我們可以看到,這種操作與垂直聯(lián)邦學(xué)習(xí)有關(guān)。 聯(lián)邦學(xué)習(xí)還可以用于智慧健康護(hù)理(smart healthcare)。 Federated Learning and Data Alliance of Enterprises{% hideToggle 詞匯 %}
{% endhideToggle %} 借助區(qū)塊鏈技術(shù)中的共識(shí)機(jī)制(consensus mechanism),聯(lián)邦學(xué)習(xí)形成了公平分配利益的規(guī)則(profits allocation)。 Conclusions and Prospects{% hideToggle 詞匯 %}
{% endhideToggle %} |
|