小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【讀】Federated Machine Learning: Concept and Applications

 小世界的野孩子 2022-10-14 發(fā)布于北京

{% note info %}

論文線上閱讀

{% endnote %}

聯(lián)合機(jī)器學(xué)習(xí)中的概念及應(yīng)用

Questions

heuristic fundamental
數(shù)據(jù)少,指的是樣本少;
數(shù)據(jù)的質(zhì)量低,我覺得并不是數(shù)據(jù)不可信,而是數(shù)據(jù)的特征空間小,包含的信息少,建模后并不能得到有效的結(jié)論。
早期有一種觀點(diǎn)是直接在這種數(shù)據(jù)少且質(zhì)量低的情況下訓(xùn)練模型,并致力于提高該模型的精確度。我覺得這不可行,至少使用機(jī)器學(xué)習(xí)的方法不能做到。機(jī)器學(xué)習(xí)研究的是統(tǒng)計(jì)問題,歸根到底是數(shù)學(xué)方法,它并不關(guān)心數(shù)據(jù)特征的具體含義,而敏感于數(shù)據(jù)的分布。我們借助機(jī)器學(xué)習(xí),最終得到的是期望/可能性,是關(guān)于概率的。因此自然是樣本越多越好,精確度就越高了。
數(shù)據(jù)的持有者結(jié)成聯(lián)盟共同訓(xùn)練模型,是另一種觀點(diǎn)。我覺得聯(lián)邦學(xué)習(xí)走在正確的路上。
1. 如何清洗數(shù)據(jù)?
理想的方法是直接將所有參與方的數(shù)據(jù)聚集在一起,不顧慮法律、技術(shù)和成本的約束。
而即使這樣,因?yàn)椴煌瑱C(jī)構(gòu)所持有的數(shù)據(jù)或多或少都是異構(gòu)的,在聚集時(shí)就必須將數(shù)據(jù)對(duì)齊,這也意味著非交集數(shù)據(jù)的損失。
既然如此,為何不先完成對(duì)齊,再將數(shù)據(jù)聚合呢?并且加密需聚合的數(shù)據(jù)。這一方面,于最終訓(xùn)練效果而言,并沒有太大影響;另一方面,又滿足了公眾對(duì)數(shù)據(jù)隱私的訴求。
2. 什么是數(shù)據(jù)中毒(data poisoning)?
水平聯(lián)邦學(xué)習(xí)增大了樣本空間,能夠提高模型的精確度;
垂直聯(lián)邦學(xué)期拓寬了特征空間,使得分析結(jié)果能夠涵蓋更多領(lǐng)域,產(chǎn)生1+1>2的效果
聯(lián)邦遷移學(xué)習(xí)到底是什么?
聯(lián)邦學(xué)習(xí)中,參與者越多越好嗎?

Abstract

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
strengthening n. 加強(qiáng) propose vt. 提出,建議
beyond prep. 晚于,遲于 secure federated learning 安全聯(lián)邦學(xué)習(xí)
federated transfer learing 聯(lián)邦遷移學(xué)習(xí) mechanism n. 機(jī)制,原理
compromise vt. 泄漏,使陷入危險(xiǎn),妥協(xié) CCS abbr. Council of Communication Societies 通信學(xué)會(huì)理事會(huì)
methodology n. 方法論 phrase n. 短語
GDPR General Data Protection Regulation 通用數(shù)據(jù)保護(hù)協(xié)議

{% endhideToggle %}

目前AI領(lǐng)域面臨著兩個(gè)重要的挑戰(zhàn):

  • 在大部分行業(yè)中,數(shù)據(jù)以孤島的形式存在
  • 加強(qiáng)數(shù)據(jù)隱私和安全

安全聯(lián)邦學(xué)習(xí)(secure federated learning)中包含的三個(gè)方面:

  • 水平聯(lián)邦學(xué)習(xí)(horizontal federated learning)
  • 垂直聯(lián)邦學(xué)習(xí)(vertical federated learning)
  • 聯(lián)邦遷移學(xué)習(xí)(federated transfer learning)

論文介紹了聯(lián)邦學(xué)習(xí)框架中的一些定義、架構(gòu)和應(yīng)用,并全面調(diào)查了聯(lián)邦學(xué)習(xí)方面已有的工作。此外,論文中還提出了如何在不同的組織之間基于聯(lián)邦機(jī)制來構(gòu)建數(shù)據(jù)網(wǎng)絡(luò),作為一個(gè)解決方案使得能在不泄漏用戶隱私的情況下分享知識(shí)(knowledge)。

Introduction

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
Go n. 圍棋 defeat vt. 擊敗
cutting-edge adj. 最新的,先進(jìn)的 medical care 醫(yī)療護(hù)理
walks of life 各行各業(yè) inevitable adj. 不可避免的
availability n. 可獲得性 permission n. 許可
hard copy 復(fù)印件 grant vt. 授予
commercial adj. 商業(yè)的,營(yíng)利的 citation n. 引用
fuse vt. 融合 if not impossible 如果有可能的話
recommendation n. 推薦 complicated administrative procedure 復(fù)雜的管理程序
integration n. 集成 resistance n. 阻力,反抗
institution n. 公共機(jī)構(gòu) issue n. 問題
cause great concern 引起巨大的影響 data breach 數(shù)據(jù)外泄
protest n. 抗議,反抗 enforce vt. 實(shí)施
protect vt. 保護(hù),防衛(wèi) plain adj. 簡(jiǎn)單的
stiff fine 硬性罰款,嚴(yán)厲處罰 violate vt. 違反
bill n. 法案 act n. 法令
enact vt. 頒布 Cyber Security Law 網(wǎng)絡(luò)安全法
General Principles of Civil Law 民法通則 tamper vi. 做手腳,破壞
tamper with 篡改 conduct vt. 實(shí)施,進(jìn)行
obligation n. 義務(wù),責(zé)任 pose vt. 造成,形成
dilemma n. 困境,進(jìn)退兩難 data fragmentation 數(shù)據(jù)碎片
to be more specific 具體而言,準(zhǔn)確來說 be responsible for 對(duì)...負(fù)責(zé)
promote vt. 促進(jìn) complaint adj. 服從的,順從的

{% endhideToggle %}

由于市場(chǎng)資金的注入和大數(shù)據(jù)的支持,AI自2016年便迎來了空前的繁榮。

在大部分領(lǐng)域,數(shù)據(jù)有限或者數(shù)據(jù)的質(zhì)量低,這使得AI技術(shù)的實(shí)現(xiàn)超乎想象的困難。一種可能的方法就是將不同機(jī)構(gòu)的數(shù)據(jù)運(yùn)輸?shù)酵粋€(gè)地方融合在一起。但是由于行業(yè)競(jìng)爭(zhēng)、隱私安全和復(fù)雜管理程序方面的原因,即使是同一公司內(nèi)不同部門之間的數(shù)據(jù)集成也會(huì)遇到很大的阻力。

Facebook泄密丑聞始末

facebook 的隱私外泄引起了廣泛的抗議,世界各國(guó)開始加強(qiáng)數(shù)據(jù)安全和隱私方面的法律法規(guī)。這也給如今在AI領(lǐng)域普遍使用的數(shù)據(jù)事務(wù)程序帶來了新的挑戰(zhàn)。

GDPR:通用數(shù)據(jù)保護(hù)協(xié)議

GDPR:

  • 禁止自主的建模和決定
  • 解釋模型的決定
  • 授予用戶遺忘數(shù)據(jù)的能力,允許用戶刪除或者撤銷其個(gè)人數(shù)據(jù)
  • 在設(shè)計(jì)層上就考慮數(shù)據(jù)隱私
  • 使用清晰簡(jiǎn)單的語言說明數(shù)據(jù)使用的用戶許可授權(quán)

AI 領(lǐng)域中傳統(tǒng)的數(shù)據(jù)處理(data processing)模型涉及了一些簡(jiǎn)單的數(shù)據(jù)事務(wù)(data transactions)模型,其中一方收集和傳輸數(shù)據(jù)到負(fù)責(zé)清洗并融合數(shù)據(jù)的另一方,最終一個(gè)第三方會(huì)得到集成好的數(shù)據(jù)并構(gòu)建其他方也可以使用的模型。構(gòu)建好的模型通常也是最終的產(chǎn)品,作為一項(xiàng)服務(wù)銷售。傳統(tǒng)的處理程序面對(duì)著來自新法規(guī)的挑戰(zhàn),而用戶也可能因不清楚模型在未來的使用從而觸犯法律。因此,我們處在這樣一個(gè)困境中:數(shù)據(jù)處于一種孤島的形式,而我們?cè)诤芏嗲榫持斜唤谷ナ占?、融合來自不同地點(diǎn)的數(shù)據(jù)用以AI處理。

為了促進(jìn)聯(lián)邦學(xué)習(xí)的發(fā)展,論文作者希望能將AI發(fā)展的焦點(diǎn)從提高模型的表現(xiàn)切換到探索符合數(shù)據(jù)隱私安全法的數(shù)據(jù)集成方法上,前者是當(dāng)前大部分AI領(lǐng)域都在做的事情。

An Overview of Federated Learning

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
effort n. 努力 personalizable adj. 個(gè)性化的
optimization n. 最佳化 massive adj. 大量的
partition vt. 分割,區(qū)分 decentralized adj. 分散管理的
preliminary adj. 初步的,開始的 foundation n. 基金會(huì)
multiagent theory 可替換主體理論 data mining 數(shù)據(jù)挖掘
workflow n. 工作流程 consolidate vt. 聯(lián)合,鞏固
respective adj. 各自的,分別的 conventional adj. 常見的,慣例的
guarantee n. 保證 identify vt. 鑒別,識(shí)別
simulation n. 模擬,仿真 proof n. 驗(yàn)證
complete adj. 完全的,徹底的 desirable adj. 可取的,令人向往的
partial adj. 局部的 disclosure adj. 披露
semi-honest adj. 半誠(chéng)實(shí)的 verification n. 核查,驗(yàn)證
reveal vt. 顯示,泄漏 collude vi. 勾結(jié),串通
well-defined adj. 定義明確的,界限清楚的 desire vt. 要求
line of work 行業(yè) anonymity n. 匿名性,匿名者
diversification n. 多樣化,分化 obscure vt. 使...模糊不清,隱藏
restore vt. 恢復(fù),重建 approach to 約等于,通往...的方法
transmit vt. 傳輸,傳播 homomorphic encryption 同態(tài)加密
adopt vt. 采用,采納 additively adv. 附加地,疊加地
polynomial approximation 多項(xiàng)式逼近 intermediate adj. 中間的,過渡的
constrain vt. 驅(qū)使
n. 約束
scale n. 規(guī)模
poisoning n. 中毒 loophole n. 漏洞
variant n. 變體,轉(zhuǎn)變 constant fraction 恒比
blockchain n. 區(qū)塊鏈 facilitate vt. 促進(jìn),幫助
leverage vt. 利用 scalability n. 可拓展性
robustness n. 健壯性 categorize vt. 分類
identical adj. 完全相同的 regional adj. 地區(qū)的,局部的
scheme n. 計(jì)劃,方案,模式 intersection n. 交集
address vt. 設(shè)法解決 straggler n. 掉隊(duì)者
partition vt. 分割,區(qū)分 compression n. 壓縮
bandwidth n. 帶寬 preserving n. 保護(hù),保存
regression n. 回歸 linear adj. 線性的
entity n. 實(shí)體 applicable adj. 可應(yīng)用的,合適的
commerce n. 貿(mào)易,商務(wù) revenue n. 收益
expenditure n. 支出,花費(fèi) retain vt. 保持,記住
corrupted adj. 毀壞的 geographical adj. 地理的
restriction n. 限制 portion n. 部分
exceeding vt. 超越 decrypt vt. 解碼
converge vi. 聚集,收斂 subject adj. 容易遭受...的
Generative Adervasarial Network GAN 生成對(duì)抗性網(wǎng)絡(luò) entity n. 實(shí)體
alignment n. 對(duì)齊 lossless adj. 無損的
gather vt. 收集 scale vi. 改變大小
parallel adj. 平行的 randomness n. 隨機(jī)性
secrecy n. 機(jī)密性 inability n. 無能力
terminate vt. 使結(jié)束 oblivious adj. 遺忘的
overall adj. 全部的 commercialize vt. 商業(yè)化
incentive n. 激勵(lì),動(dòng)機(jī) manifest vt. 表明,證明
permanent adj. 永久的,永恒的 better off 達(dá)到某數(shù)量的,富裕的,漸入佳境
consensus n. 一致

{% endhideToggle %}

聯(lián)邦學(xué)習(xí)中最優(yōu)化問題的幾個(gè)重要因素:

  • 在大量分布地間進(jìn)行交流的成本
  • 數(shù)據(jù)分布的不平衡
  • 設(shè)備的可靠性

Definition of Federated Learning

假定有 \(N\) 個(gè)數(shù)據(jù)擁有者 \(\{ \mathcal{F}_1,\cdots,\mathcal{F}_N \}\) 希望通過聯(lián)合他們各自的數(shù)據(jù) \(\{ \mathcal{D}_1,\cdots,\mathcal{D}_N \}\) 來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)的模型。一種常見的方法就是把數(shù)據(jù)放在一起,即有 \(\mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N\),由此訓(xùn)練模型 \(\mathcal{M}_{SUM}\)

聯(lián)邦學(xué)習(xí)系統(tǒng)就是一個(gè)數(shù)據(jù)擁有者們合作性地訓(xùn)練模型 \(\mathcal{M}_{FED}\) 的學(xué)習(xí)過程,在這個(gè)過程中任意數(shù)據(jù)擁有者 \(\mathcal{F}_i\) 都不會(huì)將其數(shù)據(jù) \(\mathcal{D}_i\) 暴露給其他的數(shù)據(jù)持有者

\(\mathcal{V}_{FED}\) 表示模型 \(\mathcal{M}_{FED}\) 的精確度。\(\mathcal{V}_{FED}\) 必須十分接近 \(\mathcal{V}_{SUM}\) (\(\mathcal{M}_{SUM}\) 的性能)

\(\delta > 0\),若

\[\vert \mathcal{V}_{FED}-\mathcal{V}_{SUM} \vert < \delta \tag{1} \]

則稱這個(gè)聯(lián)邦學(xué)習(xí)算法有 \(\delta\) 精確度損失

Privacy of Federated Learning

隱私是聯(lián)邦學(xué)習(xí)中的一個(gè)重要屬性,其需要安全模型和分析以提供有意義的隱私保證。論文介紹了聯(lián)邦學(xué)習(xí)中一些隱私技術(shù),識(shí)別方法以及間接隱私泄漏的預(yù)防中的潛在挑戰(zhàn)。

  • 安全多方計(jì)算(Secure Multi-party Computation, SMC):

    SMC安全模型自然而然地包含了多個(gè)參與方,并且提供了安全驗(yàn)證在定義明確的模擬框架中用以保證 complete zero knowledge,也就是每個(gè)參與方只能知道自身的輸入和輸出。zero knowledge 很讓人向往,但其通常需要復(fù)雜的計(jì)算協(xié)議,且也許不能有效的將之實(shí)現(xiàn)。而在低安全需求的情境中,可以構(gòu)建一個(gè)基于SMC的安全模型以追求效率。

    已進(jìn)行的研究:

    1. MPC protocols:用以模型的訓(xùn)練和驗(yàn)證,且不會(huì)泄漏敏感數(shù)據(jù)
    2. Sharemind:最先進(jìn)的SMC框架之一
    3. 3PC model:在半誠(chéng)實(shí)和惡意的假設(shè)(malicious assumptions)中,考慮安全性
  • 差分隱私(Differential Privacy):

    在差分隱私(Differential Privacy)、k-匿名(k-Anonymity)和分化(diversification)的方法中,都向數(shù)據(jù)中添加了噪聲,或者使用泛化方法(generalization methods)來隱藏一些敏感屬性讓第三方不能區(qū)分出個(gè)體之間的區(qū)別,由此使得數(shù)據(jù)不可能被重建,從而保護(hù)了用戶的隱私。然而這些方法的根本仍然是將數(shù)據(jù)傳輸?shù)狡渌胤?,且這些方法也需要在精確度和隱私之間權(quán)衡。

  • 同態(tài)加密(Homomorphic Encryption):

    (不同于差別隱私的保護(hù)方法)在同態(tài)加密中,數(shù)據(jù)和模型本身不會(huì)被運(yùn)輸,也不能通過其他參與方的數(shù)據(jù)來猜中它們。因此,在原始數(shù)據(jù)的層次上幾乎不可能發(fā)生泄漏。

    在實(shí)踐中,疊加同態(tài)加密(Additively Homomorphic Encryption)被廣泛的使用,而多項(xiàng)式逼近(polynomial approximations)也被用于評(píng)估機(jī)器學(xué)習(xí)算法中的非線性函數(shù),這都將導(dǎo)致需要在精確度和隱私之間權(quán)衡。

  • 間接信息泄漏(indirect information leakage):

    聯(lián)邦學(xué)習(xí)中的一些前驅(qū)工作會(huì)暴露中間結(jié)果。比如從優(yōu)化算法(如SGD算法)中上傳參數(shù)時(shí),由于未提供安全保證,梯度泄漏加上數(shù)據(jù)結(jié)構(gòu)的暴露也許會(huì)導(dǎo)致重要的數(shù)據(jù)信息外泄。

    聯(lián)邦學(xué)習(xí)系統(tǒng)中的成員可以惡意地攻擊其他參與者,通過植入后門來學(xué)習(xí)他們的數(shù)據(jù)。

研究者們也開始考慮引入?yún)^(qū)塊鏈(blockchain)作為平臺(tái)來促進(jìn)聯(lián)邦學(xué)習(xí)。Hysung Kim 等人提出了一個(gè)基于區(qū)塊鏈的聯(lián)邦學(xué)習(xí)架構(gòu)(BlockFL),通過利用區(qū)塊鏈來交換并驗(yàn)證移動(dòng)設(shè)備之間本地學(xué)習(xí)模型的更新。他們也考慮了 an optimal block generation、網(wǎng)絡(luò)的可拓展性及健壯性的問題。

A Categorization of Federated Learning

我們可以數(shù)據(jù)的分布特征為標(biāo)準(zhǔn),來給聯(lián)邦學(xué)習(xí)分類。

用矩陣 \(\mathcal{D}_i\) 表示數(shù)據(jù)擁有者 \(i\) 所持有的數(shù)據(jù),矩陣的每一行都代表一個(gè)樣本,每一列都代表一種特征。

同時(shí),一些數(shù)據(jù)集可能還包含了標(biāo)簽(label)字段。我們用 \(\mathcal{X}\) 表示特征空間,\(\mathcal{Y}\) 表示標(biāo)簽空間,\(\mathcal{I}\) 表示樣本ID空間,這三者組成了完整的訓(xùn)練數(shù)據(jù)集 \((\mathcal{I},\mathcal{X},\mathcal{Y})\)

參與方們的數(shù)據(jù)的特征空間和樣本空間也許不是完全相同的,所以我們可以基于數(shù)據(jù)在不同參與方(parties)的特征空間和樣本 ID 空間上的分布情況,將聯(lián)邦學(xué)習(xí)分為水平聯(lián)邦學(xué)習(xí)(horizontal federated learing)、垂直聯(lián)邦學(xué)習(xí)(vertical federated learning)和聯(lián)邦遷移學(xué)習(xí)(federated transfer learning)。

  • 水平聯(lián)邦學(xué)習(xí)(horizontal federated learning):

    也就是基于樣本的聯(lián)邦學(xué)習(xí)(sample-based federated learning),在這種聯(lián)邦學(xué)習(xí)中,數(shù)據(jù)集共享了相同的特征但是各自的樣本不同??梢悦枋鰹椋?/p>

    \[\mathcal{X}_i=\mathcal{X}_j,\quad\mathcal{Y}_i=\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{2} \]

    比如兩個(gè)不同地區(qū)的銀行,它們的用戶來自各自的地區(qū),樣本空間的交集很小。但是它們的業(yè)務(wù)是非常相近的,所以特征空間相同。

    安全定義(security definition):一個(gè)典型的聯(lián)邦學(xué)習(xí)系統(tǒng)假定參與者是誠(chéng)實(shí)的,而服務(wù)器是 honest-but-curious,也就是說只有服務(wù)器才有可能會(huì)泄漏參與者的隱私。但是參與者也可能不懷好意,這帶來了額外的隱私挑戰(zhàn)。

    水平聯(lián)邦學(xué)習(xí)
  • 垂直聯(lián)邦學(xué)習(xí)(vertical federated learning):

    也叫做基于特征的聯(lián)邦學(xué)學(xué)習(xí)(feature-based federated learning),適用于兩個(gè)數(shù)據(jù)集共享了相同的樣本 ID 空間但特征空間不同的情景。

    比如,同一個(gè)城市中的一家銀行以及一家電子商務(wù)公司,它們的用戶群體就是這個(gè)地區(qū)中的大部分居民。所以他們的樣本空間有很大的交集。但是,銀行記錄的是用戶的收入、支出以及信用等級(jí),而電子商務(wù)公司保存的是用戶的瀏覽和購(gòu)物的歷史信息。它們的特征空間非常不同。

    垂直聯(lián)邦學(xué)習(xí)是一個(gè)聚集(aggregate)不同特征并計(jì)算訓(xùn)練損失和梯度的過程,以隱私保護(hù)的方式來構(gòu)建模型,數(shù)據(jù)來自所有的合作參與方。在這種聯(lián)邦機(jī)制下,所有參與方的身份和地位都相同,并且該聯(lián)邦系統(tǒng)會(huì)幫助所有人建立一個(gè) common wealth 的策略。這就是其被稱為聯(lián)邦學(xué)習(xí)(federated learning)的原因。

    \[\mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i=\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{3} \]

    安全定義(security definition):一個(gè)典型的垂直聯(lián)邦學(xué)習(xí)系統(tǒng)假定了存在 honest-but-curious 的參與方。比如在一個(gè)只有兩個(gè)參與方的情境中,雙方?jīng)]有相互串通且最多只有一方被對(duì)手攻擊而發(fā)生信息泄漏。那么安全就可以定義為,對(duì)手只能學(xué)習(xí)到被毀壞的客戶端的數(shù)據(jù),并不能得到其他未發(fā)生泄漏的客戶端的數(shù)據(jù)。為了促進(jìn)雙方之間的安全計(jì)算,可以引入一個(gè)半誠(chéng)實(shí)的第三方(Semi-honest Third Party, STP),且假定其不與其他參與方串通。學(xué)習(xí)結(jié)束后,每個(gè)參與方只能持有與自身特征關(guān)聯(lián)的模型參數(shù)。因此在推理時(shí),雙方需要一起合作來生成輸出。

    垂直聯(lián)邦學(xué)習(xí)
  • 聯(lián)邦遷移學(xué)習(xí)(federated transfer learning):

    聯(lián)邦遷移學(xué)習(xí)應(yīng)用于這樣的場(chǎng)景中:兩個(gè)數(shù)據(jù)集在其樣本空間和特征空間上均不相同。

    假設(shè)有兩個(gè)機(jī)構(gòu),一個(gè)是位于中國(guó)的銀行,另一個(gè)是位于美國(guó)的電子商務(wù)公司。由于地理上的限制,這兩個(gè)機(jī)構(gòu)的用戶群體只有很小的交集。另一方面,由于兩者業(yè)務(wù)的不同,特征空間也只有很小部分的重疊。

    \[\mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{4} \]

    安全定義:一個(gè)典型的聯(lián)邦遷移學(xué)習(xí)系統(tǒng)包含了兩個(gè)參與方,其安全定義與垂直聯(lián)邦學(xué)習(xí)系統(tǒng)相同。

    聯(lián)邦遷移學(xué)習(xí)

Architecture for a federated learning system

水平聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu)

在水平聯(lián)邦學(xué)習(xí)系統(tǒng)中,k 個(gè)參與者擁有相同的數(shù)據(jù)結(jié)構(gòu),通過參數(shù)服務(wù)器或者云服務(wù)器來共同學(xué)習(xí)一個(gè)機(jī)器學(xué)習(xí)模型。假設(shè)參與者都是誠(chéng)實(shí)的,而服務(wù)器是 honest-but-curious,因此從任何參與方到服務(wù)器的泄漏是不被允許的。水平聯(lián)邦學(xué)習(xí)系統(tǒng)的訓(xùn)練過程包含了以下4個(gè)過程:

  1. 參與者在本地計(jì)算訓(xùn)練梯度,使用加密(encryption)/差分隱私(differential privacy)/密鑰共享(secret sharing)技術(shù)來掩飾(mask)精選出來的梯度(a selection of gradients),然后將masked結(jié)果上傳到服務(wù)器
  2. 服務(wù)器執(zhí)行安全數(shù)據(jù)聚集(secure aggregation),且不需要學(xué)習(xí)任何參與方的信息
  3. 服務(wù)器將聚合結(jié)果(aggregated results)返還給參與方
  4. 參與方們使用解碼后的梯度更新各自的模型

不斷的迭代這4個(gè)步驟直到損失函數(shù)收斂,整個(gè)訓(xùn)練過程就完成了。

水平聯(lián)邦學(xué)習(xí)的架構(gòu)

這個(gè)構(gòu)架不依賴特殊的機(jī)器學(xué)習(xí)算法(如 logistic regression 和 DNN 等),并且所有的參與方都能分享最終模型的參數(shù)。

安全分析:如果采用了 SMC 或者同態(tài)加密來聚集梯度,這種架構(gòu)就可以用來預(yù)防半誠(chéng)實(shí)(semi-honest)的服務(wù)器引起的數(shù)據(jù)泄露。但是在其他安全模式的聯(lián)合訓(xùn)練過程中,水平聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu)很容易遭到惡意參與方的攻擊,通過訓(xùn)練一個(gè)生成對(duì)抗性網(wǎng)絡(luò)(Generative Aderversarial Network, GAN)

垂直聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu)

假設(shè)公司 A 和 B 共同訓(xùn)練一個(gè)模型,它們的商務(wù)系統(tǒng)有各自的數(shù)據(jù)。此外,公司B持有模型需要預(yù)測(cè)的標(biāo)簽。出于數(shù)據(jù)隱私和安全的考慮,A 和 B 之間不能直接交換數(shù)據(jù)。為了確保在訓(xùn)練過程中數(shù)據(jù)的機(jī)密性,可以引入一個(gè)第三方合作者 C。假設(shè) C 是誠(chéng)實(shí)的,且不與 A 或 B 串通,而 A、B 之間相互是 honest-but-curious。這樣一個(gè)可信任的第三方 C 通常由權(quán)威機(jī)構(gòu)來充當(dāng),比如政府,或者安全計(jì)算結(jié)點(diǎn)(如Intel Software Guard Extension, SGX)。垂直聯(lián)邦學(xué)習(xí)系統(tǒng)通常由兩部分構(gòu)成:

垂直聯(lián)邦學(xué)習(xí)系統(tǒng)的架構(gòu)
  • 加密實(shí)體對(duì)齊(encrypted entity alignment)。由于兩個(gè)公司的用戶群體并不相同,系統(tǒng)使用了基于加密的用戶 ID 對(duì)齊技術(shù)來確保雙方公共的用戶集合中不會(huì)暴露各自的數(shù)據(jù)。在實(shí)體對(duì)齊過程中,系統(tǒng)不會(huì)暴露各自除了重疊部分的用戶數(shù)據(jù)。

  • 加密模型訓(xùn)練(encrypted entity alignment)。決定好公共實(shí)體后,我們就可以用這些實(shí)體的數(shù)據(jù)來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型。訓(xùn)練過程可以分為以下4步:

    1. 合作者 C 創(chuàng)造加密對(duì)(encryption pairs),把公鑰分發(fā)別發(fā)送給 A 和 B
    2. A 和 B 互相交換梯度和損失的中間計(jì)算結(jié)果
    3. A 和 B 分別計(jì)算加密后的梯度并添加額外的掩碼,且 B 也需要計(jì)算加密后的損失,然后 A 和 B 將它們加密后的值傳送給 C
    4. C 進(jìn)行解碼且將解碼后的梯度和損失返還給 A 和 B,A 和 B 去除梯度上的屏蔽(unmask)并相應(yīng)地更新模型參數(shù)

在實(shí)體對(duì)齊和模型訓(xùn)練的過程中,A 和 B 的數(shù)據(jù)都被保存在本地,且數(shù)據(jù)參與訓(xùn)練的交集部分也不會(huì)導(dǎo)致數(shù)據(jù)隱私泄漏。C 引起的數(shù)據(jù)泄露可能或不可能(may or may not)被認(rèn)為是隱私泄露(privacy violation)。在這個(gè)情境中為了進(jìn)一步預(yù)防 C 學(xué)習(xí)來自 A 和 B 的信息,A 和 B 會(huì)添加加密的隨機(jī)掩碼(encrypted random mask)來向 C 隱藏它們的信息。因此,兩個(gè)參與方都到達(dá)了它們的目的:通過聯(lián)邦學(xué)習(xí)來聯(lián)合訓(xùn)練一個(gè)公共模型。

因?yàn)樵谡麄€(gè)訓(xùn)練過程中,每個(gè)參與方接收到的損失值和梯度,與在數(shù)據(jù)被收集在同一個(gè)地方且沒有隱私約束的情況下訓(xùn)練模型而得到的損失值和梯度是一樣的。所以,這個(gè)模型是無損失的,其效率取決于交流的成本和加密數(shù)據(jù)計(jì)算的成本。

在每次迭代過程中,A 和 B 之間傳輸數(shù)據(jù)的規(guī)模取決于重疊樣本的多少。因此,可以采用分布式并行計(jì)算技術(shù)來進(jìn)一步提高算法的效率。

安全分析:訓(xùn)練協(xié)議不會(huì)泄漏任何信息給 C,因?yàn)?C 學(xué)習(xí)到的都是添加掩碼后的梯度。并且添加掩碼后的矩陣,其隨機(jī)性和安全性都得到了保證。在這樣的協(xié)議中,參與方 A 在每一步都能學(xué)習(xí)到自身的梯度,但這并不足夠讓其學(xué)習(xí)到 B 的任何信息。因?yàn)闃?biāo)量積協(xié)議的安全性建立于這樣一個(gè)基本事實(shí):不能從 n 個(gè)等式中求解出超過 n 個(gè)未知量。

聯(lián)邦遷移學(xué)習(xí)系統(tǒng)的架構(gòu)

在上面垂直聯(lián)邦學(xué)習(xí)的例子中,A 和 B 只有很小的樣本交集,我們希望學(xué)習(xí)到參與方 A 所有數(shù)據(jù)集的標(biāo)簽。垂直聯(lián)邦學(xué)習(xí)框架只操作了數(shù)據(jù)的重疊部分,為了將其覆蓋范圍拓展到整個(gè)樣本空間,我們引入了遷移學(xué)習(xí)。這并沒有改變垂直聯(lián)邦學(xué)習(xí)整體的框架,但是參與方 A 和 B 之間交換中間計(jì)算結(jié)果的細(xì)節(jié)改變了。

遷移學(xué)習(xí)涉及了 A 和 B 的特征之間公共表示(common representation)的學(xué)習(xí)過程,以及利用原始域方(source-domain party)標(biāo)簽來預(yù)測(cè)目標(biāo)域方(target-domain party)標(biāo)簽過程中的誤差最小化。因此,A 和 B 的梯度計(jì)算過程與在垂直聯(lián)邦學(xué)習(xí)中是不一樣的。在推理時(shí),仍然需要每個(gè)參與方去計(jì)算其預(yù)測(cè)結(jié)果。

獎(jiǎng)勵(lì)機(jī)制

為了將不同組織間的聯(lián)邦學(xué)習(xí)充分商業(yè)化,就需要去開發(fā)一個(gè)公平的平臺(tái)和激勵(lì)機(jī)制。模型建立后,其性能可以在具體的應(yīng)用中表現(xiàn),并且可以記錄在一個(gè)永久的數(shù)據(jù)記錄機(jī)制中(如區(qū)塊鏈)。機(jī)構(gòu)能更加寬裕的提供更多數(shù)據(jù),而模型的效果取決于數(shù)據(jù)提供者對(duì)系統(tǒng)的貢獻(xiàn)。模型的效能惠及聯(lián)邦機(jī)制的各個(gè)參與者,這又繼續(xù)激勵(lì)更多的機(jī)構(gòu)參與到數(shù)據(jù)聯(lián)合中。

這種架構(gòu)的實(shí)現(xiàn)不止考慮了隱私保護(hù)和多機(jī)構(gòu)間協(xié)作建模的效果,還顧及了如何獎(jiǎng)勵(lì)貢獻(xiàn)了更多數(shù)據(jù)的機(jī)構(gòu)以及如何通過共識(shí)機(jī)制(consensus mechanism)來執(zhí)行獎(jiǎng)勵(lì)措施。因此,聯(lián)邦學(xué)習(xí)是一種閉環(huán)的學(xué)習(xí)機(jī)制。

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
originality n. 創(chuàng)意 devote vt. 致力于
garbled adj. 篡改的,混亂的 follow-up 后續(xù)的
allocate vt. 分配 autonomy n. 自治
cope vi. 處理,對(duì)付 stringent adj. 嚴(yán)格的,緊縮的
regulatory adj. 管理的,控制的 IID Independent Identically Distributed,獨(dú)立相似分布
coordination n. 協(xié)調(diào)性 convergence bound 收斂約束
manage vt. 管理,控制 interoperability n. 互操作性
heterogeneous adj. 多種多樣的,參差的 premise n. 前提,假定

{% endhideToggle %}

聯(lián)邦學(xué)習(xí)使得多個(gè)參與方能協(xié)作構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,且其私人訓(xùn)練數(shù)據(jù)仍然保持私密性。作為一門新興的技術(shù),聯(lián)邦學(xué)習(xí)有幾條有創(chuàng)意的路線,其中一些根植于已存在的領(lǐng)域。

Privacy-preserving machine learning

聯(lián)邦機(jī)器學(xué)習(xí)可以看作是保護(hù)隱私的分散協(xié)作機(jī)器學(xué)習(xí)(privacy-preserving decentralized collaborative machine learning),與多方保密的機(jī)器學(xué)習(xí)(multi-party privacy mechine learning)密切相關(guān)。

Federated Learning vs Distributed Machine Learning

第一眼看上去,水平聯(lián)邦學(xué)習(xí)很像分布式機(jī)器學(xué)習(xí)(distributed machine learning)。分布式機(jī)器學(xué)習(xí)包含了很多方面:訓(xùn)練數(shù)據(jù)的分布存儲(chǔ)、計(jì)算任務(wù)的分布式操作以及模型結(jié)果的分布式分布(distributed distribution of model results)。

參數(shù)服務(wù)器(parameter server)是一個(gè)分布式機(jī)器學(xué)習(xí)中的典型元素,可用來加速訓(xùn)練過程。參數(shù)服務(wù)器存儲(chǔ)了分布式工作結(jié)點(diǎn)上的數(shù)據(jù),并且通過中心調(diào)度結(jié)點(diǎn)來分配數(shù)據(jù)和計(jì)算資源,這提高了訓(xùn)練的效率。

在水平聯(lián)邦學(xué)習(xí)中,工作結(jié)點(diǎn)就是數(shù)據(jù)持有者,其對(duì)本地?cái)?shù)據(jù)擁有完全的自治權(quán),可以決定何時(shí)以及如何加入聯(lián)邦學(xué)習(xí)。而在其參數(shù)服務(wù)器中,中心結(jié)點(diǎn)始終保有控制權(quán)。所以,聯(lián)邦學(xué)習(xí)面對(duì)著更加復(fù)雜的學(xué)習(xí)環(huán)境。此外,聯(lián)邦學(xué)習(xí)強(qiáng)調(diào)在訓(xùn)練過程中保護(hù)數(shù)據(jù)持有者的數(shù)據(jù)隱私。有效的隱私保護(hù)方法可以在未來更好的處理日益嚴(yán)格的隱私保護(hù)和數(shù)據(jù)安全管理環(huán)境。

如同在分布式機(jī)器學(xué)習(xí)中,聯(lián)邦學(xué)習(xí)也需要去定位非獨(dú)立相似分布的數(shù)據(jù)(address Non-IID data)。

Federated Learning vs Edge Computing

聯(lián)邦學(xué)習(xí)提供了關(guān)于協(xié)調(diào)性和安全性的學(xué)習(xí)協(xié)議,所以也可以看作是邊緣計(jì)算的操作系統(tǒng)。

Federated Learning vs Federated Database Systems

聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)將多個(gè)數(shù)據(jù)庫(kù)單元集成起來,并且將集成系統(tǒng)作為一個(gè)整體來管理。聯(lián)邦數(shù)據(jù)庫(kù)的概念被提出來用以實(shí)現(xiàn)多個(gè)相互獨(dú)立的數(shù)據(jù)庫(kù)之間的互操作性(interoperability),其數(shù)據(jù)庫(kù)單元使用分布式存儲(chǔ),而每個(gè)單元中對(duì)數(shù)據(jù)的操作是多樣的(heterogeneous)。因此,聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)與聯(lián)邦學(xué)習(xí)在數(shù)據(jù)的類型和存儲(chǔ)上有很多相似的地方。

但是聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)在集成數(shù)據(jù)庫(kù)的過程中沒有涉及任何隱私保護(hù)機(jī)制,所有的數(shù)據(jù)庫(kù)單元對(duì)于管理系統(tǒng)來說都是完全可見的。也就是說,聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)致力于數(shù)據(jù)的基本操作(如插入、刪除、搜索和合并等),而聯(lián)邦學(xué)習(xí)是在保護(hù)數(shù)據(jù)隱私的前提下創(chuàng)建一個(gè)聯(lián)合模型。因此數(shù)據(jù)包含的各種價(jià)值和規(guī)律為我們提供了更好的服務(wù)。

Applications

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
innovative adj. 創(chuàng)新的 intellectual property rights 知識(shí)產(chǎn)權(quán)
personalized adj. 個(gè)性化的 personal preference 個(gè)人喜好
characteristic n. 特征 hinder vt. 阻礙,打擾
heterogeneity n. 異質(zhì)性 mutual adj. 共同的
limitation n. 限制,極限 ecosphere n. 生態(tài)圈
borrowing n. 借貸 loan n. 貸款
collapse v. 崩潰 symptom n. 臨床癥狀
envisage vt. 設(shè)想,想象 vision n. 想象,美景
pivotal adj. 關(guān)鍵的

{% endhideToggle %}

聯(lián)邦學(xué)習(xí)是一種創(chuàng)新的建模機(jī)制,能基于來自不同參與方的數(shù)據(jù)上訓(xùn)練聯(lián)合模型,且不泄漏這些數(shù)據(jù)的隱私和安全,在銷售、金融以及其他(出于知識(shí)產(chǎn)權(quán)、隱私保護(hù)和數(shù)據(jù)安全的原因,數(shù)據(jù)不能直接聚集起來用以訓(xùn)練機(jī)器學(xué)習(xí)模型的)行業(yè)上很有前途。

聯(lián)邦學(xué)學(xué)習(xí)可用于智慧零售(smart retail)。智慧零售的目的是使用機(jī)器學(xué)習(xí)技術(shù)來給消費(fèi)者提供個(gè)性化服務(wù),主要包括商品推薦和銷售服務(wù),其業(yè)務(wù)的數(shù)據(jù)特征主要有:

  • 用戶購(gòu)買力——可從銀行存款上推測(cè)得出
  • 用戶個(gè)人喜好——從用戶的社交網(wǎng)中分析得到
  • 商品特性——通常在網(wǎng)店中留有記錄

這些數(shù)據(jù)通常存儲(chǔ)在三個(gè)不同的部門或者企業(yè)中。

這樣的話,我們就面臨了兩個(gè)問題:

  • 出于對(duì)數(shù)據(jù)隱私和安全的保護(hù),很難去打破銀行、社交網(wǎng)站和網(wǎng)購(gòu)站點(diǎn)之間的數(shù)據(jù)壁壘。因此數(shù)據(jù)不能直接聚合起來以訓(xùn)練模型。
  • 存儲(chǔ)在三個(gè)地方的數(shù)據(jù)通常都是參差不齊的,而傳統(tǒng)的機(jī)器學(xué)習(xí)不能直接處理這種異構(gòu)數(shù)據(jù)(heterogeneous data)。

而使用聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)時(shí),這些問題迎刃而解。

  • 利用聯(lián)邦學(xué)習(xí),我們可以在不暴露企業(yè)數(shù)據(jù)的前提下,就建立好機(jī)器學(xué)習(xí)模型。這不僅完全保護(hù)了數(shù)據(jù)隱私和數(shù)據(jù)安全,而且給用戶提供了個(gè)性化服務(wù)和針對(duì)性服務(wù),并且由此實(shí)現(xiàn)了諸多好處。
  • 同時(shí),我們可以利用遷移學(xué)習(xí)來定位數(shù)據(jù)異質(zhì)性問題(data heterogeneity problems),并且打破傳統(tǒng)人工智能技術(shù)的局限性。

因此,聯(lián)邦學(xué)習(xí)為我們提供了很好的技術(shù)支持,讓我們能為大數(shù)據(jù)和人工智能構(gòu)建跨企業(yè)、跨數(shù)據(jù)、跨領(lǐng)域的生態(tài)圈。

聯(lián)邦學(xué)習(xí)框架可用于不暴露數(shù)據(jù)的多方數(shù)據(jù)庫(kù)查詢(multi-party database querying without exposing the data)。在金融的應(yīng)用中,我們對(duì)探測(cè)多方借貸(detecting multi-party borrowing)很感興趣,這通常是銀行行業(yè)的一個(gè)主要風(fēng)險(xiǎn)因素,往往發(fā)生在有某些惡意用戶從一個(gè)銀行中借錢來支付另一家銀行的貸款時(shí)。多方借貸對(duì)金融穩(wěn)定來說是一個(gè)威脅,大量的這種非法行為可能會(huì)導(dǎo)致整個(gè)金融系統(tǒng)崩潰。

銀行 A 和銀行 B 為了找到這種用戶且不將自身的用戶名單泄漏給對(duì)方,可以利用聯(lián)邦學(xué)習(xí)框架。特別是,我們可以采用加密機(jī)制來加密每個(gè)參與方的用戶名單,并且把加密名單的交集加入聯(lián)邦中。最終結(jié)果的譯碼給出了多方借貸者的名單,而且這并不會(huì)將參與方自身的“好”用戶暴露給其他參與方。我們可以看到,這種操作與垂直聯(lián)邦學(xué)習(xí)有關(guān)。

聯(lián)邦學(xué)習(xí)還可以用于智慧健康護(hù)理(smart healthcare)。

Federated Learning and Data Alliance of Enterprises

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
alliance n. 聯(lián)盟 paradigm n. 范例
equitable adj. 公平的,公正的 regardless of 不管,不顧
carry out 實(shí)現(xiàn)

{% endhideToggle %}

借助區(qū)塊鏈技術(shù)中的共識(shí)機(jī)制(consensus mechanism),聯(lián)邦學(xué)習(xí)形成了公平分配利益的規(guī)則(profits allocation)。

Conclusions and Prospects

{% hideToggle 詞匯 %}

詞匯 解釋 詞匯 解釋
bonus n. 紅利

{% endhideToggle %}

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多