小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

[萬字綜述] 21年最新最全Graph Learning算法,建議收藏慢慢看

 520jefferson 2021-12-08

今天小編給大家?guī)砹艘黄?/span>極全的2021最新圖學習算法綜述。該綜述不僅囊括了目前熱門的基于深度學習的圖學習方法,還全面介紹了其它三個大類:基于圖信號處理的方法、基于矩陣分解的方法、基于隨機游走的方法。因此能帶領(lǐng)大家從更多的維度認識網(wǎng)絡(luò)表示學習。作者還概述了這四類圖學習方法在文本、圖像、科學、知識圖譜和組合優(yōu)化等領(lǐng)域的應(yīng)用,討論了圖學習領(lǐng)域的一些未來研究方向。該綜述對于幫助我們?nèi)婊仡檲D學習方法以及精準把控其未來研究方向具有巨大意義。

圖片
fig1
  • 論文地址:https:///pdf/2105.00696.pdf
  • 歡迎關(guān)注小編知乎:圖子
圖片                            
0. Abstract

圖被廣泛應(yīng)用于連接數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)表示。圖數(shù)據(jù)可以在社交系統(tǒng)、生態(tài)系統(tǒng)、生物網(wǎng)絡(luò)、知識圖譜、信息系統(tǒng)等應(yīng)用領(lǐng)域中廣泛地獲取。隨著人工智能技術(shù)的不斷滲透,圖學習(即圖上的機器學習)倍受關(guān)注。圖學習在許多任務(wù)上是有效的,如分類、鏈接預測和匹配。一般來說,圖學習方法利用機器學習算法來提取圖的相關(guān)特征。在這份綜述中,作者全面介紹了圖學習的最新進展,聚焦于現(xiàn)有的四類圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習,分別回顧了這些類別下的主要模型和算法。作者還研究了圖學習在文本、圖像、科學、知識圖譜和組合優(yōu)化等領(lǐng)域的應(yīng)用。此外,還討論了這一領(lǐng)域的幾個比較有前景的研究方向(論文idea有了~)。

現(xiàn)實世界的智能系統(tǒng)通常依賴于處理各種類型數(shù)據(jù)的機器學習算法。盡管它們無處不在,但由于其固有的復雜性,圖形數(shù)據(jù)給機器學習帶來了前所未有的挑戰(zhàn)。與文本、音頻和圖像不同,圖數(shù)據(jù)被嵌入到一個不規(guī)則的域中,使得現(xiàn)有機器學習算法的一些基本操作無法適用。許多圖學習模型和算法已經(jīng)被提出以應(yīng)對這些挑戰(zhàn)。本文對最先進的圖學習方法以及它們的潛在應(yīng)用進行了系統(tǒng)回顧。本文有多個目的,首先,它為社會計算、信息檢索、計算機視覺、生物信息學、經(jīng)濟學和電子通信等不同領(lǐng)域的研究人員和從業(yè)人員提供了圖學習的快速參考。第二,它提出了對該領(lǐng)域的開放性見解。第三,它旨在激發(fā)新的研究思路和對圖學習的更多興趣。

1. Introduction

圖(GRAPHS),也被稱為網(wǎng)絡(luò),可以從現(xiàn)實世界各種豐富的實體關(guān)系中提取出來。一些常見的圖已被廣泛應(yīng)用進而形成不同的關(guān)系,如社會網(wǎng)絡(luò)、生物網(wǎng)絡(luò)、專利網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、引文網(wǎng)絡(luò)和通信網(wǎng)絡(luò)[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點代表圖中的實體,而邊代表這些實體之間的關(guān)系。由于圖學習在現(xiàn)實世界中的廣泛應(yīng)用,如數(shù)據(jù)挖掘和知識發(fā)現(xiàn),它已經(jīng)引起了相當大的關(guān)注。由于圖利用了頂點之間的基本和相關(guān)關(guān)系[4], [5],圖學習方法在捕捉復雜關(guān)系方面越來越受歡迎。例如,在微博網(wǎng)絡(luò)中,可以通過檢測信息級聯(lián)來追蹤謠言的傳播軌跡;在生物網(wǎng)絡(luò)中,通過推斷蛋白質(zhì)的相互作用,可以發(fā)現(xiàn)疑難病的新療法;在交通網(wǎng)絡(luò)中,通過分析不同時間戳的共同發(fā)生現(xiàn)象,可以預測人類的流動模式[6];對這些網(wǎng)絡(luò)的有效分析在很大程度上取決于網(wǎng)絡(luò)的表示方式。

什么是圖學習?

圖學習是指在圖上的機器學習,圖學習方法將圖的特征映射到嵌入空間中具有相同維度的特征向量。圖學習模型或算法直接將圖數(shù)據(jù)轉(zhuǎn)化為圖學習架構(gòu)的輸出,而無需將圖映射到低維空間。由于深度學習技術(shù)可以將圖數(shù)據(jù)編碼并表示成向量,大多數(shù)圖學習方法都是基于深度學習技術(shù)或從深度學習技術(shù)中概括出來的。圖學習的輸出向量是在連續(xù)空間中,其目標是提取圖的理想特征。因此,圖的表示可以很容易地被下游任務(wù)使用,如節(jié)點分類和鏈接預測,而無需明確的嵌入過程。因此,圖學習是一種更強大和有意義的圖分析技術(shù)。

圖片
fig1

如圖1所示,論文將現(xiàn)有的圖學習方法分為四類:基于圖信號處理(GSP)的方法,基于矩陣分解的方法,基于隨機游走的方法,以及基于深度學習的方法。簡單地說,GSP 處理的是圖的采樣和恢復,以及從數(shù)據(jù)中學習拓撲結(jié)構(gòu)。矩陣分解可分為圖拉普拉斯矩陣分解和頂點臨近矩陣分解。基于隨機游走的方法包括基于結(jié)構(gòu)的隨機中游走、基于結(jié)構(gòu)和節(jié)點信息的隨機游走、異質(zhì)網(wǎng)絡(luò)中的隨機游走和時變網(wǎng)絡(luò)中的隨機游走。基于深度學習的方法包括圖卷積網(wǎng)絡(luò)、圖注意網(wǎng)絡(luò)、圖自動編碼器、圖生成網(wǎng)絡(luò)和圖空間-時間網(wǎng)絡(luò)。這些方法/技術(shù)的模型架構(gòu)各不不同,本文對最先進的圖學習技術(shù)進行了廣泛的回顧。

圖學習方法能解決什么問題?

圖學習方法為表示空間中的圖分析鋪平了道路,可以有效解決許多圖分析任務(wù),如鏈接預測、推薦和分類[10],[11]。圖網(wǎng)絡(luò)表示揭示了社會生活的各個方面,如交流模式、社區(qū)結(jié)構(gòu)和信息擴散[12], [13]。根據(jù)頂點、邊和子圖的屬性,圖學習任務(wù)可以分為三類,分別是基于頂點、基于邊和基于子圖。圖中頂點之間的關(guān)系可以被用于分類、風險識別、聚類和社區(qū)發(fā)現(xiàn)[14]。通過判斷圖中兩個頂點之間是否存在邊,我們可以進行推薦和知識推理?;谧訄D的分類[15],可以用于解決聚合物分類、三維視覺分類等問題。對于GSP來說,設(shè)計合適的圖采樣方法以保留原始圖的特征是很有意義的,其目的是有效地恢復原始圖[16]。圖恢復方法可用于在不完整數(shù)據(jù)的情況下構(gòu)建原始圖[17],隨后利用圖學習來從圖數(shù)據(jù)中學習拓撲結(jié)構(gòu)。

綜上,圖學習可以用來解決以下挑戰(zhàn),這些挑戰(zhàn)是用傳統(tǒng)的圖分析方法難以解決的[18]。

1)不規(guī)則域

傳統(tǒng)張量數(shù)據(jù)有明確的網(wǎng)格結(jié)構(gòu),而圖位于一個不規(guī)則域中(即非歐幾里得空間),與規(guī)則域相比,非歐幾里得空間的數(shù)據(jù)不是有規(guī)律地排列的,很難定義距離。因此,基于傳統(tǒng)機器學習和信號處理的方法不能直接推廣到圖上。

2)網(wǎng)絡(luò)的異質(zhì)性

在現(xiàn)實世界中,頂點之間的邊和頂點的類型通常是多樣的,如圖2所示的學術(shù)網(wǎng)絡(luò)。因此,要從具有豐富頂點和邊的異質(zhì)信息網(wǎng)絡(luò)中發(fā)現(xiàn)潛在價值并不容易。

圖片

3)分布式算法

在大的社交網(wǎng)絡(luò)中,往往有數(shù)百萬個頂點和邊[19]。集中式算法無法處理這種情況,因為這些算法的計算復雜度會隨著頂點數(shù)量的增長而顯著增加。設(shè)計處理大網(wǎng)絡(luò)的分布式算法是一個尚未解決的關(guān)鍵問題[20]。分布式算法的一個主要好處是,這些算法可以同時在多個CPU或 GPU 上執(zhí)行,運行時間可以大大減少。

本文的貢獻

  • 對最先進的圖學習方法的全面概述:對圖學習方法進行了完整的介紹,包括技術(shù)簡述、應(yīng)用場景和潛在研究方向等。
  • 對圖學習技術(shù)的分類:從理論模型的角度對主流圖學習方法進行了技術(shù)分類。
  • 對圖學習的未來方向提供見解:除了對現(xiàn)有方法的定性分析,還通過總結(jié)幾個開放性問題和相關(guān)的挑戰(zhàn),闡明了圖學習領(lǐng)域的潛在研究方向。

2. 圖學習模型和算法

本文將回顧前面提到的四類圖學習模型和算法,即基于GSP的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。在表1中,列出了本文所使用的縮略語:

圖片
fig4

3. 圖信號處理(Graph Signal Processing)

信號處理是一門傳統(tǒng)的學科,它處理定義在規(guī)則數(shù)據(jù)領(lǐng)域的信號。近年來,研究人員將傳統(tǒng)信號處理的概念擴展到圖中。經(jīng)典的信號處理技術(shù)和工具,如傅里葉變換和濾波,也可以用來分析圖。圖是一種不規(guī)則數(shù)據(jù),很難直接處理。作為對基于結(jié)構(gòu)和模型的學習方法的補充,GSP 為圖的頻譜分析提供了一個新的視角。從信號處理中衍生出來的 GSP 可以對圖的屬性(如連接性、相似性)做出解釋。

圖片

圖3 給出了一個簡單的例子,即在某一時間點的圖信號被定義為觀察值。在圖中,上述的觀察值可以被看作是圖信號。每個節(jié)點被映射到 GSP 中的實數(shù)域,GSP 的主要任務(wù)是將信號處理方法擴展到挖掘圖中的隱含信息。

1) 圖上的表示

GSP有兩個主要模型,即基于鄰接矩陣的GSP[31]和基于拉普拉斯的GSP[32]。

  • 基于鄰接矩陣的GSP來自代數(shù)信號處理(ASP)[33]。從代數(shù)理論上解釋了線性信號處理,它可以應(yīng)用于連續(xù)和離散的時間域。在ASP中,線性代數(shù)的基本假設(shè)被擴展到代數(shù)空間。通過適當?shù)剡x擇信號模型,ASP可以得到線性信號處理的不同實例。在基于鄰接矩陣的GSP中,信號模型是由shifts產(chǎn)生的。與傳統(tǒng)的信號處理類似,GSP 中的shifts是圖域中的一個濾波器[31], [34], [35]。GSP 通常使用鄰接矩陣作為 shifts 來定義圖信號模型。圖的信號通常是在頂點定義的。

  • 基于拉普拉斯的 GSP 起源于譜圖理論。高維數(shù)據(jù)被轉(zhuǎn)移到由拉普拉斯基的一部分產(chǎn)生的低維空間[36]。一些研究人員利用傳感器網(wǎng)絡(luò)[37]來實現(xiàn)圖信號的分布式處理。還有一些研究者假設(shè)圖是平滑的情況下解決了這個問題。與基于鄰接矩陣的GSP不同,拉普拉斯矩陣是對稱的,具有實數(shù)和非負的邊權(quán)重,用于索引無向圖。

圖上的信號

盡管這些模型使用不同的矩陣作為基本shifts,但GSP中的大多數(shù)概念都來自信號處理。GSP 中的信號是定義在圖上的值,它們通常被寫成一個向量, 是頂點的數(shù)量,向量中的每個元素代表一個頂點上的值。一些文獻中[26]允許信號為復數(shù)。

圖上的信號處理

在基于鄰接矩陣的 GSP 中,圖可以表示 ,其中 是頂點集,是邊集,是鄰接矩陣。有了圖的定義,我們也可以定義度矩陣 ,其中 是一個對角矩陣,是頂點的度。圖的拉普拉斯矩陣定義為 ,歸一化拉普拉斯矩陣定義為信號處理中的濾波器可以被看作是一個函數(shù),用于放大或縮小相關(guān)頻率,消除不相關(guān)頻率。線性空間中的矩陣乘法等同于尺度變化,這與頻域中的濾波器操作是相同的。我們可以用矩陣乘法作為 GSP 中的濾波器,寫成 ,其中代表一個濾波器。

shifts是描述信號變化的一個重要概念[31]。事實上,GSP 中存在不同的shifts選擇。基于鄰接矩陣的GSP使用作為shifts,基于拉普拉斯的GSP使用 [32],也可以選擇其他矩陣[38]。遵循傳統(tǒng)信號處理中的時間不變性,在GSP中定義shifts不變性。如果濾波器與shifts是可互換的,它們就是shifts不變的,可以寫成 。證明了移不變?yōu)V波器可以用shfit來表示。shfit 的性質(zhì)是至關(guān)重要的,它們決定了其他定義的形式,如傅里葉變換和頻率。

在基于鄰接矩陣的 GSP中,shfit  的特征值分解是 是矩陣的特征向量

是特征值的對角矩陣,傅里葉變換矩陣是的逆,即 shfit 的頻率被定義為總的變化,它表示shifts后的差異:

是矩陣的歸一化系數(shù)。這意味著遠離復平面上最大特征值的特征值頻率較大,大頻率意味著信號經(jīng)過shifts濾波后會發(fā)生大范圍的變化。

圖片圖片

上圖中最大頻率圖中的節(jié)點顏色變換更趨于平緩,最小頻率對應(yīng)的節(jié)點之間顏色跳躍幅度很大,因此頻率越大,總的變化幅度就越小,反之亦然。較大的特征值的特征向量可以用來構(gòu)建低通濾波器,它可以捕捉基本特征,而較小的特征向量可以用來捕捉相鄰節(jié)點之間的差異。

拓撲學習問題

我們可以根據(jù)已知信息來區(qū)分相應(yīng)的解決方案。當部分拓撲信息已知時,我們可以使用已知信息來推斷整個圖。如果拓撲信息是未知的,而我們?nèi)匀豢梢杂^察到圖上的信號,則必須從信號中推斷出拓撲結(jié)構(gòu)。前者通常作為一個采樣和恢復問題來解決,而盲目的拓撲推斷也被稱為圖拓撲(或結(jié)構(gòu))學習。

2) 采樣和恢復

采樣并不是GSP中定義的一個新概念。在傳統(tǒng)的信號處理中,通常需要用最少的樣本重建原始信號,并保留原始信號的所有信息,這是一個采樣問題。少量的樣本會導致信息的缺乏,而更多的樣本需要更多的空間來存儲。著名的Nyquist-Shannon采樣定理給出了在時域中完美恢復信號的充分條件。

圖上的采樣

研究者將采樣理論遷移到GSP中,研究圖上的采樣問題。由于在一些現(xiàn)實世界的應(yīng)用中,如傳感器網(wǎng)絡(luò)和社交網(wǎng)絡(luò),數(shù)據(jù)量很大,因此減少采樣和更好地恢復對GSP至關(guān)重要。事實上,大多數(shù)解決采樣問題的算法和框架都要求圖對其上觀察到的信號中的相關(guān)關(guān)系進行建模[39]。采樣問題可以定義為從頂點子集上的樣本中重建信號,其中的信號通常是帶限的。Nyquist-Shannon 采樣定理在[40]中被擴展到圖信號?;跉w一化拉普拉斯矩陣,為GSP定義了采樣定理和截止頻率。此外,作者還提供了一種從給定的采樣集計算截止頻率的方法和一種為給定帶寬選擇采樣集的方法。其中提出的采樣定理僅僅適用于無向圖。由于Laplacian矩陣只代表無向圖,有向圖的采樣理論采用鄰接矩陣。[35]中提出了一個保證完美恢復的最優(yōu)算子,它對一般圖的噪聲具有魯棒性。

經(jīng)典信號處理和圖信號處理的區(qū)別

前者的信號屬于規(guī)則域,而后者屬于不規(guī)則域。對于采樣和恢復問題,經(jīng)典信號處理對連續(xù)的信號進行采樣,并能從采樣中恢復連續(xù)的信號。GSP對離散序列進行采樣,并從采樣中恢復原始序列。按照這個順序,解決方案一般分為兩部分,即尋找采樣頂點集和基于各種模型重建原始信號。

當數(shù)據(jù)集的規(guī)模很小時,可以直接處理信號和shifts。然而,對于大規(guī)模的數(shù)據(jù)集,一些算法需要矩陣分解來獲得頻率并在程序中保存特征值,這幾乎是不可能實現(xiàn)的。作為一種適用于大規(guī)模數(shù)據(jù)集的簡單技術(shù),在采樣中也可以使用隨機方法。Puy等人[41]提出了兩種采樣策略:一種是取決于參數(shù)的非自適應(yīng)策略,另一種是自適應(yīng)隨機采樣策略。通過放寬優(yōu)化約束,他們將隨機抽樣擴展到大規(guī)模的圖。另一個常見的策略是貪婪取樣。例如,Shomorony和Avestimehr[42]提出了一種基于線性代數(shù)條件的高效方法,可以精確計算截止頻率。Chamon和Ribeiro[43]為貪婪采樣提供了近乎最優(yōu)的保證,保證了貪婪采樣在最壞情況下的性能。

上述所有的采樣策略都可以歸類為選擇采樣,即在一個頂點的子集上觀察信號[43]。除了選擇采樣,還有一種類型的采樣被稱為聚合采樣[44],它使用在單個頂點上的觀察結(jié)果作為輸入,包含圖shifts算子的序列化應(yīng)用。

圖信號的重構(gòu)

與經(jīng)典的信號處理類似,圖上的重構(gòu)任務(wù)也可以被解釋為數(shù)據(jù)插值問題[45]。通過將樣本投射到適當?shù)男盘柨臻g上,研究人員獲得插值信號。最小二乘法重構(gòu)是實踐中的一種可用方法。Gadde和Ortega[46]定義了一個用于信號恢復的生成模型,該模型由一對高斯隨機場(GRF)和圖上的協(xié)方差矩陣衍生而來。在采樣定理下,圖信號的重構(gòu)可以被看作是具有低秩近似的GRF的最大后驗推斷。Wang等人[47]旨在實現(xiàn)時變波段有限信號的分布式重構(gòu),其中提出了分布式最小二乘重建(DLSR)來迭代恢復信號。DLSR可以跟蹤時變信號并實現(xiàn)完美重構(gòu)。Di Lorenzo等人[48]提出了一種用于自適應(yīng)估計的線性均值(LMS)策略。LMS能夠通過對一個頂點子集的觀察進行在線重構(gòu)和跟蹤。它還允許該子集隨時間變化。此外,還提出了一個稀疏的在線估計來解決未知帶寬的問題。

另一種恢復原始信號的常用技術(shù)是平滑。平滑性用于推斷低頻的圖形信號的缺失值。Wang等人[17]定義了局部集的概念?;趫D信號的定義,提出了兩種迭代方法來恢復圖上的帶限信號。此外,Romero等人[49]主張將核回歸作為GSP建模和重構(gòu)的一個框架。對于估計器的參數(shù)選擇,也提出了兩種多核方法來解決單一的優(yōu)化問題。此外,一些研究人員研究了壓縮傳感的不同恢復問題[50]。

此外,還有一些關(guān)于不同種類信號的采樣研究,如平滑圖信號、片狀常數(shù)信號和片狀平滑信號[51]。Chen等人[51]給出了一個統(tǒng)一的框架來分析圖信號。[52]研究了已知圖信號的重構(gòu),其中信號是稀疏的,即只有少數(shù)頂點是非零的。研究了對應(yīng)于各種 seeding 模式的三種重構(gòu)方案。通過分析單次同時注入、單次連續(xù)值注入和多次連續(xù)同時注入,得出了任何頂點上完美重構(gòu)的條件。

3)從數(shù)據(jù)中學習拓撲結(jié)構(gòu)

在大多數(shù)應(yīng)用場景中,圖是根據(jù)實體相關(guān)性的連接來構(gòu)建的。例如,在傳感器網(wǎng)絡(luò)中,傳感器之間的相關(guān)性往往與地理距離一致。社交網(wǎng)絡(luò)中的邊被定義為朋友或同事等關(guān)系[53]。在生化網(wǎng)絡(luò)中,邊是由相互作用產(chǎn)生的。雖然GSP是解決圖上問題的有效框架,如采樣、重建和檢測,但缺乏從數(shù)據(jù)集中提取關(guān)系的步驟。連接存在于許多數(shù)據(jù)集中,沒有明確的記錄。幸運的是,它們可以通過很多方式被推斷出來。

因此,研究者希望從數(shù)據(jù)集中學習完整的圖。從數(shù)據(jù)集學習圖的問題被表述為估計圖的拉普拉斯,或圖的拓撲結(jié)構(gòu)[54]。一般來說,他們要求圖滿足一些屬性,如稀疏性和平滑性。平滑性是由數(shù)據(jù)集生成的網(wǎng)絡(luò)中的一個普遍假設(shè)。因此,它通常被用來約束觀察到的信號,并為圖信號提供一個合理的保證?;谄交鹊乃惴ū澈蟮闹庇X是,圖上的大多數(shù)信號是穩(wěn)定的,而通過shifts過濾的結(jié)果往往是最低頻率的。Dong等人[55]對圖信號采用了因子分解模型,并對隱變量施加了高斯先驗,以獲得類似主成分分析(PCA)的表示。Kalofolias[56]將目標制定為一個加權(quán)的l1問題,并設(shè)計了一個通用框架來解決這個問題。

高斯馬爾科夫隨機場(GMRF)也是GSP中廣泛使用的圖拓撲學習理論[54], [57], [58]?;贕RMF的圖拓撲學習的模型選擇更有可能產(chǎn)生與GMRF產(chǎn)生的信號相似的圖。Egilmez等人[54]將該問題表述為GMRF的最大后驗參數(shù)估計,圖拉普拉斯是一個精度矩陣。Pavez和Ortega[57]也將該問題表述為精確矩陣估計,并通過優(yōu)化二次問題迭代更新行和列。兩人都限制了結(jié)果矩陣,它應(yīng)該是拉普拉斯的。在[58]中,Pavez等人選擇了一個兩步框架來尋找基礎(chǔ)圖的結(jié)構(gòu)。首先,采用圖拓撲推理步驟來選擇適當?shù)耐負浣Y(jié)構(gòu)。然后,對廣義的圖拉普拉斯進行估計。拉普拉斯估計的誤差邊界被計算出來。在下一步中,可以利用該誤差界線來獲得一個特定形式的矩陣,作為精確矩陣估計。這是第一個建議調(diào)整模型以獲得滿足各種問題要求的圖的工作之一。

擴散也以用來解決拓撲推斷問題[39], [59]-[61]。擴散指的是,節(jié)點不斷影響其鄰域。在圖中,數(shù)值大的節(jié)點對其鄰域節(jié)點的影響會更大。用一些成分來表示信號將有助于找到信號形成的主要因素。擴散的模型通常是在獨立同分布的信號的假設(shè)下。Pasdeloup等人[59]給出了有效圖的概念來解釋信號,并假設(shè)信號是在擴散后觀察到的。Segarra等人[60]認為在shifts中存在一個擴散過程,并且信號可以被觀察到。[61]中的信號被解釋為幾個成分的線性組合。

對于數(shù)據(jù)中記錄的時間序列,一些文獻試圖構(gòu)建時間序列網(wǎng)絡(luò)。例如,Mei和Moura[62]提出了一種估計圖的方法,它考慮了時間和空間的依賴性,并通過自動回歸過程建立模型。Segarra等人[63]提出了一種方法,可以看作是圖學習的延伸。該論文的目的是解決圖濾波器及其輸入信號的聯(lián)合識別問題。

對于 recovery 方法,一個著名的部分推理問題是推薦[45],[64],[65]。推薦中使用的典型算法是協(xié)同過濾(CF)[66]。鑒于矩陣中觀察到的評分,CF 的目標是估計完整的評分矩陣。Huang等人[65]證明了協(xié)同過濾可以被看作是代表用戶和項目之間相關(guān)性的網(wǎng)絡(luò)上的一個特定的帶停圖過濾器。

4)討論

GSP 算法對實驗數(shù)據(jù)有嚴格的限制,因此在現(xiàn)實世界的應(yīng)用較少。GSP算法要求輸入的數(shù)據(jù)必須是整個圖,這意味著部分圖的數(shù)據(jù)不能作為輸入。這類方法的計算復雜度可能會很高,與其他類型的圖學習方法相比,GSP算法的可擴展性比較差。

4. 基于矩陣分解的方法(Matrix Factorization Based Methods)

矩陣分解是一種將矩陣簡化為其組成部分的方法。這些組成成分具有較低的維度,可以用來表示網(wǎng)絡(luò)的原始信息,如節(jié)點之間的關(guān)系?;诰仃嚪纸獾膱D學習方法采用一個矩陣來表示圖的特征,如頂點的成對相似性,而頂點嵌入可以通過對這個矩陣進行分解來實現(xiàn)[67]。早期的圖學習方法通常利用基于矩陣分解的方法來解決圖嵌入問題。矩陣分解的輸入是以圖表示的非關(guān)系型高維數(shù)據(jù)特征,輸出是一組頂點嵌入。如果輸入的數(shù)據(jù)位于低維流形中,那么用于嵌入的圖學習可以被視為一個保留了結(jié)構(gòu)信息的降維問題。基于矩陣分解的圖學習主要有兩種類型。一種是圖拉普拉斯矩陣分解,另一種是頂點鄰近性矩陣分解。

1) 圖拉普拉斯矩陣分解(Graph Laplacian Matrix Factorization)

保留的圖特征可以表示為成對的頂點相似性。一般來說,有兩種圖拉普拉斯矩陣分解,即轉(zhuǎn)導式和歸納式矩陣分解。前者只能嵌入訓練集中包含的頂點,而后者可以嵌入訓練集中不包含的頂點??傮w框架已在[68]中設(shè)計,基于圖拉普拉斯矩陣分解的圖學習方法已在[69]中進行了總結(jié)。

2) 頂點鄰近性矩陣分解(Vertex Proximity Matrix Factorization)

除了解決上述廣義的特征值問題,矩陣分解的另一種方法是直接對頂點接近矩陣進式分解。一般來說,矩陣分解可以用來從非關(guān)系數(shù)據(jù)中學習圖的結(jié)構(gòu),它適用于學習同質(zhì)的圖。基于矩陣分解,頂點接近度可以在低維空間中被逼近。保存頂點接近度的目的是使誤差最小。[82]中采用了頂點接近矩陣的奇異值分解(SVD)。還有一些其他的方法,如正則化高斯矩陣分解[83],低等級矩陣分解[84],用于解決SVD。

3) Discussion

矩陣分解算法對一個交互矩陣進行操作,以分解出幾個低維矩陣。這個過程帶來了一些缺點,例如,當分解的矩陣變得很大時,該算法需要很大的內(nèi)存。此外,矩陣分解算法不適用于訓練過程中的監(jiān)督或半監(jiān)督任務(wù)。

5. 基于隨機游走的方法 (Random Walk Based Methods)

隨機游走是一種方便而有效的網(wǎng)絡(luò)采樣方法[85], [86],可以生成節(jié)點的序列,同時保留節(jié)點之間的原始關(guān)系?;诰W(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)表示學習可以生成頂點的特征向量,從而使下游任務(wù)可以在低維空間中挖掘網(wǎng)絡(luò)信息。圖5給出了網(wǎng)絡(luò)表示學習的一個例子。歐氏空間中的圖像如圖5(a)所示,非歐氏空間中的相應(yīng)圖如圖5(b)所示。作為最成功的網(wǎng)絡(luò)表示學習算法之一,隨機游走在降維方面發(fā)揮了重要作用。

圖片

1) Structure Based Random Walks

圖結(jié)構(gòu)的數(shù)據(jù)有各種數(shù)據(jù)類型和結(jié)構(gòu)。圖中編碼的信息與圖結(jié)構(gòu)和頂點屬性有關(guān),這是影響網(wǎng)絡(luò)推理的兩個關(guān)鍵因素。在實際應(yīng)用中,很多網(wǎng)絡(luò)只有結(jié)構(gòu)信息,而缺乏頂點屬性信息。如何有效地識別網(wǎng)絡(luò)結(jié)構(gòu)信息,如重要頂點和不可見的鏈接,引起了網(wǎng)絡(luò)科學家的興趣[87]。圖數(shù)據(jù)具有高維的特點,統(tǒng)的網(wǎng)絡(luò)分析方法不能用于分析連續(xù)空間中的圖數(shù)據(jù)。

近年來,人們提出了各種網(wǎng)絡(luò)表示學習方法,這些方法保留了網(wǎng)絡(luò)的豐富結(jié)構(gòu)信息。Deep-Walk[88]和Node2vec[7]是兩種代表性的方法,用于生成具有拓撲信息的網(wǎng)絡(luò)表示。這些方法使用隨機游走模型來生成網(wǎng)絡(luò)上的隨機序列。通過將頂點視為單詞,將生成的頂點隨機序列視為單詞序列(句子),這些模型可以通過將這些序列輸入 Word2vec 模型來學習頂點的嵌入表示[89]-[91]。學習模型的原理是使頂點的共現(xiàn)概率最大化,如Word2vec。此外,Node2vec 表明網(wǎng)絡(luò)具有復雜的結(jié)構(gòu)特征,不同的網(wǎng)絡(luò)結(jié)構(gòu)采樣可以得到不同的結(jié)果。DeepWalk 的采樣模式不足以捕捉網(wǎng)絡(luò)中連接模式的多樣性。Node2vec 設(shè)計了一種隨機游走的采樣策略,通過調(diào)整參數(shù),可以對網(wǎng)絡(luò)進行廣度優(yōu)先采樣和深度優(yōu)先采樣的偏好。

因此,網(wǎng)絡(luò)結(jié)構(gòu)信息在各種網(wǎng)絡(luò)分析任務(wù)中發(fā)揮著重要作用。除了這些結(jié)構(gòu)信息外,原始網(wǎng)絡(luò)空間中的屬性信息在建模網(wǎng)絡(luò)的形成和演化中也很關(guān)鍵[93]。

2) Structure and Vertex Information Based Random Walks

除了網(wǎng)絡(luò)拓撲結(jié)構(gòu)外,許多類型的網(wǎng)絡(luò)還具有豐富的頂點信息,如網(wǎng)絡(luò)中的頂點內(nèi)容或標簽。Yang等人[84]提出了一種叫做 TADW 的算法,該模型以DeepWalk為基礎(chǔ),考慮了頂點的文本信息。MMDW[94]是另一個基于DeepWalk的模型,它是一種半監(jiān)督網(wǎng)絡(luò)嵌入算法,通過利用頂點的標簽信息來提高性能。

聚焦于節(jié)點的結(jié)構(gòu)特性,Ribeiro 提出了 Struc2vec 的框架 [95],該框架考慮具有相似的局部結(jié)構(gòu)的節(jié)點,而不是節(jié)點的鄰域和標簽。通過層次結(jié)構(gòu)來評估結(jié)構(gòu)相似性,該框架對結(jié)構(gòu)相似性的約束更加嚴格。還有一些其他的網(wǎng)路表示學習模型,比如Planetoid[96],它利用網(wǎng)絡(luò)結(jié)構(gòu)的特征和頂點屬性信息來學習網(wǎng)絡(luò)表示。

頂點屬性為改善網(wǎng)絡(luò)表征提供了有效的信息,有助于學習嵌入式矢量空間。在網(wǎng)絡(luò)拓撲結(jié)構(gòu)相對稀疏的情況下,頂點屬性信息可以作為補充信息來提高表示的準確性。在實踐中,如何有效利用頂點信息以及如何將這些信息應(yīng)用于網(wǎng)絡(luò)頂點嵌入是網(wǎng)絡(luò)表示學習的主要挑戰(zhàn)。

隨機游走可以被看作是馬爾可夫過程,該過程的下一個狀態(tài)只與上一個狀態(tài)有關(guān),這被稱為馬爾可夫鏈。受頂點增強的隨機游走的啟發(fā),Benson 等人[99]提出了 spacey 隨機游走,一種非馬爾可夫隨機過程。它認為每個頂點上停留時間的概率與動態(tài)系統(tǒng)的長期行為有關(guān)。他們證明在充分條件下,動態(tài)系統(tǒng)可以收斂到一個靜態(tài)分布。

3) Random Walks in Heterogeneous Networks

現(xiàn)實中大多數(shù)網(wǎng)絡(luò)包含不止一種類型的頂點,因此網(wǎng)絡(luò)是異質(zhì)的。與同質(zhì)的網(wǎng)絡(luò)表示學習不同,異質(zhì)網(wǎng)絡(luò)表示學習應(yīng)該很好地保留不同頂點之間的各種關(guān)系[102]。異質(zhì)網(wǎng)絡(luò)表示學習中實體之間的接近程度不僅僅是簡單的距離或接近程度的衡量,應(yīng)該考慮頂點和鏈接之間的語義。典型的異質(zhì)場景包括知識圖譜和社交網(wǎng)絡(luò)等。

知識圖譜嵌入的關(guān)鍵思想是將頂點及其關(guān)系嵌入到一個低維向量空間,同時可以保留知識圖譜的固有結(jié)構(gòu)[104]。對于基于關(guān)系路徑的隨機游走, path ranking 算法是一種使用隨機游走在圖數(shù)據(jù)上生成關(guān)系特征的路徑尋找方法[105]。PRA中的隨機游走是帶重啟的,并將特征與邏輯回歸相結(jié)合。然而,如果兩個頂點之間不存在路徑,PRA不能預測它們之間的聯(lián)系。Gardner等人[106], [107]介紹了兩種方法來提高PRA的性能。一種方法能夠更有效地處理,將新的語料庫納入知識庫,另一種方法使用矢量空間來減少表面形式的稀疏性。為了解決知識構(gòu)建中的級聯(lián)錯誤,Wang和Cohen[108]提出了一個基于信息提取和知識庫的聯(lián)合模型,采用遞歸隨機游走。利用文本的上下文語境,該模型獲得了額外的改進。Liu等人[109]開發(fā)了一種新的基于隨機游走的學習算法,層次隨機游走推理(Hierarchical Random-walk inference,HiRi)。它是一個兩層的方案:上層識別關(guān)系序列模式,下層從知識庫的子圖中捕捉信息。

另一個被廣泛研究的異質(zhì)網(wǎng)絡(luò)類型是社交網(wǎng)絡(luò),由于頂點和關(guān)系的類型不同,社交網(wǎng)絡(luò)在本質(zhì)上是異質(zhì)的。嵌入異質(zhì)社會網(wǎng)絡(luò)的方法主要有兩種,包括基于元路徑的方法和基于隨機游走的方法。

異質(zhì)網(wǎng)絡(luò)中的元路徑被定義為一個頂點類型的序列,編碼各種類型頂點之間的重要復合關(guān)系。為了利用社交網(wǎng)絡(luò)中的豐富信息,F(xiàn)u等人[110]提出了HIN2Vec,它是一個基于元路徑的表示學習框架。HIN2Vec 是一個神經(jīng)網(wǎng)絡(luò)模型,元路徑基于兩個獨立的階段,即訓練數(shù)據(jù)準備和表征學習。在各種社交網(wǎng)絡(luò)數(shù)據(jù)集上的實驗結(jié)果表明,HIN2Vec 模型能夠在異質(zhì)網(wǎng)絡(luò)中自動學習頂點向量。Metapath2vec[111]是通過形式化基于元路徑的隨機游走來構(gòu)建異質(zhì)網(wǎng)絡(luò)中頂點的鄰域。

4) Random Walks in Time-varying Networks

網(wǎng)絡(luò)是隨時間演變的,這意味著可能出現(xiàn)新的頂點和新的關(guān)系。因此,在網(wǎng)絡(luò)分析中捕捉網(wǎng)絡(luò)的時間行為意義重大。人們在學習時變網(wǎng)絡(luò)嵌入(如動態(tài)網(wǎng)絡(luò)或時變網(wǎng)絡(luò))方面做了很多努力[117]。與靜態(tài)網(wǎng)絡(luò)嵌入相比,時變的NRL應(yīng)該考慮網(wǎng)絡(luò)的動態(tài)性,這意味著舊的關(guān)系可能變得無效,新的鏈接可能出現(xiàn)。

時變網(wǎng)絡(luò)表示學習的關(guān)鍵是找到一種合適的方法,通過合理的更新方法將時間特征納入嵌入。Nguyen等人[118]提出了連續(xù)動態(tài)網(wǎng)絡(luò)嵌入的 CTDNE模型,該模型基于具有 '時間性 '路徑的隨機行走,只能隨著時間的推移向前移動。他們的模型更適合于隨時間變化的網(wǎng)絡(luò)表示,可以捕捉連續(xù)時間動態(tài)網(wǎng)絡(luò)的重要時間特征。Zuo等人[119]提出了HTNE模型,這是一種基于Hawkes過程的時間性網(wǎng)絡(luò)表示學習方法。HTNE 能夠很好地將 Hawkes 過程整合到網(wǎng)絡(luò)嵌入中,這樣就可以準確地捕捉到歷史鄰居對當前鄰居的影響。

對于動態(tài)網(wǎng)絡(luò)中未見過的頂點,GraphSAGE[120]為網(wǎng)絡(luò)中的新頂點有效地生成嵌入。與為網(wǎng)絡(luò)中的每個頂點訓練嵌入的方法不同,GraphSAGE設(shè)計了一個函數(shù)來為一個頂點生成具有鄰居特征的嵌入。在對一個頂點的鄰居進行采樣后,GraphSAGE使用不同的聚合器來更新該頂點的嵌入。然而,目前的圖神經(jīng)方法只擅長學習局部鄰域信息,不能直接利用圖的高階鄰近性和社區(qū)結(jié)構(gòu)。

5) Discussion

隨機游走是對網(wǎng)絡(luò)進行采樣的基本方式,節(jié)點的序列可以保留網(wǎng)絡(luò)結(jié)構(gòu)的信息。然而,這種方法也有一些缺點。例如,隨機游走依賴于隨機策略,這就產(chǎn)生了一些不確定的節(jié)點關(guān)系。為了減少這種不確定性,它需要增加樣本的數(shù)量,這將大大增加算法的復雜性。一些隨機游走的變體可以保留網(wǎng)絡(luò)的局部和全局信息,但它們在調(diào)整參數(shù)以適應(yīng)不同類型的網(wǎng)絡(luò)方面可能并不有效。

6. 基于深度學習的方法(Deep Learning on Graphs)

深度學習是近年來最熱門的領(lǐng)域之一。然而,將現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型,如遞歸神經(jīng)網(wǎng)絡(luò)(RNN)或卷積神經(jīng)網(wǎng)絡(luò)(CNN),擴展到圖數(shù)據(jù)是一項具有挑戰(zhàn)性的任務(wù)。Gori等人[121]提出了一個基于遞歸神經(jīng)網(wǎng)絡(luò)的GNN模型。在這個模型中,實現(xiàn)了一個傳遞函數(shù),它將圖或其頂點映射到一個m維的歐氏空間。近年來,有很多GNN模型被提出。

1) Graph Convolutional Networks

GCN在網(wǎng)格結(jié)構(gòu)域和圖結(jié)構(gòu)域的基礎(chǔ)上工作[122],圖6中顯示了圖上深度學習的簡要歷史。自2015年以來,GNN引起了很多人的關(guān)注,它被廣泛地研究和應(yīng)用于各個領(lǐng)域。

圖片
fig8

時域以及譜方法(Time Domain and Spectral Methods)

卷積是深度學習中常見的操作之一。然而,由于圖缺乏網(wǎng)格結(jié)構(gòu),圖像或文本的標準卷積不能直接應(yīng)用于圖。Bruna等人[122]利用圖的拉普拉斯矩陣將CNN算法從圖像處理擴展到圖,被稱為譜圖 CNN。其主要思想類似于信號處理的傅里葉基。在[122]的基礎(chǔ)上,Henaff等人[123]定義了核,通過類比圖像上的CNN的局部連接來減少學習參數(shù)。Defferrard等人[124]提供了兩種基于圖論的CNNs泛化到圖結(jié)構(gòu)數(shù)據(jù)的方法。一種方法是通過使用多項式核來減少參數(shù),這種方法可以通過使用Chebyshev多項式近似加速。另一種方法是特殊池化法,即在由頂點構(gòu)建的二叉樹上進行池化。Kipf Welling介紹了[124]的改進版本[125]。提出的方法是一種針對圖的半監(jiān)督學習方法。該算法采用逐層傳播規(guī)則,是基于圖上譜卷積的一階近似,可以直接作用于圖。

空間域以及空間方法(Space Domain and Spatial Methods)

譜圖理論提供了一種圖上的卷積方法,但是許多網(wǎng)絡(luò)學習方法方法直接在空間域的圖上使用卷積操作。Niepert等人[132]將Weisfeiler-Lehman 核等圖標注程序應(yīng)用于圖上,以產(chǎn)生獨特的頂點順序。生成的子圖可以被送入空間域的傳統(tǒng)CNN操作中。Duvenaud等人[133]設(shè)計了神經(jīng)指紋,這是一種使用類似于GCN算法的使用一階鄰居的空間方法。Atwood和Towsley[134]提出了另一種卷積方法,稱為擴散卷積神經(jīng)網(wǎng)絡(luò),它結(jié)合了轉(zhuǎn)移概率矩陣,用擴散基礎(chǔ)代替了卷積的特征基礎(chǔ)。Gilmer等人[135]將現(xiàn)有的模型重新表述為一個共同的框架,并利用這個框架發(fā)現(xiàn)新的變體。Allamanis等人[136]從句法和語義上表示代碼的結(jié)構(gòu),并利用GNN方法來識別程序結(jié)構(gòu)。

2) Graph Attention Networks

在基于序列的任務(wù)中,注意力機制被認為是一個標準方法[142]。GAT 是一種基于空間的GCN[143]。它在確定頂點鄰居的權(quán)重時使用了注意力機制。門控注意力網(wǎng)絡(luò)(GAANs) 也引入了多頭注意力機制來更新一些頂點的隱藏狀態(tài)[144]。與GATs不同,GAANs采用了一種自注意機制,可以為不同的頭計算不同的權(quán)重。其他一些模型,如圖 注意模型(GAM) 被提出來用于解決不同的問題[145],GAM的目的是處理圖分類。因此,GAM 通過自適應(yīng)地訪問重要頂點的序列來處理信息。GAM的模型包含LSTM網(wǎng)絡(luò),一些參數(shù)包含歷史信息、策略和其他從探索圖中產(chǎn)生的信息。注意力游走(AWs) 是另一種基于GNN和隨機游走的學習模型[146]。與DeepWalk相比,AWs在對共現(xiàn)矩陣進行因子化時使用可微分的注意力權(quán)重[88]。

3) Graph Auto-Encoders

GAE 使用GNN結(jié)構(gòu)將網(wǎng)絡(luò)頂點嵌入到低維向量中。 最普遍的解決方案之一是采用多層感知作為輸入的編碼器[147]。其中,解碼器重構(gòu)頂點的鄰域統(tǒng)計。PPMI或第一和第二近鄰可以被納入統(tǒng)計[148], [149]。圖表示的深度神經(jīng)網(wǎng)絡(luò)(DNGR)采用PPMI。結(jié)構(gòu)性深層網(wǎng)絡(luò)嵌入(SDNE)采用堆疊式自動編碼器來保持一階和二階的接近性。自動編碼器[150]是一個傳統(tǒng)的深度學習模型,它可以被歸類為自監(jiān)督模型[151]。深度遞歸網(wǎng)絡(luò)嵌入(DRNE)重建了一些頂點的隱藏狀態(tài),而不是整個圖[152]。研究發(fā)現(xiàn),如果我們將GCN視為編碼器,并將GCN與GAN或LSTM與GAN相結(jié)合,那么我們可以設(shè)計出圖的自動編碼器。一般來說,DNGR和SDNE通過給定的結(jié)構(gòu)特征嵌入頂點,而其他方法如DRNE同時學習拓撲結(jié)構(gòu)和內(nèi)容特征[148], [149]。變分圖自動編碼器[153]采用GCN作為編碼器,鏈接預測層作為解碼器。它的后繼者,對抗性正則化變分圖自動編碼器[154],增加了一個正則化過程與對抗性訓練方法,以學習更穩(wěn)健的嵌入。

4) Graph Generative Networks

圖生成網(wǎng)絡(luò)的目的是根據(jù)給定的觀察圖集合生成圖。 許多以前的圖生成網(wǎng)絡(luò)的方法都有自己的應(yīng)用領(lǐng)域。例如,在自然語言處理中,語義圖或知識圖譜是根據(jù)給定的句子生成的。研究者們提出了一些通用的方法。其中一種認為生成過程是頂點和邊的形成。另一種是采用生成式對抗訓練。一些基于圖生成網(wǎng)絡(luò)的GCNs,如分子生成對抗網(wǎng)絡(luò)(MolGAN) 將GNN與強化學習結(jié)合起來[155]。圖的深度生成模型(DGMG) 通過利用基于空間的GCNs實現(xiàn)了對現(xiàn)有圖的隱藏表示[156]。一些基于GAN和Zero-Shot學習的知識圖譜嵌入算法[157]。Vyas等人[158]提出了一個廣義的Zero-Shot學習模型,它可以在知識圖譜中找到未見的語義。

5) Graph Spatial-Temporal Networks

圖的空間-時間網(wǎng)絡(luò)同時捕捉圖的空間和時間依賴性。 全局結(jié)構(gòu)包含在空間-時間圖中,每個頂點的輸入隨著時間的變化而變化。例如,在交通網(wǎng)絡(luò)中,每個傳感器作為一個頂點連續(xù)記錄道路的交通速度,其中,交通網(wǎng)絡(luò)的邊由傳感器對之間的距離決定[129]??臻g-時間網(wǎng)絡(luò)的目標可以是預測未來的頂點值或標簽,或者預測空間-時間圖的標簽。最新研究討論了GCN的使用,GCN與RNN或CNN的結(jié)合,以及圖結(jié)構(gòu)的遞歸[130], [131], [159]。

6) Discussion

在這種情況下,圖學習任務(wù)可以被看作是通過使用梯度下降算法優(yōu)化目標函數(shù)。 因此,基于深度學習的網(wǎng)絡(luò)表示學習模型的性能會受到梯度下降算法的影響。它們可能會遇到局部最優(yōu)解和梯度消失問題等挑戰(zhàn)。

7. 應(yīng)用

許多問題都可以通過圖學習方法來解決,包括監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習和強化學習。 一些研究者將圖學習的應(yīng)用分為三類,即結(jié)構(gòu)化場景、非結(jié)構(gòu)化場景和其他應(yīng)用場景[18]。結(jié)構(gòu)化場景指的是數(shù)據(jù)以明確的關(guān)系結(jié)構(gòu)進行的情況,如物理系統(tǒng)、分子結(jié)構(gòu)和知識圖譜。非結(jié)構(gòu)化場景指的是數(shù)據(jù)具有不明確關(guān)系結(jié)構(gòu)的情況,如圖像和文本。其他應(yīng)用場景包括,例如,整合模型和組合優(yōu)化問題。表2列出了各種圖學習方法的神經(jīng)組件和應(yīng)用.

圖片
fig10
圖片
fig11

A. 數(shù)據(jù)集和開放資源(Datasets and Open-source Libraries)

本文介紹幾個數(shù)據(jù)集和基準用于評估圖學習方法在各種任務(wù)中的表現(xiàn),鏈接預測、節(jié)點分類和圖可視化。例如,像Cora(引文網(wǎng)絡(luò))、Pubmed(引文網(wǎng)絡(luò))、BlogCatalog(社交網(wǎng)絡(luò))、Wikipedia(語言網(wǎng)絡(luò))和PPI(生物網(wǎng)絡(luò))的數(shù)據(jù)集,包括節(jié)點、邊、標簽或節(jié)點的屬性。一些研究機構(gòu)開發(fā)了圖學習庫,其中包括常見和經(jīng)典的圖學習算法。例如,OpenKE是一個基于PyTorch的知識圖譜嵌入的Python庫。這個開源框架有RESCAL, HolE, DistMult, ComplEx等的實現(xiàn)。CogDL是一個圖表示學習框架,可用于節(jié)點分類、鏈接預測、圖分類等。

B. Text

許多數(shù)據(jù)是以文本形式存在,來自各種資源,如網(wǎng)頁、電子郵件、文件(技術(shù)和公司)、書籍、數(shù)字圖書館和客戶投訴、信件、專利等。文本數(shù)據(jù)的結(jié)構(gòu)性不強,通常包含豐富的上下文信息。圍繞文本存在著豐富的應(yīng)用,包括文本分類、序列標注、情感分類等。文本分類是自然語言處理中最經(jīng)典的問題之一,為解決這個問題而提出的流行算法包括 GCNs[120], [125], GATs[143], Text GCNs[160], 和Sentence LSTM[161]。句子LSTM也被應(yīng)用于序列標記、文本生成、多跳閱讀理解等[161]。句法GCN被提出用于解決語義角色標簽和神經(jīng)機器翻譯[162]。門控圖神經(jīng)網(wǎng)絡(luò)(GGNN)也可用于解決神經(jīng)機器翻譯和文本生成[163]。對于關(guān)系抽取任務(wù),樹狀LSTM、圖狀LSTM和GCN是較好的解決方案[164]。

C. Images

與圖像有關(guān)的圖學習應(yīng)用包括社交關(guān)系理解、圖像分類、視覺問題回答、物體檢測、區(qū)域分類和語義分割等。 例如,對于社交關(guān)系的理解,圖推理模型(GRM)被廣泛使用[165]。 由于朋友關(guān)系等社交關(guān)系是現(xiàn)實世界中社會網(wǎng)絡(luò)的基礎(chǔ),自動解釋這些關(guān)系對于理解人類行為非常重要。GRM引入了GGNNs來學習一個預測機制。圖像分類是一個經(jīng)典的問題,在這個問題上,GNNs已經(jīng)表現(xiàn)出很好的性能。視覺問題回答(VQA)是一項同時包含計算機視覺和自然語言處理的學習任務(wù)。一個VQA系統(tǒng)將某張圖片及其開放的自然語言問題作為輸入,以生成一個自然語言答案作為輸出。一般來說,VQA是對給定圖片進行問答,GGNN已經(jīng)被利用來輔助VQA[166]。

D. Science

圖學習在科學中被廣泛采用,對現(xiàn)實世界的物理系統(tǒng)進行建模是理解人類智能的最基本的觀點之一。 將物體表示為頂點,將它們之間的關(guān)系表示為邊,是進行物理學研究的一種簡單而有效的方法。Battaglia等人[167]提出了交互網(wǎng)絡(luò)(IN)來預測和推斷豐富的物理系統(tǒng),其中IN將物體和關(guān)系作為輸入?;贗N,可以推理出相互作用。因此,可以預測物理動態(tài)。視覺交互網(wǎng)絡(luò)(VIN) 可以從像素中進行預測,從每個物體的兩個連續(xù)輸入幀中學習一個狀態(tài)代碼[168]。

E. Knowledge Graphs Various

各種異質(zhì)的對象和關(guān)系被視為知識圖譜的基礎(chǔ)[171]。GNN可以應(yīng)用于知識庫補全(KBC),以解決知識庫外(OOKB)實體問題[172]。OOKB實體與現(xiàn)有實體相連。因此,OOKB實體的嵌入可以從現(xiàn)有實體中聚合起來。這樣的算法在KBC和OOKB的設(shè)置中都能達到合理的性能。同樣地,GCN也可以用來解決跨語言知識圖譜的對齊問題。該模型的主要思想是將不同語言的實體嵌入到一個綜合的em-bedding空間。然后,該模型根據(jù)其嵌入的相似性來對齊這些實體。

F. Combinatorial Optimization

旅行推銷員問題(TSP)和最小生成樹(MST)已經(jīng)通過不同的啟發(fā)式解決方案得到解決。 由于其結(jié)構(gòu)性,一些解決方案進一步利用了GNNs。Bello等人[182]首次提出了這種方法來解決TSP,他們的方法主要包含兩個步驟,即一個參數(shù)化的獎勵指針網(wǎng)絡(luò)和一個用于訓練的策略梯度模塊。Khalil等人[183]用GNN改進了這項工作,并通過兩個主要程序取得了更好的性能。首先,他們使用structure2vec來實現(xiàn)頂點嵌入,然后將其輸入Q-learning模塊進行決策。這項工作也證明了GNN的嵌入能力。Nowak等人[184]專注于二次分配問題,即測量兩個圖的相似度。GNN模型學習了每個圖的頂點嵌入,并使用注意力機制來匹配這兩個圖。

8. 開放性問題

在這一節(jié)中,簡要地總結(jié)了圖學習的幾個未來研究方向和開放性問題。

Dynamic Graph Learning

現(xiàn)有的大多數(shù)圖學習方法都適用于沒有特定約束的靜態(tài)網(wǎng)絡(luò)。 然而,動態(tài)網(wǎng)絡(luò)隨時間變化,它們很難被處理。動態(tài)圖學習算法在文獻中很少被研究。

Generative Graph Learning

受生成式對抗網(wǎng)絡(luò)的啟發(fā),生成式圖學習算法可以通過博弈論上的最小值博弈來統(tǒng)一生成式和判別式模型。 這種生成圖學習方法可用于鏈接預測、網(wǎng)絡(luò)演化和推薦,通過交替和迭代提高生成和判別模型的性能。

Fair Graph Learning

大多數(shù)圖學習算法都依賴于深度神經(jīng)網(wǎng)絡(luò),所產(chǎn)生的向量可能已經(jīng)包含了不想要的敏感信息。網(wǎng)絡(luò)中存在的偏置被強化了,因此,將公平指標整合到圖學習算法中以解決固有的偏置問題具有重要意義。

Interpretability of Graph Learning

圖學習的模型一般都很復雜,因為它同時包含了圖結(jié)構(gòu)和特征信息。圖學習算法的仍然是一個黑箱模型,其可解釋性仍未解決。 例如,藥物發(fā)現(xiàn)可以通過圖學習算法實現(xiàn)。然而,這種藥物是如何被發(fā)現(xiàn)的,以及這種發(fā)現(xiàn)背后的原因都是未知的。因此圖學習背后的可解釋性需要進一步研究。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多