本文介紹由愛荷華州立大學(xué)的Zhaoning Yu 與Hongyang Gao發(fā)表于ICML的研究工作。作者提出了一種新的分子圖表示學(xué)習(xí)方法,構(gòu)建了一個包含基序節(jié)點和分子節(jié)點的異構(gòu)圖,并提出HM-GNN(Heterogeneous Motif-GNN)模型學(xué)習(xí)異構(gòu)圖中每個節(jié)點的特征表示。該模型支持多任務(wù)學(xué)習(xí),適用于小規(guī)模數(shù)據(jù)集。此外,為解決潛在的效率問題,作者采用邊采樣方法減少計算資源。作者在多種分子數(shù)據(jù)集上對HM-GNN進行了評估,結(jié)果表明該模型優(yōu)于現(xiàn)有的先進模型。該模型可以作為一種新的多任務(wù)學(xué)習(xí)方法來用于圖學(xué)習(xí)研究。 簡介 圖神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于分子圖的特征表示學(xué)習(xí)。然而,現(xiàn)有的大多數(shù)方法都是單獨處理分子圖,忽略了它們之間的聯(lián)系,并且現(xiàn)有分子數(shù)據(jù)集規(guī)模普遍較小,圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練時很容易出現(xiàn)過擬合的現(xiàn)象。 針對上述問題作者提出了一種新的分子圖構(gòu)建方式,首先生成一個異構(gòu)基序圖將每個分子圖聯(lián)系起來,然后提出HM-GNN學(xué)習(xí)異構(gòu)基序圖中的節(jié)點特征,最后利用邊采樣器提高網(wǎng)絡(luò)訓(xùn)練效率。作者的貢獻如下:
2 方法 2.1分子基序詞典 圖1展示了由分子圖構(gòu)建基序詞典的過程。首先確定分子圖中所含的鍵和環(huán),然后利用TF-IDF去除攜帶分子表征信息較少的結(jié)構(gòu),最終留下的結(jié)構(gòu)作為后續(xù)建立異構(gòu)基序圖的參考詞典。 圖1 基序詞典構(gòu)建示意圖 2.2異構(gòu)基序圖的構(gòu)建 異構(gòu)基序圖包含分子節(jié)點和基序節(jié)點,圖中有兩種邊,分別是“分子-基序”和“基序-基序”。首先在分子與由該分子中提取的基序之間添加“分子-基序”邊;其次,如果兩個基序在任意分子圖中共享至少一個原子,那么在它們之間添加一條“基序-基序”邊,最終得到一個包含所有分子以及基序詞典中所有基序的異構(gòu)基序圖,如圖2所示。 圖2 異構(gòu)基序圖 在異構(gòu)基序圖中不同邊的權(quán)重有所不同。對于分子-基序邊,使用基序的TF-IDF值作為權(quán)重,如公式(1)所示,其中代表基序在分子中出現(xiàn)的次數(shù),表示分子的個數(shù),表示包含基序的分子個數(shù)。對于基序-基序邊,使用PMI作為權(quán)重,如公式(2)所示。 2.3異構(gòu)基序圖神經(jīng)網(wǎng)絡(luò)(HM-GNN) 首先為每個基序節(jié)點和分子節(jié)點初始化特征,對于基序節(jié)點,使用獨熱編碼生成其特征;對于分子節(jié)點,使用詞袋模型生成其特征向量。在此基礎(chǔ)上,利用H-GNN學(xué)習(xí)異構(gòu)圖中每個分子的基序級embedding。同時,利用原子作為節(jié)點,化學(xué)鍵作為邊,將每個分子轉(zhuǎn)換成一個圖,利用GNN來學(xué)習(xí)該圖包含原子級信息的embedding。最后將兩個層級的embedding信息進行拼接得到最終的特征編碼并輸入到MLP中進行預(yù)測,如圖3所示。 圖3 HM-GNN示意圖 2.4基于異構(gòu)基序圖的多任務(wù)學(xué)習(xí) 大多數(shù)分子數(shù)據(jù)集相對較小,使用圖神經(jīng)網(wǎng)絡(luò)時很容易發(fā)生過擬合。多任務(wù)學(xué)習(xí)能有效降低過擬合并提高模型泛化能力。然而,由于不同數(shù)據(jù)集間缺乏明確的聯(lián)系,很難直接使用多任務(wù)學(xué)習(xí)。異構(gòu)基序圖的構(gòu)建可以很方便地連接一組分子數(shù)據(jù),從而進行多任務(wù)學(xué)習(xí)以提升模型性能。給定個分子的數(shù)據(jù)集,首先從個分子數(shù)據(jù)集中構(gòu)建基序詞典,其中基序只需要在部分?jǐn)?shù)據(jù)集中共享。然后構(gòu)建異構(gòu)基序圖,使用HM-GNN學(xué)習(xí)每個分子的特征表示輸入到單獨的MLP中進行預(yù)測。在這個過程中,基序節(jié)點被認(rèn)為是連接不同數(shù)據(jù)集的分子的連接器。 2.5通過邊采樣提升訓(xùn)練效率 異構(gòu)基序圖的邊可能會隨著分子數(shù)量的增多而成倍增加,從而影響訓(xùn)練速度,因此可以通過邊采樣器來減少異構(gòu)基序圖邊的數(shù)量。在異構(gòu)基序圖中隨機選擇一個分子節(jié)點作為起始節(jié)點,進行廣度優(yōu)先搜索,每層均隨機采樣固定大小的邊。其中,分子節(jié)點的第一跳均為基序節(jié)點,其過程如圖4所示。圖中紅色節(jié)點為分子節(jié)點,藍色節(jié)點為基序節(jié)點,經(jīng)過3跳,每跳保留兩邊,最終得到簡化后的異構(gòu)基序圖。 圖4 邊采樣示意圖 3 實驗 3.1不同分子集上的模型性能 在五種生物信息學(xué)數(shù)據(jù)集上(PTC、MUTAG、NCI1、Mutagenicity分子數(shù)據(jù)集及 PROTEINS蛋白質(zhì)數(shù)據(jù)集)通過5層GNN和2層MLP來驗證HM-GNN對于分子圖特征提取的性能,與其他主流方法的對比結(jié)果如表1所示。實驗結(jié)果顯示在五種數(shù)據(jù)集上HM-GNN的準(zhǔn)確率均高于其他方法,這表明基序節(jié)點可以幫助GNN更好地學(xué)習(xí)分子圖的基序級特征表示。在蛋白質(zhì)數(shù)據(jù)集上HM-GNN模型也表現(xiàn)最佳,這表明蛋白質(zhì)分子中的基序也包含有效的結(jié)構(gòu)信息。與使用基序信息的GSN相比, HM-GNN通過基序-基序和基序-分子間的相互作用更好地學(xué)習(xí)了基序embedding。 表1各種圖模型的分類準(zhǔn)確率 3.2大規(guī)模數(shù)據(jù)集的性能研究 為了在大規(guī)模數(shù)據(jù)集上進行評估,作者使用了ogbg-molhiv和ogbg-molpcba數(shù)據(jù)集,前者為二元分類數(shù)據(jù)集,后者為多元分類數(shù)據(jù)集。在ogbg-molhiv數(shù)據(jù)集上的模型評價指標(biāo)選取ROC-AUC,在ogbg-molpcba數(shù)據(jù)集上的模型評價指標(biāo)選取AP。表2表明了HM-GNN在兩種數(shù)據(jù)集上均優(yōu)于其他方法,說明該方法在大規(guī)模數(shù)據(jù)集上具有良好的泛化能力。 表2大規(guī)模分子數(shù)據(jù)集上的分類準(zhǔn)確率 3.3消融實驗 異構(gòu)基序圖消融實驗 為證明HM-GNN中基序級分子特征學(xué)習(xí)的有效性,將異構(gòu)基序圖和相應(yīng)的GNN從HM-GNN中移除,從而簡化為GINs。比較HM-GNN和GINs在PTC、MUTAG和PROTEINS數(shù)據(jù)集的準(zhǔn)確率,結(jié)果如表3所示,證明了基序級特征對分子特征表示學(xué)習(xí)的重要性。 基序-基序相互作用的消融研究 在異構(gòu)基序圖中,將“基序-基序”邊刪去,得到異構(gòu)基序圖的變體,在三個數(shù)據(jù)集上評估變體與原本的異構(gòu)基序圖之間的性能,結(jié)果如表4所示,去除基序邊后模型性能下降,證明“基序-基序”邊的重要性。 表3 僅保留GIN的消融實驗 表4 去除“基序-基序”邊的消融實驗 3.4 小規(guī)模分子圖多任務(wù)學(xué)習(xí) 為證明多任務(wù)學(xué)習(xí)的有效性,使用PTC _MM和PTC_FR分別與PTC結(jié)合,創(chuàng)建新數(shù)據(jù)集PTC + PTC_MM和PTC + PTC_FR。表5匯總了新數(shù)據(jù)集詞匯量的大小以及與原始PTC數(shù)據(jù)集的重疊率。選取不同比例的數(shù)據(jù)作為訓(xùn)練集,其余的數(shù)據(jù)集作為測試集,以此用小規(guī)模數(shù)據(jù)驗證HM-GNN相較于其他方法的過擬合情況。實驗結(jié)果表明PTC結(jié)合PTC_FR比PTC_MM性能提升更大,由于PTC與PTC_FR基序詞重疊更多。因此,將數(shù)據(jù)集與相似基序詞相結(jié)合有利于小規(guī)模分子數(shù)據(jù)集上的多任務(wù)學(xué)習(xí)。 表5多任務(wù)學(xué)習(xí)的性能指標(biāo) 3.5 邊采樣實驗 圖5展示了邊采樣時起始節(jié)點的數(shù)量與內(nèi)存使用率以及預(yù)測精度的關(guān)系。隨著起始節(jié)點數(shù)量的增加,內(nèi)存使用率線性提升,當(dāng)起始節(jié)點數(shù)量為25000時,模型精度基本趨于穩(wěn)定。因此設(shè)置合適的起始節(jié)點數(shù)值,可以在不減少模型精度地情況下,提升模型的計算效率,減少訓(xùn)練的資源使用率。 圖5 邊采樣起始節(jié)點數(shù)對性能和資源的影響 3.6 基序詞典的大小實驗 在構(gòu)建異構(gòu)基序圖的過程中,通過TF-IDF的值來去除一部分不重要的基序,不同的TF-IDF的閾值選取也會導(dǎo)致不同的異構(gòu)基序圖,從而影響模型最終性能,圖6顯示了不同閾值對模型的性能影響,在閾值為80%時模型性能最優(yōu)。 圖6 不同TF-IDF閾值對性能的影響 4 總結(jié) 在這項工作中,作者首先提出了一種新的異構(gòu)基序圖構(gòu)建方法用于分子圖特征表示學(xué)習(xí),同時通過選擇不同的TF-IDF閾值來篩選攜帶信息較少的基序,然后提出了HM-GNN學(xué)習(xí)異構(gòu)基序圖中的節(jié)點特征,并結(jié)合分子圖得到分子的embedding表示,最后采用邊采樣器來提升模型訓(xùn)練效率。實驗表明,該模型均優(yōu)于目前其他的先進模型,并且通過實驗證明了在小規(guī)模分子數(shù)據(jù)集上多任務(wù)學(xué)習(xí)的可行性。 參考資料 論文鏈接:https:///abs/2202.00529 源碼 https://github.com/ZhaoningYu1996/HM-GNN |
|