摘要過(guò)去的十年中,深度學(xué)習(xí)(DeepLearning,DL)在各種人工智能研究領(lǐng)域取得了顯著的成功。從以前對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究演變而來(lái),該技術(shù)在諸如圖像和語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域表現(xiàn)出優(yōu)于其他機(jī)器學(xué)習(xí)(Machine Learning,ML)算法的性能。近年來(lái),深度學(xué)習(xí)在醫(yī)藥研究中的第一波應(yīng)用出現(xiàn)了,它的用途超出了生物活性預(yù)測(cè)的范圍,并且在解決藥物發(fā)現(xiàn)中的各種問(wèn)題方面顯示出了前景。 一、介紹各種形狀和大小的數(shù)字?jǐn)?shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)。據(jù)美國(guó)國(guó)家安全局稱,互聯(lián)網(wǎng)每天處理1826PB的數(shù)據(jù)。在2011年,數(shù)字信息在短短五年內(nèi)增長(zhǎng)了9倍;到2020年,其在全球的數(shù)量預(yù)計(jì)將達(dá)到35萬(wàn)億千兆字節(jié)。探索和分析大數(shù)據(jù)的高需求鼓勵(lì)使用像深度學(xué)習(xí)(DL)這樣的數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法。DL在計(jì)算機(jī)游戲、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和自動(dòng)駕駛汽車等廣泛的應(yīng)用領(lǐng)域取得了巨大的成功??梢哉f(shuō),DL正在改變我們的日常生活。在Gartner選擇的2018年前十大技術(shù)趨勢(shì)中,DL代表的AI技術(shù)位居榜首。 過(guò)去的十年里,已經(jīng)在可用的化合物的活性和生物醫(yī)學(xué)數(shù)據(jù)的量顯著增加。如何有效地挖掘大規(guī)模的化學(xué)數(shù)據(jù)成為藥物發(fā)現(xiàn)的關(guān)鍵問(wèn)題。更大的數(shù)據(jù)量與更多的自動(dòng)化技術(shù)相結(jié)合促進(jìn)了機(jī)器學(xué)習(xí)的進(jìn)一步應(yīng)用。除了支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)和隨機(jī)森林(RF)等已建立的方法,這些方法已被用于開(kāi)發(fā)QSAR模型很長(zhǎng)一段時(shí)間,矩陣分解和DL等方法已經(jīng)開(kāi)始被使用。DL利用了數(shù)據(jù)量的增加和可用計(jì)算機(jī)功率的不斷增加。大多數(shù)其他機(jī)器學(xué)習(xí)方法和DL之間的區(qū)別在于DL中NN體系結(jié)構(gòu)的靈活性。將在本問(wèn)中討論的架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(CNN),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和完全連接的前饋網(wǎng)絡(luò)。單層神經(jīng)網(wǎng)絡(luò)已經(jīng)用于QSAR建模很長(zhǎng)一段時(shí)間;隨著數(shù)據(jù)尺寸和計(jì)算能力的增加,自然而然地應(yīng)用多層前饋網(wǎng)絡(luò)進(jìn)行生物活性預(yù)測(cè)。隨著高通量成像設(shè)備的采用,CNN在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著的成功,并成為生物圖像處理的自然選擇。在藥物研發(fā)領(lǐng)域應(yīng)用DL的領(lǐng)域正在迅速發(fā)展,幾乎每周都有新的文章發(fā)表。最近,有關(guān)計(jì)算化學(xué)和生命科學(xué)領(lǐng)域的DL應(yīng)用的一些評(píng)論已經(jīng)發(fā)表。這里,我們更關(guān)注藥物開(kāi)發(fā)中的DL應(yīng)用,特別是化學(xué)信息學(xué)和生物圖像分析領(lǐng)域,并強(qiáng)調(diào)目前在藥物開(kāi)發(fā)中使用的DL結(jié)構(gòu)。 二、深度學(xué)習(xí)的原理DL是一類機(jī)器學(xué)習(xí)算法,其使用具有用于學(xué)習(xí)數(shù)據(jù)表示的多層非線性處理單元的人工神經(jīng)網(wǎng)絡(luò)(ANN)。最早的ANN可以追溯到1943年,當(dāng)時(shí)Warren McCulloch和Walter Pitts基于數(shù)學(xué)和算法為閾值邏輯開(kāi)發(fā)了神經(jīng)網(wǎng)絡(luò)的計(jì)算模型?,F(xiàn)代ANN的基本結(jié)構(gòu)受到人腦結(jié)構(gòu)的啟發(fā)。ANN中有三個(gè)基本層:輸入層、隱藏層和輸出層。根據(jù)ANN的類型,相鄰層中的節(jié)點(diǎn)(也稱為神經(jīng)元)可以完全連接或部分連接。輸入變量由輸入節(jié)點(diǎn)進(jìn)行,變量通過(guò)隱藏節(jié)點(diǎn)進(jìn)行變換,最終輸出值在輸出節(jié)點(diǎn)進(jìn)行計(jì)算。 ANN的訓(xùn)練是通過(guò)迭代修改網(wǎng)絡(luò)中的權(quán)重值來(lái)完成的,通常通過(guò)反向傳播方法來(lái)優(yōu)化預(yù)測(cè)值和真值之間的誤差?,F(xiàn)代人工神經(jīng)網(wǎng)絡(luò)算法是在20世紀(jì)60年代至80年代期間開(kāi)發(fā)的,并且自那時(shí)起就出現(xiàn)了應(yīng)用。但傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)方法存在諸如過(guò)擬合、遞減梯度等問(wèn)題,并且在很大程度上被其他機(jī)器學(xué)習(xí)算法取代。DL的最近發(fā)展使ANN得以復(fù)興。DL與傳統(tǒng)ANN之間的主要區(qū)別在于神經(jīng)網(wǎng)絡(luò)的規(guī)模和復(fù)雜性。由于計(jì)算機(jī)硬件在早期的局限性,DL使用大量的隱藏層,而傳統(tǒng)的ANN通常只能提供一個(gè)或兩個(gè)隱藏層。由于更強(qiáng)大的CPU和GPU硬件的出現(xiàn),DL可以承擔(dān)在每層中使用更多的節(jié)點(diǎn)。DL中還有許多算法改進(jìn),例如使用丟失和DropConnect方法來(lái)解決過(guò)度擬合問(wèn)題,應(yīng)用整型線性單元(ReLU)以避免消除梯度并將卷積層和池層引入新穎的網(wǎng)絡(luò)體系結(jié)構(gòu),以便使用大量的輸入變量。大多數(shù)DL軟件包都是開(kāi)源的。這里簡(jiǎn)要介紹DL中使用的幾種流行的NN架構(gòu)。首先是完全連接的深度神經(jīng)網(wǎng)絡(luò)(DNN),它包含多個(gè)隱藏層,每層包含數(shù)百個(gè)非線性處理單元。DNN可以采用大量的輸入特征,并且DNN的不同層中的神經(jīng)元可以自動(dòng)提取不同層級(jí)的特征。 (a)完全連接的深度神經(jīng)網(wǎng)絡(luò)(DNN),(b)卷積神經(jīng)網(wǎng)絡(luò)(CNN),(c)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和(d)自動(dòng)編碼器(AE) 另一種非常流行的NN是CNN,它被廣泛用于圖像識(shí)別。它通常包含幾個(gè)卷積層和子采樣層。卷積層由一組具有較小感受域和可學(xué)習(xí)參數(shù)的過(guò)濾器組成。在正向過(guò)程中,每個(gè)過(guò)濾器在輸入體積的寬度和高度上進(jìn)行卷積,計(jì)算過(guò)濾器條目與輸入體積中的接受域之間的點(diǎn)積,并生成該過(guò)濾器的2D特征映射,子采樣層用于減小特征映射的大小。最后,特征映射被連接成完全連接的層,相鄰層中的神經(jīng)元全部連接,就像在傳統(tǒng)的ANN中一樣,以提供最終的輸出值。由于每個(gè)濾波器共享相同的參數(shù),CNN在很大程度上減少了所學(xué)習(xí)的自由參數(shù)的數(shù)量,從而降低了消耗的內(nèi)存并提高了學(xué)習(xí)速度。它在圖像識(shí)別中勝過(guò)了其他類型的機(jī)器學(xué)習(xí)算法。 ANN的另一個(gè)變體是RNN。與前饋神經(jīng)網(wǎng)絡(luò)不同,它允許同一隱藏層中的神經(jīng)元之間的連接形成有向循環(huán)。RNN可以將順序數(shù)據(jù)作為輸入特征,這非常適合于時(shí)間相關(guān)的任務(wù),如語(yǔ)言建模。使用稱為長(zhǎng)期短期記憶(LSTM)的技術(shù),RNN可以減少消失梯度問(wèn)題。 第四種ANN結(jié)構(gòu)稱為自動(dòng)編碼器(AE)。AE是用于無(wú)監(jiān)督學(xué)習(xí)的NN。它包含一個(gè)編碼器部分,它是一個(gè)NN,用于將從輸入層接收的信息轉(zhuǎn)換為有限數(shù)量的隱藏單元,然后將解碼器NN與具有與輸入層相同數(shù)量的節(jié)點(diǎn)的輸出層耦合。代替預(yù)測(cè)輸入實(shí)例的標(biāo)簽,解碼器NN的目的是從較少數(shù)量的隱藏單元重建其自己的輸入。通常,AE的目的是為了降低非線性維數(shù)。最近,AE概念已經(jīng)越來(lái)越廣泛地用于從數(shù)據(jù)學(xué)習(xí)生成模型。 三、深度學(xué)習(xí)在化合物性質(zhì)和活性預(yù)測(cè)中的應(yīng)用包括ANN在內(nèi)的機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用于化合物活性預(yù)測(cè)中。DL方法被用來(lái)首先解決活性預(yù)測(cè)問(wèn)題。當(dāng)通過(guò)相同數(shù)量的分子描述符呈現(xiàn)化合物時(shí),直接的方法是使用完全連接的DNN來(lái)構(gòu)建模型。達(dá)爾等人使用大量的2D拓?fù)涿枋龇谀薑aggle挑戰(zhàn)數(shù)據(jù)集上應(yīng)用DNN;并且DNN在15個(gè)靶標(biāo)中的13個(gè)中顯示比標(biāo)準(zhǔn)RF方法略好的性能。這項(xiàng)研究的一些關(guān)鍵知識(shí)是:(i)DNN可以處理數(shù)千個(gè)描述符而不需要特征選擇;(2)Dropout可以避免傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)面臨的過(guò)度擬合問(wèn)題;(iii)超參數(shù)(層數(shù)、每層節(jié)點(diǎn)的數(shù)量、激活函數(shù)的類型等)優(yōu)化可以最大化DNN性能;(iv)多任務(wù)DNN模型比單任務(wù)模型執(zhí)行得更好。邁爾等人報(bào)告他們的多任務(wù)DNN模型在包含12的數(shù)據(jù)集上贏得了Tox21挑戰(zhàn)12000種化合物用于12種高通量毒性分析。他們使用具有靜態(tài)描述符(3D、2D描述符,預(yù)定義的毒素)的大型特征集以及動(dòng)態(tài)生成的擴(kuò)展連接指紋描述符(ECFP)來(lái)使DNN在訓(xùn)練過(guò)程中進(jìn)行自我特征推導(dǎo)。更有意思的是,專門(mén)使用ECFP的 DNN模型進(jìn)行統(tǒng)計(jì)學(xué)關(guān)聯(lián)分析,并且與已知的毒性基因顯著相關(guān)的子結(jié)構(gòu)在每個(gè)隱藏層都可以被識(shí)別。這些基準(zhǔn)測(cè)試結(jié)果證明了與單任務(wù)DNN和傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,多任務(wù)DNN的優(yōu)勢(shì)。 Ramsundar等進(jìn)行了一項(xiàng)系統(tǒng)研究,以構(gòu)建多任務(wù)DNN并將其性能與單任務(wù)DNN模型進(jìn)行比較。他們的研究結(jié)果表明,多任務(wù)模型比單任務(wù)模型和射頻模型表現(xiàn)更好。Koutsoukas 等將DNN模型與一些常用的機(jī)器學(xué)習(xí)方法(如SVM,RF等)相比較,選擇了ChEMBL中的七個(gè)數(shù)據(jù)集。發(fā)現(xiàn)DNN在統(tǒng)計(jì)學(xué)上優(yōu)于其他(基于Wilcoxon統(tǒng)計(jì)檢驗(yàn)的P值<0.01)機(jī)器學(xué)習(xí)方法。Lenselink 等報(bào)道了另一項(xiàng)比較DNN與常規(guī)機(jī)器學(xué)習(xí)方法RF、SVM、樸素貝葉斯和邏輯回歸方法考慮蛋白質(zhì)描述符的基準(zhǔn)研究。他們研究了包含314 767個(gè)靶標(biāo)化合物相互作用的數(shù)據(jù)集上的各種分類模型的性能。DNN模型在BEDROC(Boltzmann增強(qiáng)的接收機(jī)工作特性鑒別)方面證明是最好的模型,并且多任務(wù)和PCM實(shí)現(xiàn)被證明可以提高單任務(wù)DNN的性能。 此外有人報(bào)告了使用DNN二維拓?fù)涿枋鰜?lái)制作預(yù)測(cè)研究BACE活性模型和實(shí)現(xiàn)0.82的分類精度和PIC的標(biāo)準(zhǔn)誤差50 ~0.53所述驗(yàn)證集。Aliper 等人建立了DNN模型,用于預(yù)測(cè)藥物的藥理學(xué)特性以及利用來(lái)自LINCS項(xiàng)目的轉(zhuǎn)錄組數(shù)據(jù)的藥物再利用,以及路徑信息。已經(jīng)表明,使用途徑和基因水平的信息,DNN模型在預(yù)測(cè)藥物適應(yīng)癥方面實(shí)現(xiàn)了高精度,因此它們可用于藥物再利用。 即使NN能夠直接從分子結(jié)構(gòu)中學(xué)習(xí),而不是使用預(yù)定義的分子描述符。這個(gè)想法最初是由Merkwirth等人探索的。2005年幾年后,開(kāi)發(fā)了兩種不同的方法來(lái)解決這個(gè)問(wèn)題。Lusci 等報(bào)道了一種采用稱為UGRNN的RNN變體的方法,該方法首先將分子結(jié)構(gòu)轉(zhuǎn)換為與分子表示相同長(zhǎng)度的矢量,然后將它們傳遞到完全連接的NN層以建立模型。向量中的位值是從數(shù)據(jù)集中學(xué)習(xí)的。顯示UGRNN方法能夠建立預(yù)測(cè)溶解度模型,其準(zhǔn)確性與用分子描述符建立的模型相當(dāng)。徐等人應(yīng)用相同的方法模擬藥物性肝損傷(DILI),DL模型是基于475種藥物構(gòu)建的,并在198種藥物的外部數(shù)據(jù)集上進(jìn)行驗(yàn)證。最好的模型達(dá)到了0.955的AUC,超過(guò)了先前報(bào)道的DILI模型的精確度。 另一種方法稱為圖形卷積模型,其基本思想類似于UGRNN方法,該方法使用NN來(lái)自動(dòng)生成分子描述向量,并通過(guò)訓(xùn)練NN來(lái)學(xué)習(xí)向量值。由摩根圓形指紋法啟發(fā),Duvenaud 等提出了神經(jīng)指紋方法作為創(chuàng)建圖形卷積模型。 該方法的工作流程:首先,讀取2D分子結(jié)構(gòu)以形成狀態(tài)矩陣,其包含每個(gè)原子的原子和鍵信息。狀態(tài)矩陣然后通過(guò)單層神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積運(yùn)算以生成固定長(zhǎng)度的矢量作為分子表示。通過(guò)考慮相鄰原子的貢獻(xiàn),卷積操作可以在不同的級(jí)別運(yùn)行,這相當(dāng)于不同鄰近級(jí)別的圓形指紋。由不同卷積運(yùn)算產(chǎn)生的載體首先經(jīng)歷softmax變換,然后被總結(jié)以形成化合物的最終載體,該化合物是編碼分子水平信息的神經(jīng)指紋。神經(jīng)指紋通過(guò)另一個(gè)完全連接的NN層來(lái)生成最終輸出。神經(jīng)指紋中的比特值通過(guò)訓(xùn)練學(xué)習(xí)并且是可微分的。在Duvenaud的三個(gè)測(cè)試案例中,使用神經(jīng)指紋獲得比Morgan指紋更好的結(jié)果,更重要的是,圖形卷積模型中的影響性子結(jié)構(gòu)可以被可視化以解釋模型。圖卷積模型的優(yōu)點(diǎn)是描述符在訓(xùn)練過(guò)程中自動(dòng)生成,并且不需要任何預(yù)定義的分子描述符。這樣的描述符不是一般的描述符,而是特定任務(wù)和完全可區(qū)分的,因此可以提供更好的預(yù)測(cè)。其他分子圖卷積方法由Kearnes報(bào)道使用神經(jīng)指紋比使用摩根指紋獲得更好的結(jié)果,更重要的是,圖形卷積模型中的影響性子結(jié)構(gòu)可以被可視化以解釋模型。 除了基于圖的表示學(xué)習(xí)方法外,還探索了基于其他類型分子表示的DL方法。Bjerrum使用SMILES字符串作為L(zhǎng)STM RNN的輸入來(lái)構(gòu)建預(yù)測(cè)模型,而不需要生成分子描述符。更有趣的是,有人觀察到通過(guò)使用多個(gè)SMILES字符串來(lái)表示相同的化合物來(lái)擴(kuò)大數(shù)據(jù)集比使用規(guī)范的SMILES獲得更好的結(jié)果。吳作棟等將CNN應(yīng)用于分子2D圖形的圖像,并獲得令人驚訝的與ECFP培訓(xùn)的DNN模型相當(dāng)?shù)慕Y(jié)果。而且當(dāng)圖像增加了一些基本的化學(xué)信息時(shí),模型性能得到進(jìn)一步改善。直接從結(jié)構(gòu)中學(xué)習(xí)表示的能力不需要使用任何預(yù)定義的結(jié)構(gòu)描述符,這是將DL與其他機(jī)器學(xué)習(xí)方法區(qū)分開(kāi)來(lái)的一個(gè)重要特征,它基本上不需要傳統(tǒng)的特征選擇和縮減過(guò)程。 四、利用深度學(xué)習(xí)進(jìn)行全新設(shè)計(jì)DL在化學(xué)信息學(xué)中另一個(gè)有趣的應(yīng)用是通過(guò)神經(jīng)網(wǎng)絡(luò)產(chǎn)生新的化學(xué)結(jié)構(gòu)。Gómez-Bombarelli等提出了一種使用變分自動(dòng)編碼器(VAE)生成化學(xué)結(jié)構(gòu)的新方法。第一步是使用VAE進(jìn)行無(wú)監(jiān)督學(xué)習(xí),將ZINC數(shù)據(jù)庫(kù)中的化學(xué)結(jié)構(gòu)(SMILES字符串)映射到潛在空間。一旦VAE訓(xùn)練完成,潛在空間中的潛在載體就成為分子結(jié)構(gòu)的連續(xù)表示,并且可以通過(guò)訓(xùn)練好的VAE可逆地轉(zhuǎn)化為SMILES字符串。通過(guò)任何優(yōu)化方法搜索連續(xù)潛在空間中的最優(yōu)潛在解,然后將搜索到的潛在解解碼為SMILES,可以實(shí)現(xiàn)具有期望特性的新結(jié)構(gòu)的生成。繼Gómez-Bombarelli的作品之后,Kadurin 等人使用VAE作為分子描述符發(fā)生器與生成敵對(duì)網(wǎng)絡(luò)(GAN)耦合,一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)以產(chǎn)生新的結(jié)構(gòu)。布拉施克等利用VAE產(chǎn)生具有預(yù)測(cè)的抗多巴胺受體 2型活性的新型結(jié)構(gòu)。
Jaques等人將一種名為Deep Q-learning的強(qiáng)化學(xué)習(xí)技術(shù)與RNN一起應(yīng)用,生成具有理想分子特性的SMILES。然而,他們的方法需要一種獎(jiǎng)勵(lì)功能,其結(jié)合手寫(xiě)規(guī)則來(lái)懲罰不良類型的結(jié)構(gòu),否則將導(dǎo)致對(duì)獎(jiǎng)勵(lì)的利用,從而導(dǎo)致不現(xiàn)實(shí)的簡(jiǎn)單分子。為了克服這個(gè)缺點(diǎn),Olivecrona等提出了一種基于策略的強(qiáng)化學(xué)習(xí)方法來(lái)調(diào)整預(yù)先訓(xùn)練的RNN,以產(chǎn)生具有給定用戶定義屬性的分子。在一個(gè)測(cè)試實(shí)例中,將模型調(diào)整為產(chǎn)生預(yù)測(cè)對(duì)多巴胺受體2型有活性的化合物,該模型產(chǎn)生的結(jié)構(gòu)中> 95%被預(yù)測(cè)為活性的。 五、深度學(xué)習(xí)在預(yù)測(cè)反應(yīng)和逆合成分析中的應(yīng)用
六、卷積神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)配體-蛋白質(zhì)相互作用中的應(yīng)用評(píng)估蛋白質(zhì)和配體之間的相互作用是分子對(duì)接計(jì)劃的關(guān)鍵部分,并且基于力場(chǎng)或現(xiàn)有蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)的知識(shí)開(kāi)發(fā)了許多評(píng)分函數(shù)。受到CNN在圖像分析中成功的啟發(fā),最近發(fā)表了幾篇關(guān)于應(yīng)用CNN評(píng)分蛋白質(zhì)-配體相互作用的研究。一個(gè)典型的例子是由Ragoza等人進(jìn)行的研究蛋白質(zhì)-配體結(jié)構(gòu)被離散成分辨率為0.5的網(wǎng)格。柵格的每邊都是24 埃,并以結(jié)合位點(diǎn)為中心。用一個(gè)函數(shù)描述每個(gè)原子,并且生成網(wǎng)格上的原子密度以形成輸入矩陣。使用Caffe DL框架定義和訓(xùn)練多層CNN模型。CNN評(píng)分在CSAR靶標(biāo)間姿勢(shì)預(yù)測(cè)數(shù)據(jù)集 上優(yōu)于AutoDock Vina,但對(duì)姿勢(shì)的靶標(biāo)內(nèi)部排名表現(xiàn)更差。雖然卷積網(wǎng)絡(luò)已經(jīng)取得了一些令人鼓舞的結(jié)果,但與目前使用的評(píng)分函數(shù)相比,他們是否能持續(xù)改進(jìn)結(jié)果還不清楚。 七、化學(xué)信息學(xué)中的基準(zhǔn)數(shù)據(jù)集圖像識(shí)別領(lǐng)域的快速發(fā)展不僅可以歸因于新算法的出現(xiàn),而且可以歸因于典型和大型數(shù)據(jù)集的存在。標(biāo)準(zhǔn)化數(shù)據(jù)集將使社區(qū)能夠方便地對(duì)開(kāi)發(fā)的機(jī)器學(xué)習(xí)方法進(jìn)行基準(zhǔn)測(cè)試或評(píng)估。每年ImageNet大規(guī)模視覺(jué)識(shí)別競(jìng)賽(ILSVRC)已經(jīng)見(jiàn)證了許多有影響力的CNN體系結(jié)構(gòu)的誕生。 雖然有幾個(gè)開(kāi)源的化學(xué)信息學(xué)數(shù)據(jù)集可用,但由于這些數(shù)據(jù)集的規(guī)模有限,缺乏多種分離培訓(xùn)和測(cè)試集的方式,它們對(duì)機(jī)器學(xué)習(xí)方法開(kāi)發(fā)的影響仍然有限,更重要的是,缺乏提議的新算法的標(biāo)準(zhǔn)評(píng)估平臺(tái)。通過(guò)WordNet的啟發(fā)和ImageNet 等人通過(guò)策劃許多不同的集合,包括量子力學(xué)、物理化學(xué)、生物物理學(xué)和生理數(shù)據(jù)集,并開(kāi)發(fā)一套實(shí)現(xiàn)許多已知分子表示和機(jī)器學(xué)習(xí)算法的軟件,推出了MoleculeNet數(shù)據(jù)集。MoleculeNet建立在開(kāi)源軟件包DeepChem上,可以輕松訪問(wèn)DeepChem中現(xiàn)有的一些流行的DL算法。這將在很大程度上促進(jìn)未來(lái)新型機(jī)器學(xué)習(xí)算法的比較和開(kāi)發(fā)。 八、深度學(xué)習(xí)在生物成像分析中的應(yīng)用藥物發(fā)現(xiàn)過(guò)程中,生物成像和圖像分析廣泛應(yīng)用于從臨床前研發(fā)到臨床試驗(yàn)的各個(gè)階段。成像使科學(xué)家能夠看到宿主(人或動(dòng)物)、器官、組織、細(xì)胞和亞細(xì)胞組分的表型和行為。通過(guò)數(shù)字圖像分析,揭示了隱藏的生物學(xué)和病理學(xué)以及藥物作用機(jī)制。成像模式的實(shí)例是熒光標(biāo)記的或未標(biāo)記的顯微圖像、計(jì)算機(jī)斷層掃描(CT)、MRI、正電子發(fā)射斷層掃描(PET)、組織病理學(xué)成像和質(zhì)譜成像(MSI)。DL也在生物圖像分析方面取得成功,許多研究報(bào)告與經(jīng)典分類器相比具有優(yōu)越的性能。 對(duì)于顯微圖像,已使用CNNs對(duì)單個(gè)熒光標(biāo)記細(xì)胞進(jìn)行分割和亞型分型,以及來(lái)自相位縮小顯微鏡的未標(biāo)記圖像。臨床前設(shè)置的其他傳統(tǒng)艱巨任務(wù),如細(xì)胞追蹤和菌落計(jì)數(shù),也可以使用DL自動(dòng)進(jìn)行。由于組織形態(tài)豐富,與熒光標(biāo)記圖像相比,來(lái)自組織病理學(xué)的圖像本質(zhì)上通常是復(fù)雜的。盡管如此,在細(xì)胞水平上,用蘇木精和曙紅(H&E)染色染色的乳腺和結(jié)腸組織可以實(shí)現(xiàn)單個(gè)細(xì)胞的分割和分類。在組織區(qū)域水平,通過(guò)DL鑒定來(lái)自H&E染色的乳房組織的腫瘤區(qū)域,而白細(xì)胞和脂肪組織的額外類別也可以被識(shí)別。除了基本的圖像分割,DL已經(jīng)被用于H&E和免疫組織化學(xué)染色組織的組織病理學(xué)診斷。 DL的應(yīng)用也用于CT、MRI和PET成像的分析。除了圖像分割和分類的流行應(yīng)用外,其實(shí)程序還在基于內(nèi)容的圖像檢索中,并且據(jù)報(bào)道DL方法勝過(guò)了流行的ISOMAP和彈性網(wǎng)方法。 對(duì)于新興的MSI,類似于DL在組織病理學(xué)中的應(yīng)用,腫瘤亞型可以通過(guò)高分辨率基質(zhì)輔助激光解吸/電離(MALDI)MSI進(jìn)行。鑒于MSI可以將組織的代謝信息可視化,已經(jīng)可以通過(guò)DL檢測(cè)到具有解吸電噴霧電離(DESI)MSI 代謝異質(zhì)性的腫瘤的亞區(qū)域。最后,在一個(gè)不尋常的成像領(lǐng)域:流式細(xì)胞術(shù),DL使細(xì)胞分類實(shí)時(shí)用于高通量應(yīng)用。用于成像的DNN訓(xùn)練非常耗時(shí)且需要專門(mén)的GPU處理。此外,在高通量成像篩查的情況下,高質(zhì)量的訓(xùn)練集很少見(jiàn)。 九、未來(lái)藥物發(fā)現(xiàn)深度學(xué)習(xí)的發(fā)展機(jī)器學(xué)習(xí)方法和DL通常需要大數(shù)據(jù)集來(lái)訓(xùn)練;然而,人腦只有幾個(gè)例子才有學(xué)習(xí)的能力。如何只用少量的可用數(shù)據(jù)進(jìn)行學(xué)習(xí)是機(jī)器學(xué)習(xí)中最熱門(mén)的話題之一。利用輔助數(shù)據(jù)改進(jìn)僅有少數(shù)數(shù)據(jù)點(diǎn)的模型的DL示例是匹配網(wǎng)絡(luò),其被提出作為單次學(xué)習(xí)的變體。當(dāng)包括輔助數(shù)據(jù)時(shí)獲得改進(jìn)的結(jié)果。像一次性學(xué)習(xí)這樣的方法與藥物發(fā)現(xiàn)有關(guān),藥物化學(xué)家通常在可用數(shù)據(jù)有限的情況下開(kāi)展新靶點(diǎn)研究。Altae-Tran等在化學(xué)信息學(xué)數(shù)據(jù)集上使用LSTM方法來(lái)構(gòu)建具有非常小的訓(xùn)練集的模型,并且報(bào)告了有希望的結(jié)果。最近,DL在記憶增廣神經(jīng)網(wǎng)絡(luò)中使用了一種新型架構(gòu),用可微分神經(jīng)計(jì)算機(jī)(DNC)顯著改善了這種結(jié)構(gòu)。已經(jīng)將DNCs應(yīng)用于幾個(gè)問(wèn)題,如問(wèn)答系統(tǒng)和查找圖表中的最短路徑。然而,這些更先進(jìn)的架構(gòu)迄今尚未應(yīng)用于藥物研發(fā)。 結(jié)語(yǔ)機(jī)器學(xué)習(xí)自20世紀(jì)90年代后期以來(lái)一直用于藥物研發(fā),并已成為藥物發(fā)現(xiàn)的有用工具。機(jī)器學(xué)習(xí)工具最近的一個(gè)擴(kuò)展是DL;與其他方法相比,DL具有更靈活的架構(gòu),因此可以創(chuàng)建針對(duì)特定問(wèn)題量身定制的NN架構(gòu)。缺點(diǎn)是DL通常需要非常大的訓(xùn)練集。一個(gè)相關(guān)的問(wèn)題是:DL是否優(yōu)于其他機(jī)器學(xué)習(xí)方法?我們認(rèn)為現(xiàn)在得出任何確定的結(jié)論還為時(shí)尚早,迄今為止的結(jié)果表明,DL對(duì)于圖像分析等特定任務(wù)來(lái)說(shuō)是優(yōu)越的,對(duì)于de novo分子設(shè)計(jì)和反應(yīng)預(yù)測(cè)非常有用。對(duì)于具有結(jié)構(gòu)化輸入描述符的任務(wù),DL似乎至少與其他方法一樣。最相關(guān)的例子是生物活性預(yù)測(cè),DL似乎通過(guò)多任務(wù)學(xué)習(xí)實(shí)現(xiàn)了更好的整體表現(xiàn)。但是,其他機(jī)器學(xué)習(xí)方法也在不斷改進(jìn)。因此,實(shí)際上用于生物活性預(yù)測(cè)的方法的選擇可能取決于建模者最熟悉的方法。如果不同的機(jī)器學(xué)習(xí)方法達(dá)到大致相同的精度,那么使用機(jī)器學(xué)習(xí)模型可以實(shí)現(xiàn)的限制可能取決于數(shù)據(jù)和數(shù)據(jù)集大小的實(shí)驗(yàn)不確定性,而不是所使用的具體算法。
Chen H, Engkvist O, Wang Y, et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today, 2018. |
|