編輯整理:Alfred 北京理工大學(xué) 出品平臺(tái):DataFunTalk 導(dǎo)讀:大家好,我是華為云的徐遲,我的研究方向是計(jì)算機(jī)輔助藥物設(shè)計(jì)和新藥研發(fā)。今天跟大家分享一下個(gè)性化聯(lián)邦學(xué)習(xí)助力AI在藥物研發(fā)中的應(yīng)用。 主要圍繞以下幾方面展開:
1. 新藥研發(fā)的意義 新藥研發(fā)的意義是非常大的。目前世界上一共有4500種疾病,其中有90%都是無藥可治的。復(fù)雜性的、突發(fā)性的疾病會(huì)非常嚴(yán)重的損害人們的生命健康,所以研發(fā)新藥是一個(gè)非常剛性的需求。 新藥研發(fā)也是醫(yī)藥產(chǎn)業(yè)發(fā)展的一個(gè)很重要的需求,現(xiàn)在全球的醫(yī)藥產(chǎn)業(yè)的規(guī)模是非常大的,并且是一直在快速增長(zhǎng)的。2019年全球藥品(處方藥)的市場(chǎng)總金額達(dá)到了1.11萬億美金,創(chuàng)新藥大概占了1/3。新美樂累計(jì)銷售額達(dá)到了1500億美金,索菲不韋上市當(dāng)年的銷售額突破了100億美金。 2. 藥物研發(fā)的流程 新藥研發(fā)的流程大概包括藥物發(fā)現(xiàn)、預(yù)臨床研究、臨床研究和審批上市。其本質(zhì)是針對(duì)指定的靶點(diǎn),不斷地設(shè)計(jì)、篩選、優(yōu)化化合物,從成百上千的化合物中挑選出對(duì)靶點(diǎn)有效的一個(gè)化合物,并且滿足對(duì)人體安全性要求。 3. 藥物發(fā)現(xiàn)的挑戰(zhàn)和關(guān)鍵問題 藥物發(fā)現(xiàn)有很多的關(guān)鍵挑戰(zhàn)和問題。新藥研發(fā)的特點(diǎn)可用四個(gè)詞來概括:高風(fēng)險(xiǎn),高投入,高回報(bào)和長(zhǎng)周期。高投入,前面已經(jīng)介紹過了,15年前平均一個(gè)藥上市投入大概是八億美金,五年前達(dá)到了26億美金。據(jù)統(tǒng)計(jì),平均一個(gè)新藥研發(fā)上市大概要12年的時(shí)間。如果從靶點(diǎn)設(shè)計(jì)開始計(jì)算時(shí)間的話,那么它的耗時(shí)會(huì)更加漫長(zhǎng),而且前期的探索內(nèi)容會(huì)很多,一般是由大學(xué)或研究機(jī)構(gòu)來進(jìn)行的,轉(zhuǎn)化慢是研究周期長(zhǎng)的一個(gè)原因。 1. 近年來藥物研發(fā)領(lǐng)域發(fā)生了哪些技術(shù)變革? 近些年藥物研發(fā)領(lǐng)域其實(shí)累積了很多的新技術(shù)。信息技術(shù)的快速發(fā)展使得我們可以更好地收集、整合、分析海量的大數(shù)據(jù)。并且AI技術(shù)使得我們可以快速地深入挖掘這些數(shù)據(jù),所以IT和BT的融合很有可能成為新藥研發(fā)的一個(gè)新范式。AI藥物研發(fā),其實(shí)是一個(gè)非常復(fù)雜的系統(tǒng)工程,它涉及到了物理、化學(xué)、生物以及AI技術(shù)。 2. 人工智能可以加速新藥研發(fā)的多個(gè)環(huán)節(jié) AI技術(shù)包括監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、生成模型、可解釋器和圖計(jì)算等等。麥肯錫公司已經(jīng)預(yù)測(cè)了人工智能的十大發(fā)展趨勢(shì),可以通過AI技術(shù)來快速地獲得低成本的新型藥物和治療方式。每一個(gè)子領(lǐng)域都可以用相關(guān)的AI技術(shù)來進(jìn)行賦能和輔助加速。比如,大分子抗體的優(yōu)化,蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),多組學(xué)的分析和生物標(biāo)記物的發(fā)現(xiàn)等等。 3. 人工智能藥物發(fā)現(xiàn)概念開始得到驗(yàn)證 人工智能藥物研發(fā)這個(gè)概念從2016年就開始被提出來,到2019年的時(shí)候已經(jīng)得到了一些驗(yàn)證?,F(xiàn)在有很多AI公司和藥企達(dá)成了AI合作項(xiàng)目,并且一些藥物已經(jīng)進(jìn)入了臨床。比如,非常有名的InsilicoMedicine應(yīng)用自己的AI平臺(tái)快速發(fā)現(xiàn)了DRY1的候選。從立項(xiàng)到發(fā)現(xiàn)候選藥物只用了46天的時(shí)間,但這個(gè)流程以前往往是要花幾年的時(shí)間。這個(gè)案例也比較顯著地顯示了AI能夠提升藥物研發(fā)的效率。 4. 華為云醫(yī)療智能體AI平臺(tái) 我們團(tuán)隊(duì)主要是做華為云醫(yī)療智能體AI平臺(tái)。這個(gè)平臺(tái)主要是基于華為的Ascend+Kunpeng服務(wù)集群和ModelArts的一站式開發(fā)平臺(tái)和管理。上面我們集成了醫(yī)療領(lǐng)域的更多的算法、工具、模型和一些自動(dòng)化的流水線。我們最終的目的是希望能打造一個(gè)全站、開放和專業(yè)的企業(yè)級(jí)的研發(fā)平臺(tái)。 5. 藥物所&EIHealth合作成果 ① iPhord——從一級(jí)序列預(yù)測(cè)蛋白質(zhì)/抗體3D結(jié)構(gòu) 對(duì)于小分子藥物研發(fā)來說,靶點(diǎn)蛋白的結(jié)構(gòu)是非常重要的。經(jīng)常把靶點(diǎn)蛋白比喻成一把鎖,藥物就像一個(gè)鑰匙。如果這個(gè)鎖的結(jié)構(gòu)不夠清楚的話,那么尋找鑰匙就會(huì)比較困難。比如,新冠病毒就是一個(gè)全新的病毒,在沒有實(shí)驗(yàn)提出新冠病毒相關(guān)靶點(diǎn)的情況下,研究人員其實(shí)很難進(jìn)行相關(guān)業(yè)務(wù)設(shè)計(jì)的。我們和藥物所合作利用開放數(shù)據(jù)庫database里面一些高質(zhì)量的蛋白質(zhì)3D結(jié)構(gòu),通過AI算法以蛋白質(zhì)一級(jí)序列來預(yù)測(cè)它的三級(jí)結(jié)構(gòu),從而預(yù)測(cè)一些未知結(jié)構(gòu)的蛋白質(zhì)3D結(jié)構(gòu)。 今年,谷歌在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上取得了非常好的結(jié)果。但其實(shí)它還是有一些問題沒有解決,比如小分子藥物結(jié)合誘導(dǎo)蛋白質(zhì)構(gòu)象的變化,還有蛋白和蛋白的相互作用。這些可能也會(huì)在后續(xù)的研究中來重點(diǎn)關(guān)注。 ② 藥物重定向預(yù)測(cè)——老藥新用,加速藥物尋求新應(yīng)用 就像前面介紹的一樣,藥物研發(fā)的周期很長(zhǎng),投入很高。所以如果研發(fā)后期發(fā)生失敗的話,代價(jià)是非常高的。但是有一個(gè)比較高效的方法就是老藥新用。因?yàn)橐呀?jīng)上市的藥物,其實(shí)已經(jīng)知道了它的相關(guān)的副作用,并且通過了相關(guān)的安全性評(píng)估,那么在這個(gè)基礎(chǔ)上繼續(xù)去研發(fā)的話,就可以加速藥物研發(fā)的進(jìn)度。比較有名的例子是沙度利安,它是用于多發(fā)性髓瘤的治療。 ③ AutoOmics——快速發(fā)現(xiàn)生物標(biāo)記物,加速臨床研究 和藥物所科學(xué)家一起合作開發(fā)了多組所學(xué)的自動(dòng)建模工具AutoOmics來快速發(fā)現(xiàn)生物標(biāo)記,加速過程床研究。我們提供了一個(gè)新的多模型方法,可以使得AI模型的構(gòu)建和訓(xùn)練自動(dòng)進(jìn)行。 ④ 利用華為云高性能算力,加速藥物篩選 利用計(jì)算機(jī)進(jìn)行藥物篩選來尋找能夠治愈疾病的分子,因?yàn)閷ふ抑委熂膊》肿悠鋵?shí)是科學(xué)家非常關(guān)心的一件事情。根據(jù)靶標(biāo)和小分子的3D結(jié)構(gòu)來計(jì)算病毒蛋白和藥物之間的結(jié)合,從而實(shí)現(xiàn)從海量的小分子里面篩選出與病毒蛋白結(jié)合最緊密的候選藥物,從而快速的為藥物研發(fā)和臨床試驗(yàn)提供一個(gè)方向。我們通過華為的15000核的超大算力,快速地完成了新冠21個(gè)蛋白與8500個(gè)藥物的篩選工作。把篩選時(shí)長(zhǎng)從原來的30天縮短到了一天。這項(xiàng)工作作為ACS期刊的JCIM的封面文章,現(xiàn)在已經(jīng)發(fā)表。 6. 藥物擴(kuò)展空間數(shù)據(jù)集:DrugspaceX 像前面介紹,已知藥物為出發(fā)點(diǎn)的效率是最高的。所以我們根據(jù)現(xiàn)有的藥物活性和天然化合物的結(jié)構(gòu),利用官能團(tuán)的轉(zhuǎn)化得到了一個(gè)規(guī)模在一億左右的化合物庫DrugspaceX。它無論是在新穎性、多樣性還是長(zhǎng)效性上都還是比較好的,這為我們進(jìn)行藥物篩選提供一個(gè)很好的基礎(chǔ)。 7. 面對(duì)疫情 快速啟動(dòng) 應(yīng)急攻關(guān) 去年疫情期間,我們和藥物所在內(nèi)的很多家單位緊密配合,開展了相關(guān)的藥物研發(fā)。一月份的時(shí)候,成立了抗新冠病毒攻關(guān)團(tuán)隊(duì)。二月份我們篩選到了新冠的抗病毒候選小分子。此外,我們還利用華為云針對(duì)新冠蛋白的其他靶點(diǎn),構(gòu)建一個(gè)溝通量的虛擬篩選,除了3CL水解酶以外,還包括木瓜類蛋白酶和RNA酶篩選老藥天然化合物和一些商品化合物。 1. 聯(lián)邦學(xué)習(xí):一種分布式機(jī)器學(xué)習(xí)技術(shù) 聯(lián)邦學(xué)習(xí)是非常有價(jià)值的分布式學(xué)習(xí)的概念。藥物本身作為研發(fā)數(shù)據(jù),它是有非常巨大的價(jià)值的,它本身被視為商業(yè)機(jī)密,所以基本上不太會(huì)共享。聯(lián)邦學(xué)習(xí),作為一種分布式的學(xué)習(xí),就可以很好的打破這種數(shù)據(jù)壁壘,突破藥物的數(shù)據(jù)孤島。 聯(lián)邦學(xué)習(xí)基本的流程是,各個(gè)參與的藥廠公司或研究所從一個(gè)指定的中心服務(wù)器下載一個(gè)空的AI算法,在本地利用自己的數(shù)據(jù)來訓(xùn)練這個(gè)模型,然后把參數(shù)加密以后上傳到中心服務(wù)器進(jìn)行聚合,再反復(fù)迭代。 2. 藥物所&EIHealth合作成果 ① 基于AutoGenome構(gòu)建藥物研發(fā)AI算法 選擇使用藥物結(jié)構(gòu)預(yù)測(cè)水溶性強(qiáng)弱,使用藥物結(jié)構(gòu)預(yù)測(cè)心臟毒性和使用藥物結(jié)構(gòu)預(yù)測(cè)AKT1活性來舉例。首先,中心服務(wù)器下放的空模型是很重要的,必須把空模型的算法做好,之后才可以把這個(gè)模型下放到各個(gè)成員,讓他們不斷更新迭代。所以針對(duì)這個(gè)模型的選型,首先是用自己的算法AutoGenome來構(gòu)建相關(guān)的任務(wù)。上圖中可以看到,我們是在三個(gè)任務(wù)顯示了我們AutoGenome的算法和傳統(tǒng)方法的性能比較。 ② FedAMP——個(gè)性化聯(lián)邦學(xué)習(xí)整合算法 在得到一個(gè)很好的基礎(chǔ)模型以后,算法本身也是很重要的。通常大家基本上是用FedAvg(平均化的聯(lián)邦)。但我們提出了FedAMP(個(gè)性化的聯(lián)邦),因?yàn)橹苯悠椒制骄穆?lián)邦不是特別合理。比如說會(huì)遇到數(shù)據(jù)投毒的問題,或者是每家的數(shù)據(jù)質(zhì)量不一樣,如果有的標(biāo)簽是錯(cuò)誤的話,直接把這個(gè)模型的權(quán)重平均化,就可能會(huì)導(dǎo)致模型的污染。所以個(gè)性化聯(lián)邦首先檢測(cè)每個(gè)產(chǎn)品方的模型權(quán)重,我們會(huì)讓權(quán)重的相似度分布比較接近的貢獻(xiàn)會(huì)更大一些,然后如果他們不那么相似的話,那么參與方之間的模型的貢獻(xiàn)就會(huì)稍小一些。這樣很好地區(qū)分好質(zhì)量和差質(zhì)量,以及正確Label和錯(cuò)誤Label的參與方。在這上圖的幾個(gè)實(shí)際案例里面,我們也發(fā)現(xiàn)FedAMP的性能是優(yōu)于FedAvg的。 3. 藥物聯(lián)邦學(xué)習(xí)服務(wù) 基于華為云ModelArts平臺(tái)發(fā)布了藥物聯(lián)邦學(xué)習(xí)來幫助藥企更方便的使用。利用聯(lián)邦學(xué)習(xí),只要通過簡(jiǎn)單的四步就可以:
4. 大規(guī)模藥物虛擬篩選云服務(wù) 利用云平臺(tái)可以比較方便地進(jìn)行藥物篩選結(jié)構(gòu)的可視化,并且用超大算力很好地提高藥物篩選的效率。這個(gè)工作就是針對(duì)新冠蛋白做的,每一行就是一個(gè)藥物,每列就是一個(gè)蛋白,中間是展示結(jié)合的一個(gè)情況。這是我們的一個(gè)云平臺(tái),大家也可以上傳自己的數(shù)據(jù),進(jìn)行提交篩選的任務(wù)。 Q:安全聚合使用的是什么方式來保護(hù)參與方的模型的參數(shù)? A:因?yàn)閿?shù)據(jù)在客戶本地,相當(dāng)于是模型上傳到中心服務(wù)器之前進(jìn)行相關(guān)的加密操作。 |
|