小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

我覺得AI開發(fā)藥物炒過頭了,無論哈佛還是斯坦福,我用論文說話

 科技行者 2020-10-12

科技行者報道

來源:medium.com

編譯:科技行者

大量投資正涌入人工智能藥物研發(fā)領(lǐng)域。Big Pharma投入巨資,Sanofi和GSK藥物公司也分別與初創(chuàng)人工智能公司Exscientia簽署了價值3億和4200萬美元的藥物研發(fā)協(xié)議。硅谷風(fēng)投公司Andreessen Horowitz成立了價值4.5億美元的生物投資基金,致力于將人工智能應(yīng)用于藥物研發(fā)。

投資熱潮空前高漲,眾多制藥或生物科技公司及投資者舉棋不定:2018年加入投資大軍,還是伺機(jī)觀察。

筆者認(rèn)為投資需謹(jǐn)慎。坦白講,人工智能研究團(tuán)隊(duì)經(jīng)??浯笃溲邪l(fā)成果,炒作行為十分普遍。

為證實(shí)這一觀點(diǎn),我考察了big Pharma(藥物設(shè)備公司),AstraZeneca公司, Harvard和Stanford大學(xué)以及初創(chuàng)智能公司Insilico Medicine近期開展的各項(xiàng)研究,這些實(shí)驗(yàn)室極具聲望,研究也涉及其他領(lǐng)域。

其他公司的情況也不容樂觀。例如,IBM Watson過度炒作其專利人工智能平臺。這一詭計幫助其逃避了公眾譴責(zé),在現(xiàn)實(shí)面前仍然不堪一擊。

然而,并不意味應(yīng)全盤否定人工智能。藥物研發(fā)屬于創(chuàng)新領(lǐng)域,需緊跟時代潮流?!暗谝粋€吃螃蟹”的公司會獲得巨大的競爭優(yōu)勢,可取的折中方案是快速且謹(jǐn)慎地采取行動,需同時聘請非專業(yè)人員。

制藥公司可點(diǎn)擊此處鏈接http://www./,咨詢Startcrowd獲取非專業(yè)服務(wù)。Startcrowd云平臺是家聚集了眾多人工智能專家和愛好者,擬提供的獨(dú)立的非專業(yè)服務(wù)。各大公司可從網(wǎng)上教育中的佼佼者中挖掘人才,Startcrowd也因此避免了制藥業(yè)的利益沖突。

此種非專業(yè)服務(wù)有助于人們對機(jī)器輔助方法重拾信心。制藥業(yè)行家都知道,20世紀(jì)80年代制藥業(yè)曾出現(xiàn)“史詩級”失敗。大型制藥公司未能兌現(xiàn)工業(yè)4.0制藥智能化的承諾。

圖為1981年《財富》雜志封面

筆者認(rèn)為2018年這種情況將大有改觀。一方面,人工智能發(fā)展突飛猛進(jìn);另一方面,網(wǎng)上教育和社交媒體等新興力量崛起,工業(yè)愈發(fā)受到制衡,研發(fā)組織有望進(jìn)一步發(fā)展。同行審查機(jī)制也愈發(fā)開放,打擊了虛假炒作。而Startcrowd的目的就是加快這一進(jìn)程。

接下來談?wù)劶夹g(shù)問題,以近期的人工智能炒作為例。

本篇論文(https:///abs/1701.01329)中,AstraZeneca研究團(tuán)隊(duì)(聯(lián)手其他團(tuán)隊(duì))試圖借助循環(huán)神經(jīng)網(wǎng)絡(luò)和增強(qiáng)學(xué)習(xí)等技術(shù)制造新型分子。這一論題至關(guān)重要,因?yàn)槿斯ぶ悄芪ㄓ袑?shí)現(xiàn)制造工藝的多樣性,才具備創(chuàng)新價值。

這篇文章之所以引起我的注意,是因?yàn)槠浯笃u估這一模型,似乎頗有深度。文章介紹了基于谷本相似度(Tanimoto-similarity)與編輯距離(Levenshtein distance)的各種度量指標(biāo),借助柱狀圖、小提琴圖和t-SNE(流體學(xué)習(xí)方法),進(jìn)行了大量可視化處理。

然而,文章中的所有測量都圍繞獨(dú)立的人工智能分子與天然分子展開,卻忽略了人工智能分子間的距離,造成了多樣性的假象:人工智能分子與天然分子的遠(yuǎn)距離會讓人們誤以為AI具有創(chuàng)造性,并認(rèn)為AI探索了化學(xué)界的新領(lǐng)域,得到了如圖所示的成果:

真正的多樣性:人工智能分子(藍(lán))與天然分子(紅)

然而,如果人工智能分子間距離很小,則表示該模型生成的大量分子全部位于同一位置,毫無多樣性可言。實(shí)際情況如圖所示:

多樣性假象:人工智能分子(藍(lán))與天然分子(紅)確實(shí)不同,但各人工智能分子幾近相同

簡言之,AstraZeneca發(fā)表的這篇文章刻意回避了要害問題。且在近期的兩篇論文(https:///abs/1704.07555,https:///abs/1711.07839)也未解決該問題。

圖:棘手的要害問題

如想了解更多技術(shù)討論,請見本論文6-7頁(https://drive.google.com/file/d/1K7YxMUMEKLoCsFIE9GtCZbanhq6FXb6G/view)

哈佛大學(xué)某研究小組曾考察上述人工智能生成的分子樣品,也發(fā)現(xiàn)其缺乏多樣性。該小組試圖糾正錯誤,并提出ORGAN模型,見這兩篇論文:https:///abs/1705.10843,https:///articles/ORGANIC_1_pdf/5309668/3。

該小組旨在建立名為“discriminator(鑒別器)”的另一神經(jīng)網(wǎng)絡(luò)鑒別生成物,否定反常的分子產(chǎn)物,從而生成多種化學(xué)產(chǎn)物,實(shí)現(xiàn)化學(xué)現(xiàn)實(shí)主義。該設(shè)計靈感來源于人工智能領(lǐng)域的一個熱議概念,即生成式對抗網(wǎng)絡(luò)(GAN)。 

哈佛大學(xué)的設(shè)計很有趣,但評估方案卻很糟糕。他們宣稱ORGAN模型要比AstraZeneca的模型好得多,但評估依據(jù)僅憑自身觀察,沒有任何量化支持(見這篇論文第三頁https:///abs/1705.10843)。盡管開展了定量實(shí)驗(yàn),也無法證明其結(jié)論。

這也算是意料之中,因?yàn)楣鸫髮W(xué)研究小組與AstraZeneca一樣,只比較了人工智能分子與天然分子間的距離,而避開比較人工智能分子彼此間的距離。

此外,哈佛大學(xué)研究小組的模型訓(xùn)練方法也存在漏洞。查看其訓(xùn)練記錄(他們公開訓(xùn)練記錄的做法值得贊揚(yáng))后便一目了然。該小組的鑒別器否定產(chǎn)物的標(biāo)準(zhǔn)十分嚴(yán)苛,過分追求完美,也基本上抵消了GAN的實(shí)用價值。

理由可能為,該研究小組的“完美”鑒別器來自SeqGAN論文,該篇論文闡述了建立ORGAN模型。然而,這只是推測,因?yàn)镾eqGAN團(tuán)隊(duì)與ORGAN團(tuán)隊(duì)不同,未將訓(xùn)練日志公布于眾,也就無人重復(fù)他們的實(shí)驗(yàn)。

更多技術(shù)討論可見本篇文章5-6頁。筆者將該文章推送給了ORGAN團(tuán)隊(duì)負(fù)責(zé)人Alan Aspuru-Guzik。他回答說:

我仍然在等待正式回應(yīng)。

斯坦福大學(xué)的一支大型研究團(tuán)隊(duì)旨在將人工智能和深入學(xué)習(xí)應(yīng)用于化學(xué)領(lǐng)域。團(tuán)隊(duì)負(fù)責(zé)人Vijay Pande也是Andreessen Horowitz的創(chuàng)業(yè)投資人,共同管理該公司4.5億美元規(guī)模的生物基金。他們的王牌項(xiàng)目是分子網(wǎng)絡(luò)(MoleculeNet),這是一個“測試分子性質(zhì)機(jī)器學(xué)習(xí)方法而特別設(shè)計的標(biāo)準(zhǔn)檢查程序”,程序設(shè)計非常嚴(yán)格,含諸多化合物、圖表以及深度學(xué)習(xí)模型。特別是,該項(xiàng)目主要用于檢查graph-CNN和其他由斯坦福研究團(tuán)隊(duì)開發(fā)的用于特定化學(xué)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)。

然而,Pande團(tuán)隊(duì)也忽略了一個明顯的要害問題,即未將其數(shù)據(jù)插入字符級卷積神經(jīng)網(wǎng)絡(luò)(character-level Convolutional Neural Network,簡稱char-CNN)。2015年以來,Char-CNN經(jīng)常用于AI領(lǐng)域的文本處理,比Char-CNN更簡單。插入SMILES字符串,即可使用Char-CNN。

他們?yōu)槭裁匆苊馊绱撕唵蔚娜蝿?wù)?其論文(https:///abs/1703.00564)第17頁中提到:

“Recent work has demonstrated the ability to learn useful representations from SMILES strings using more sophisticated methods, so it may be feasible to use SMILES strings for further learning tasks in the near future.”

“近期工作成果表明,可使用更復(fù)雜的方法,從SMILES字符串中學(xué)習(xí)有用的表示,所以不久的將來,可將SMILES字符串用于更復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)。

坦白講,我很懷疑斯坦福大學(xué)團(tuán)隊(duì)能否實(shí)現(xiàn)對其如此復(fù)雜的char-CNN。他們甚至在另一篇論文(https:///abs/1706.01643)中也使用了char-CNN。合理但又有失顏面的理由是,他們擔(dān)心或許char-CNN勝于其研發(fā)的模型。這意味著其傾心的graph-CNN模型將會被自己研發(fā)的MoleculeNet檢查程序駁回,有悖于團(tuán)隊(duì)議程。

該團(tuán)隊(duì)的議程是什么?MoleculeNet模型與采用該模型的DeepChem庫密切相關(guān)。DeepChem是由斯坦福大學(xué)指導(dǎo)設(shè)計的開源庫。如果char-CNN比graph-CNN更好,那么就無需使用DeepChem。因?yàn)槿粝虢⑾冗M(jìn)模型,僅需使用簡單的TensorFlow或PyTorch。2018年,開源框架就是戰(zhàn)略資產(chǎn)。例如,谷歌借助開源Android占領(lǐng)了移動操作系統(tǒng)市場。DeepChem也試圖占領(lǐng)AI藥物研發(fā)市場,這或許就是MoleculeNet模型故意“忽略”char-CNN的原因。

DeepChem的使用體驗(yàn)進(jìn)一步驗(yàn)證了我的猜想。我曾嘗試在項(xiàng)目中使用DeepChem,卻發(fā)現(xiàn)不能混用DeepChem模型和非DeepChem模型。然而,混用DeepChem鑒別器和非DeepChem生成器十分有利于對抗訓(xùn)練。但我僅能使用DeepChem代碼,此等霸王條款完全出乎我的意料。為擺脫桎梏,實(shí)現(xiàn)開源DeepChem,我不得不破解其復(fù)雜代碼(破解版DeepChem的鏈接在此https://github.com/mostafachatillon/deepchem)。多虧項(xiàng)目并非十分復(fù)雜,不然很難做到這一點(diǎn)。所以我認(rèn)為,DeepChem想要采用封閉的技術(shù)策略占領(lǐng)AI的化學(xué)應(yīng)用領(lǐng)域。鑒此,DeepChem與Marc Andreessen投資合作便不足為奇。

圖:DeepChem和Andreessen Horowitz擬采用封閉技術(shù)使占領(lǐng)AI化學(xué)市場。

MoleculeNet團(tuán)隊(duì)成員雖未對char-CNN進(jìn)行基準(zhǔn)測試,但卻為MoleculeNet和DeepChem設(shè)計精致的登陸頁面,這表明他們會優(yōu)先考慮PR,而非科學(xué)。這是硅谷典型的戰(zhàn)略,創(chuàng)業(yè)公司設(shè)計模擬產(chǎn)品來吸引流量,然后依靠研究團(tuán)隊(duì)建立真實(shí)產(chǎn)品。

圖:硅谷深知門面比實(shí)力更有用

在生成模型領(lǐng)域,Insilico Medicine是眾多AI創(chuàng)業(yè)公司中的先驅(qū)。本論文(http://pubs./doi/abs/10.1021/acs.molpharmaceut.7b00346中(可使用Sci-Hub破解付費(fèi)門檻),Alex Zhavoronkov及其團(tuán)隊(duì)提出了一種先進(jìn)的“生成對抗自編碼器模型”,即 DruGAN。我一直懷疑這一模型的先進(jìn)之處。

滿足藥物研發(fā)需求方面,它不夠先進(jìn)。其缺陷與其他生成模型相同,可能會導(dǎo)致失敗。

此外,相較于先前使用了更復(fù)雜工具的文獻(xiàn)而言,它也不先進(jìn)。Alex Zhavoronkov在其文中第9-10頁有所提及,但未引用:

本研究使用的MACCS分子指紋并非分子結(jié)構(gòu)的理想表達(dá)。SMILES(文章地址:https:///abs/1610.02415)、InChI及分子圖(文章地址:https:///abs/1603.00856)。此外,更多其他化學(xué)和生物相關(guān)的分子結(jié)構(gòu)表達(dá)或可作為更好的模型訓(xùn)練方法。

該團(tuán)隊(duì)用于基準(zhǔn)測試的變分自動編碼器(VAE)也并不先進(jìn)。文章中提及,DruGAN比VAE更先進(jìn)。但Github上的一位DruGAN設(shè)計者卻不這么認(rèn)為:

實(shí)際上,我們未像AAE(DruGAN)那樣調(diào)整VAE網(wǎng)絡(luò),所以這種比較不公平。我認(rèn)為可以引入VAE,超越AAE。

因此,我認(rèn)為,DruGAN僅比其8個月前發(fā)表的文章中模型先進(jìn)一些。整篇文章反復(fù)提及他們對之前工作所做的改進(jìn),所以所謂的“先進(jìn)”也只是一種自我進(jìn)步。

結(jié)論

總之,許多AI藥物研發(fā)人員都過分炒作其研究成果和發(fā)現(xiàn)。為進(jìn)一步消除AI炒作現(xiàn)象,引入強(qiáng)大的反專業(yè)服務(wù)至關(guān)重要。Startcrowd可提供類似服務(wù)。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多