科技行者報道 來源:medium.com 編譯:科技行者
為證實(shí)這一觀點(diǎn),我考察了big Pharma(藥物設(shè)備公司),AstraZeneca公司, Harvard和Stanford大學(xué)以及初創(chuàng)智能公司Insilico Medicine近期開展的各項(xiàng)研究,這些實(shí)驗(yàn)室極具聲望,研究也涉及其他領(lǐng)域。 其他公司的情況也不容樂觀。例如,IBM Watson過度炒作其專利人工智能平臺。這一詭計幫助其逃避了公眾譴責(zé),在現(xiàn)實(shí)面前仍然不堪一擊。 然而,并不意味應(yīng)全盤否定人工智能。藥物研發(fā)屬于創(chuàng)新領(lǐng)域,需緊跟時代潮流?!暗谝粋€吃螃蟹”的公司會獲得巨大的競爭優(yōu)勢,可取的折中方案是快速且謹(jǐn)慎地采取行動,需同時聘請非專業(yè)人員。 制藥公司可點(diǎn)擊此處鏈接http://www./,咨詢Startcrowd獲取非專業(yè)服務(wù)。Startcrowd云平臺是家聚集了眾多人工智能專家和愛好者,擬提供的獨(dú)立的非專業(yè)服務(wù)。各大公司可從網(wǎng)上教育中的佼佼者中挖掘人才,Startcrowd也因此避免了制藥業(yè)的利益沖突。 此種非專業(yè)服務(wù)有助于人們對機(jī)器輔助方法重拾信心。制藥業(yè)行家都知道,20世紀(jì)80年代制藥業(yè)曾出現(xiàn)“史詩級”失敗。大型制藥公司未能兌現(xiàn)工業(yè)4.0制藥智能化的承諾。 圖為1981年《財富》雜志封面 筆者認(rèn)為2018年這種情況將大有改觀。一方面,人工智能發(fā)展突飛猛進(jìn);另一方面,網(wǎng)上教育和社交媒體等新興力量崛起,工業(yè)愈發(fā)受到制衡,研發(fā)組織有望進(jìn)一步發(fā)展。同行審查機(jī)制也愈發(fā)開放,打擊了虛假炒作。而Startcrowd的目的就是加快這一進(jìn)程。 接下來談?wù)劶夹g(shù)問題,以近期的人工智能炒作為例。 本篇論文(https:///abs/1701.01329)中,AstraZeneca研究團(tuán)隊(duì)(聯(lián)手其他團(tuán)隊(duì))試圖借助循環(huán)神經(jīng)網(wǎng)絡(luò)和增強(qiáng)學(xué)習(xí)等技術(shù)制造新型分子。這一論題至關(guān)重要,因?yàn)槿斯ぶ悄芪ㄓ袑?shí)現(xiàn)制造工藝的多樣性,才具備創(chuàng)新價值。 這篇文章之所以引起我的注意,是因?yàn)槠浯笃u估這一模型,似乎頗有深度。文章介紹了基于谷本相似度(Tanimoto-similarity)與編輯距離(Levenshtein distance)的各種度量指標(biāo),借助柱狀圖、小提琴圖和t-SNE(流體學(xué)習(xí)方法),進(jìn)行了大量可視化處理。 然而,文章中的所有測量都圍繞獨(dú)立的人工智能分子與天然分子展開,卻忽略了人工智能分子間的距離,造成了多樣性的假象:人工智能分子與天然分子的遠(yuǎn)距離會讓人們誤以為AI具有創(chuàng)造性,并認(rèn)為AI探索了化學(xué)界的新領(lǐng)域,得到了如圖所示的成果: 真正的多樣性:人工智能分子(藍(lán))與天然分子(紅) 然而,如果人工智能分子間距離很小,則表示該模型生成的大量分子全部位于同一位置,毫無多樣性可言。實(shí)際情況如圖所示: 多樣性假象:人工智能分子(藍(lán))與天然分子(紅)確實(shí)不同,但各人工智能分子幾近相同 簡言之,AstraZeneca發(fā)表的這篇文章刻意回避了要害問題。且在近期的兩篇論文(https:///abs/1704.07555,https:///abs/1711.07839)也未解決該問題。 圖:棘手的要害問題 如想了解更多技術(shù)討論,請見本論文6-7頁(https://drive.google.com/file/d/1K7YxMUMEKLoCsFIE9GtCZbanhq6FXb6G/view) 哈佛大學(xué)某研究小組曾考察上述人工智能生成的分子樣品,也發(fā)現(xiàn)其缺乏多樣性。該小組試圖糾正錯誤,并提出ORGAN模型,見這兩篇論文:https:///abs/1705.10843,https:///articles/ORGANIC_1_pdf/5309668/3。 該小組旨在建立名為“discriminator(鑒別器)”的另一神經(jīng)網(wǎng)絡(luò)鑒別生成物,否定反常的分子產(chǎn)物,從而生成多種化學(xué)產(chǎn)物,實(shí)現(xiàn)化學(xué)現(xiàn)實(shí)主義。該設(shè)計靈感來源于人工智能領(lǐng)域的一個熱議概念,即生成式對抗網(wǎng)絡(luò)(GAN)。 哈佛大學(xué)的設(shè)計很有趣,但評估方案卻很糟糕。他們宣稱ORGAN模型要比AstraZeneca的模型好得多,但評估依據(jù)僅憑自身觀察,沒有任何量化支持(見這篇論文第三頁https:///abs/1705.10843)。盡管開展了定量實(shí)驗(yàn),也無法證明其結(jié)論。 這也算是意料之中,因?yàn)楣鸫髮W(xué)研究小組與AstraZeneca一樣,只比較了人工智能分子與天然分子間的距離,而避開比較人工智能分子彼此間的距離。 此外,哈佛大學(xué)研究小組的模型訓(xùn)練方法也存在漏洞。查看其訓(xùn)練記錄(他們公開訓(xùn)練記錄的做法值得贊揚(yáng))后便一目了然。該小組的鑒別器否定產(chǎn)物的標(biāo)準(zhǔn)十分嚴(yán)苛,過分追求完美,也基本上抵消了GAN的實(shí)用價值。 理由可能為,該研究小組的“完美”鑒別器來自SeqGAN論文,該篇論文闡述了建立ORGAN模型。然而,這只是推測,因?yàn)镾eqGAN團(tuán)隊(duì)與ORGAN團(tuán)隊(duì)不同,未將訓(xùn)練日志公布于眾,也就無人重復(fù)他們的實(shí)驗(yàn)。 更多技術(shù)討論可見本篇文章5-6頁。筆者將該文章推送給了ORGAN團(tuán)隊(duì)負(fù)責(zé)人Alan Aspuru-Guzik。他回答說: 我仍然在等待正式回應(yīng)。 斯坦福大學(xué)的一支大型研究團(tuán)隊(duì)旨在將人工智能和深入學(xué)習(xí)應(yīng)用于化學(xué)領(lǐng)域。團(tuán)隊(duì)負(fù)責(zé)人Vijay Pande也是Andreessen Horowitz的創(chuàng)業(yè)投資人,共同管理該公司4.5億美元規(guī)模的生物基金。他們的王牌項(xiàng)目是分子網(wǎng)絡(luò)(MoleculeNet),這是一個“測試分子性質(zhì)機(jī)器學(xué)習(xí)方法而特別設(shè)計的標(biāo)準(zhǔn)檢查程序”,程序設(shè)計非常嚴(yán)格,含諸多化合物、圖表以及深度學(xué)習(xí)模型。特別是,該項(xiàng)目主要用于檢查graph-CNN和其他由斯坦福研究團(tuán)隊(duì)開發(fā)的用于特定化學(xué)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)。 然而,Pande團(tuán)隊(duì)也忽略了一個明顯的要害問題,即未將其數(shù)據(jù)插入字符級卷積神經(jīng)網(wǎng)絡(luò)(character-level Convolutional Neural Network,簡稱char-CNN)。2015年以來,Char-CNN經(jīng)常用于AI領(lǐng)域的文本處理,比Char-CNN更簡單。插入SMILES字符串,即可使用Char-CNN。 他們?yōu)槭裁匆苊馊绱撕唵蔚娜蝿?wù)?其論文(https:///abs/1703.00564)第17頁中提到:
坦白講,我很懷疑斯坦福大學(xué)團(tuán)隊(duì)能否實(shí)現(xiàn)對其如此復(fù)雜的char-CNN。他們甚至在另一篇論文(https:///abs/1706.01643)中也使用了char-CNN。合理但又有失顏面的理由是,他們擔(dān)心或許char-CNN勝于其研發(fā)的模型。這意味著其傾心的graph-CNN模型將會被自己研發(fā)的MoleculeNet檢查程序駁回,有悖于團(tuán)隊(duì)議程。 該團(tuán)隊(duì)的議程是什么?MoleculeNet模型與采用該模型的DeepChem庫密切相關(guān)。DeepChem是由斯坦福大學(xué)指導(dǎo)設(shè)計的開源庫。如果char-CNN比graph-CNN更好,那么就無需使用DeepChem。因?yàn)槿粝虢⑾冗M(jìn)模型,僅需使用簡單的TensorFlow或PyTorch。2018年,開源框架就是戰(zhàn)略資產(chǎn)。例如,谷歌借助開源Android占領(lǐng)了移動操作系統(tǒng)市場。DeepChem也試圖占領(lǐng)AI藥物研發(fā)市場,這或許就是MoleculeNet模型故意“忽略”char-CNN的原因。 DeepChem的使用體驗(yàn)進(jìn)一步驗(yàn)證了我的猜想。我曾嘗試在項(xiàng)目中使用DeepChem,卻發(fā)現(xiàn)不能混用DeepChem模型和非DeepChem模型。然而,混用DeepChem鑒別器和非DeepChem生成器十分有利于對抗訓(xùn)練。但我僅能使用DeepChem代碼,此等霸王條款完全出乎我的意料。為擺脫桎梏,實(shí)現(xiàn)開源DeepChem,我不得不破解其復(fù)雜代碼(破解版DeepChem的鏈接在此https://github.com/mostafachatillon/deepchem)。多虧項(xiàng)目并非十分復(fù)雜,不然很難做到這一點(diǎn)。所以我認(rèn)為,DeepChem想要采用封閉的技術(shù)策略占領(lǐng)AI的化學(xué)應(yīng)用領(lǐng)域。鑒此,DeepChem與Marc Andreessen投資合作便不足為奇。 圖:DeepChem和Andreessen Horowitz擬采用封閉技術(shù)使占領(lǐng)AI化學(xué)市場。 MoleculeNet團(tuán)隊(duì)成員雖未對char-CNN進(jìn)行基準(zhǔn)測試,但卻為MoleculeNet和DeepChem設(shè)計精致的登陸頁面,這表明他們會優(yōu)先考慮PR,而非科學(xué)。這是硅谷典型的戰(zhàn)略,創(chuàng)業(yè)公司設(shè)計模擬產(chǎn)品來吸引流量,然后依靠研究團(tuán)隊(duì)建立真實(shí)產(chǎn)品。 圖:硅谷深知門面比實(shí)力更有用 在生成模型領(lǐng)域,Insilico Medicine是眾多AI創(chuàng)業(yè)公司中的先驅(qū)。本論文(http://pubs./doi/abs/10.1021/acs.molpharmaceut.7b00346)中(可使用Sci-Hub破解付費(fèi)門檻),Alex Zhavoronkov及其團(tuán)隊(duì)提出了一種先進(jìn)的“生成對抗自編碼器模型”,即 DruGAN。我一直懷疑這一模型的先進(jìn)之處。 滿足藥物研發(fā)需求方面,它不夠先進(jìn)。其缺陷與其他生成模型相同,可能會導(dǎo)致失敗。 此外,相較于先前使用了更復(fù)雜工具的文獻(xiàn)而言,它也不先進(jìn)。Alex Zhavoronkov在其文中第9-10頁有所提及,但未引用:
該團(tuán)隊(duì)用于基準(zhǔn)測試的變分自動編碼器(VAE)也并不先進(jìn)。文章中提及,DruGAN比VAE更先進(jìn)。但Github上的一位DruGAN設(shè)計者卻不這么認(rèn)為:
因此,我認(rèn)為,DruGAN僅比其8個月前發(fā)表的文章中模型先進(jìn)一些。整篇文章反復(fù)提及他們對之前工作所做的改進(jìn),所以所謂的“先進(jìn)”也只是一種自我進(jìn)步。 結(jié)論 總之,許多AI藥物研發(fā)人員都過分炒作其研究成果和發(fā)現(xiàn)。為進(jìn)一步消除AI炒作現(xiàn)象,引入強(qiáng)大的反專業(yè)服務(wù)至關(guān)重要。Startcrowd可提供類似服務(wù)。 |
|