【原】科學(xué)家發(fā)出警告：AI可在6小時(shí)內(nèi)提出40000種潛在新化學(xué)武器

學(xué)術(shù)頭條 2022-03-25

展開全文

撰文：青蘋果

科學(xué)論文通常是事無巨細(xì)的典范。作者團(tuán)隊(duì)往往有責(zé)任披露一切方便他人復(fù)現(xiàn)他們的發(fā)現(xiàn)所需要的信息。

但這項(xiàng)研究是個(gè)例外。

最近一篇發(fā)表在 Nature 子刊 Nature Machine Intelligence 上的論文《人工智能驅(qū)動(dòng)的藥物發(fā)現(xiàn)的雙重用途》（Dual - use of artificial Intelligence -powered drug discovery）顯然把它的作者嚇壞了。這體現(xiàn)在文本的基調(diào)和沒有透露關(guān)鍵信息上。

一次可能性驗(yàn)證

2021 年，總部位于美國(guó)北卡羅來納州羅利的 Collaborations Pharmaceuticals 公司受邀發(fā)表了一篇關(guān)于“藥物發(fā)現(xiàn)技術(shù)可能被濫用“的論文。該公司利用計(jì)算機(jī)幫助客戶識(shí)別看似潛在藥物的分子。地點(diǎn)是瑞士斯皮茲實(shí)驗(yàn)室組織的一次會(huì)議。

這是一個(gè)由瑞士政府設(shè)立的“融合”系列會(huì)議，以確定可能對(duì)《禁止化學(xué)武器公約》和《禁止生物武器公約》產(chǎn)生影響的技術(shù)發(fā)展。會(huì)議每?jī)赡昱e行一次，匯集了一批國(guó)際科學(xué)和裁軍專家小組，探討化學(xué)和生物領(lǐng)域的最新技術(shù)現(xiàn)狀及其發(fā)展軌跡，思考潛在的安全影響，并考慮如何最有效地在國(guó)際上處理這些影響。

為了準(zhǔn)備這次演講，collaboration 公司的一些研究人員進(jìn)行了一項(xiàng)他們稱之為“思考實(shí)驗(yàn)”的活動(dòng)，通過計(jì)算證明了制造生化武器的概念。

在這個(gè)瑞士會(huì)議上，Collaborations Pharmaceuticals 公司決定探索如何使用 AI 來設(shè)計(jì)有毒分子。該公司之前設(shè)計(jì)了一種名為 MegaSyn 的藥物分子生成模型，借助機(jī)器學(xué)習(xí)模型預(yù)測(cè)生物活性，尋找人類疾病靶點(diǎn)的新治療抑制劑。這種生成模型通常會(huì)懲罰預(yù)測(cè)的毒性并獎(jiǎng)勵(lì)預(yù)測(cè)的目標(biāo)活動(dòng)。

在新的實(shí)驗(yàn)中，他們進(jìn)行了調(diào)整，讓模型同時(shí)獎(jiǎng)勵(lì)毒性和生物活性，并使用來自公共數(shù)據(jù)庫(kù)的分子對(duì)模型進(jìn)行訓(xùn)練。

他們的方法和結(jié)果簡(jiǎn)單得令人不安：通過對(duì)從公開數(shù)據(jù)庫(kù)中提取的一組類藥分子（定義為易于合成并容易被身體吸收的物質(zhì)）的化學(xué)結(jié)構(gòu)以及這些分子的已知毒性進(jìn)行訓(xùn)練，修改后的軟件不到六個(gè)小時(shí)就能發(fā)現(xiàn)四萬個(gè)潛在的致命分子。這些分子符合研究人員預(yù)定義的參數(shù)，可能用作化學(xué)武器。

The Verge 采訪了該論文的第一作者 Fabio Urbina，Urbina 是 Collaborations Pharmaceuticals 藥物發(fā)現(xiàn)公司的高級(jí)科學(xué)家，就藥物研發(fā)中的AI技術(shù)可能被濫用的問題展開了演講。

研究團(tuán)隊(duì)以前從未有過這種想法，他們也模糊地意識(shí)到與病原體或有毒化學(xué)品工作的安全問題。Urbina 的工作植根于為治療和毒性靶點(diǎn)建立 ML 模型，并非是制造病毒，而是以更好地協(xié)助藥物發(fā)現(xiàn)新分子的設(shè)計(jì)，利用 ML 模型對(duì)新生產(chǎn)藥物的毒性進(jìn)行預(yù)測(cè)。

這就像是，有一種奇妙的藥物可以神奇的降低血壓，但它的副作用卻是擊穿心臟通道，那么，這種藥觸碰了禁區(qū)，是不可能上市的，因?yàn)檫@太危險(xiǎn)了。

幾十年來，團(tuán)隊(duì)一直在借助計(jì)算機(jī)和 AI 來改善人類健康。換句話說，無論試圖開發(fā)哪種藥物，首先得需要確保它們不會(huì)有毒。

最近，該公司發(fā)布了很多用于不同領(lǐng)域毒性預(yù)測(cè)的計(jì)算 ML 模型，并且 Urbina 在會(huì)議演講時(shí)，選擇翻轉(zhuǎn)開關(guān)，真正的走向毒性，探索如何使用 AI 來設(shè)計(jì)有毒分子。

這是團(tuán)隊(duì)前所未有的一次思想練習(xí)，最終演變成了制造生化武器的計(jì)算概念證明。

Urbina 在對(duì)一些細(xì)節(jié)的描述上有點(diǎn)模糊不清，刻意的隱瞞了某些細(xì)節(jié)，以防止被加以利用。

簡(jiǎn)單來說，整個(gè)實(shí)驗(yàn)的大體工作流程就是，借助研發(fā)歷史中已有的分子數(shù)據(jù)集作為預(yù)測(cè)標(biāo)簽，因?yàn)檫@些分子已經(jīng)經(jīng)過測(cè)試是否含有毒性了。

需要注意的是，團(tuán)隊(duì)重點(diǎn)關(guān)注的是 VX。

那 VX 究竟是什么呢？

嚴(yán)格意義上說，它是一種被歸類為神經(jīng)毒劑的人造化學(xué)戰(zhàn)劑。而神經(jīng)毒劑是已知化學(xué)戰(zhàn)劑中毒性最強(qiáng)、作用最迅速的。具體而言，VX 就是所謂的乙酰膽堿酯酶的抑制劑。每當(dāng)你做任何與肌肉有關(guān)的事情時(shí)，神經(jīng)元都會(huì)使用乙酰膽堿酯酶作為信號(hào)，鼓勵(lì)你“去活動(dòng)你的肌肉”。這正是 VX 的致命之處，它實(shí)際上阻止了你的橫隔膜，也就是影響你肺肌肉的運(yùn)動(dòng)，從而導(dǎo)致你的肺部變得麻痹，無法呼吸，甚至癱瘓。

顯然，這是人們想要避免的。因此，從歷史上看，已經(jīng)對(duì)不同類型的分子進(jìn)行了實(shí)驗(yàn)，以查看它們是否抑制乙酰膽堿酯酶。于是，Urbina 建立了這些分子結(jié)構(gòu)及其毒性的大型數(shù)據(jù)集。

然后，團(tuán)隊(duì)便可以利用這些數(shù)據(jù)集來創(chuàng)建一個(gè) ML 模型，該模型基本上可以分辨分子結(jié)構(gòu)的哪些部分對(duì)毒性很重要，哪些部分對(duì)其不重要。然后，便可以給該 ML 模型提供新的分子，可能是先前從未測(cè)試過的新藥物。隨后，它的判斷結(jié)果會(huì)告訴我們哪些藥物被預(yù)測(cè)為有毒，或者預(yù)測(cè)為無毒。

正是上述方法，有效地提高了研究人員對(duì)藥物的篩選速度，即他們可以非常迅速的篩選出大量的分子，并剔除那些被預(yù)測(cè)有毒的分子。

然而，在團(tuán)隊(duì)的這項(xiàng)研究中，正好顛倒了這一點(diǎn)。顯然，團(tuán)隊(duì)試圖采用該模型達(dá)到的目的是預(yù)測(cè)毒性。

此外，另一個(gè)關(guān)鍵的部分是這些新的生成模型。團(tuán)隊(duì)可以通過給生成模型輸入一些完全不同的結(jié)構(gòu)，它可以學(xué)習(xí)如何將分子放在一起。然后，從某種意義上說，便可以要求它產(chǎn)生新的分子。此時(shí)，生成模型可以在整個(gè)化學(xué)空間中產(chǎn)生新的分子，但也只是一些隨機(jī)分子，沒有實(shí)質(zhì)性的意義。但是研究人員可以做的一件事是，告訴生成模型所期望的走向。

當(dāng)然，通過設(shè)計(jì)一個(gè)評(píng)分函數(shù)就可以實(shí)現(xiàn)這點(diǎn)，如果它生成的分子是研究人員所期望的，就給它打一個(gè)高分。以生成毒劑為例，就是要給有毒分子打高分。

實(shí)驗(yàn)結(jié)果可以看到模型開始生成的這些分子，其中許多看起來像 VX，也像其他的一些化學(xué)劑。

Urbina 表示，其實(shí)整個(gè)團(tuán)隊(duì)真的不確定會(huì)得到什么。因?yàn)樯赡Ｐ拖鄬?duì)來說還是比較新的技術(shù)，目前也沒有對(duì)生成模型進(jìn)行廣泛使用。

但一個(gè)尤其注意的問題是，很多生成化合物的毒性預(yù)測(cè)結(jié)果比 VX 的毒性更大。更加令人震驚的是，VX 基本上是已知的最有效的化合物之一，也就意味著只需要非常、非常、非常少的量就能致死。

雖然這些預(yù)測(cè)結(jié)果在現(xiàn)實(shí)生活中尚未驗(yàn)證，研究人員也表示他們也不想自己去驗(yàn)證，但預(yù)測(cè)模型通常性能相當(dāng)不錯(cuò)。因此，即使存在很多假陽(yáng)性反應(yīng)，其中應(yīng)該也會(huì)有毒性更強(qiáng)的分子。

其次，研究團(tuán)隊(duì)其實(shí)觀察了這些新生成分子的許多結(jié)構(gòu)。不難發(fā)現(xiàn)，其中很多看起來確實(shí)像 VX 和其他戰(zhàn)劑，甚至在一些模型中生成的是真正的化學(xué)毒劑。并且，這些是在模型從未見過這些化學(xué)毒劑的情況下而生成的。毋庸置疑，模型肯定能夠生成一些有毒的分子，因?yàn)槠渲幸恍┓肿右郧熬鸵呀?jīng)被制造出來了。

那么，令人擔(dān)心的是，它到底有多容易實(shí)現(xiàn)呢？

研究人員表示，在開發(fā)過程中所使用的很多東西都是免費(fèi)的。你可以從任何地方下載毒性數(shù)據(jù)集。如果有一個(gè)人知道如何用 Python 編程，并且具備一些 ML 能力，那么可能利用一個(gè)短暫的周末，就可以構(gòu)建出類似于這種由有毒數(shù)據(jù)集驅(qū)動(dòng)的生成模型。

因此，這就是研究人員真正考慮將這篇論文發(fā)表出來的原因：對(duì)于這種類型的濫用來說，它的門檻實(shí)在是太低了。

Urbina 在論文中表示：“我們?nèi)匀豢缭搅艘粋€(gè)灰色的道德界限，證明有可能設(shè)計(jì)出虛擬的潛在有毒分子，而不需要太多的努力、時(shí)間或計(jì)算資源。雖然我們可以輕易地刪除我們創(chuàng)造的成千上萬的分子，但我們不能刪除如何重新創(chuàng)造它們的知識(shí)。”

Urbina 表示，這是一個(gè)非常不尋常的話題，他們想把這些真正的信息拿出來，去真正的談?wù)撍?。與此同時(shí)，不希望將其落入非法者之手。

但他明確表示，作為科學(xué)家，應(yīng)該注意發(fā)布的內(nèi)容必須是負(fù)責(zé)任地完成的。

除此之外，Urbina 表示，目前所做的確實(shí)很容易被復(fù)制。因?yàn)槠渲泻芏鄸|西都是開源的——科學(xué)的共享，數(shù)據(jù)的共享，模型的共享。

Urbina 殷切希望更多的研究人員承認(rèn)并意識(shí)到潛在的濫用。

當(dāng)你開始在化學(xué)領(lǐng)域工作時(shí)，你確實(shí)會(huì)被告知化學(xué)濫用的危害，你有責(zé)任確保你盡可能地避免這種情況。而在 ML 中，與之相反，沒有任何關(guān)于濫用該技術(shù)的指導(dǎo)。

“我們只是希望更多的研究人員承認(rèn)并意識(shí)到潛在的濫用” ，Urbina 說道。

考慮到模型的性能越來越好，所以將這種意識(shí)公開是非常有必要的，可以真正地幫助人們?nèi)プ⒁膺@個(gè)問題：至少在更廣泛的圈子里被討論過，至少可以成為研究人員所關(guān)注的點(diǎn)。