從研發(fā)到商業(yè),人工智能(artificial intelligence, AI)正在改變整個(gè)生命科學(xué)行業(yè),從研發(fā)到商業(yè)。根據(jù)Mordor Intelligence的報(bào)告《生命科學(xué)市場(chǎng)中的人工智能-增長(zhǎng)、趨勢(shì)及預(yù)測(cè)(2019-2024)》(Artificial Intelligence in LifeSciences Market – Growth, Trends, and Forecast(2019-2024)),2019年生命科學(xué)相關(guān)的AI市場(chǎng)估值約9億美元,預(yù)計(jì)2019-2024年該市場(chǎng)規(guī)模年復(fù)合增長(zhǎng)率超21%。根據(jù)全球IT行業(yè)著名咨詢公司Gartner(高德納),人工智能技術(shù)的各種重要元素在技術(shù)成熟度曲線(hype cycle)中達(dá)到了頂峰(圖表1)。然而與其他行業(yè)相比而言,生命科學(xué)中AI的應(yīng)用并不多。在這個(gè)大背景下, AI在監(jiān)管環(huán)境中的應(yīng)用,如在研發(fā)價(jià)值鏈中的應(yīng)用,也因?yàn)橐恍┮蛩囟h(yuǎn)遠(yuǎn)落后于生命科學(xué)的其他領(lǐng)域。 圖表1. 2019年Gartner人工智能技術(shù)成熟度曲線來(lái)源:Gartner官網(wǎng),中康產(chǎn)業(yè)資本研究中心 本篇討論范圍限于制藥公司的臨床、安全和監(jiān)管職能,這些職能涉及典型大型藥企的研發(fā)(R&D)和醫(yī)學(xué)事務(wù)(medical affairs)組織。我們探尋這些領(lǐng)域的新興應(yīng)用案例,以及可能影響它們的AI技術(shù)類型。近年來(lái)藥物相關(guān)數(shù)據(jù)激增,如真實(shí)世界數(shù)據(jù)(real-world data,RWD)在整個(gè)藥物研發(fā)鏈中的廣泛應(yīng)用、藥物上市后安全事件的數(shù)量增多等,數(shù)據(jù)顯著和實(shí)質(zhì)性的增長(zhǎng)使AI能夠?qū)@些領(lǐng)域進(jìn)行評(píng)估。然而,AI和機(jī)器學(xué)習(xí)(machine learning, ML)的能力在很大程度上被誤解了。由于AI/ML具有較高的媒體曝光度,人民大眾對(duì)它們有非常高的期望,這不可避免地會(huì)導(dǎo)致失望。這削弱了在執(zhí)行層面對(duì)AI的信任。 AI在研發(fā)中的應(yīng)用場(chǎng)景Gartner將“暗數(shù)據(jù)(Dark Data)”定義為組織在常規(guī)業(yè)務(wù)活動(dòng)期間收集、處理和存儲(chǔ)的信息資產(chǎn),但通常不能用于其他目的,如分析、業(yè)務(wù)關(guān)系和直接變現(xiàn)。這一概念與物理學(xué)中的“暗物質(zhì)”類似,暗數(shù)據(jù)通常包括大多數(shù)組織的信息資產(chǎn),組織通常只為了合規(guī)目的而保留暗數(shù)據(jù)。存儲(chǔ)和保護(hù)暗數(shù)據(jù)通常引起比價(jià)值更多的花費(fèi)及更高的風(fēng)險(xiǎn)。現(xiàn)在的制藥公司分析并探尋來(lái)自于合法收集和分析的數(shù)據(jù)的推論。盡管研發(fā)領(lǐng)域的數(shù)據(jù)在迅速增長(zhǎng),但是藥企仍無(wú)法充分利用所有這些數(shù)據(jù)進(jìn)行有效決策。當(dāng)前的需求是抓住數(shù)據(jù)增長(zhǎng)的機(jī)會(huì),通過(guò)從這些“暗數(shù)據(jù)”中獲得洞察來(lái)產(chǎn)生價(jià)值,這些暗數(shù)據(jù)包括真實(shí)世界數(shù)據(jù)、二次研究數(shù)據(jù)、患者交互數(shù)據(jù)、監(jiān)管申請(qǐng)?zhí)峤坏?/strong>。根據(jù)IDC(International Data Corporation,國(guó)際數(shù)據(jù)公司)的報(bào)告,從2018至2025年,全球醫(yī)療數(shù)據(jù)將具有36%的年復(fù)合增長(zhǎng)率。因此,探索這些數(shù)據(jù)并從中獲得洞察是應(yīng)用人工智能的重要機(jī)會(huì),下面介紹部分具體應(yīng)用場(chǎng)景。在新藥申請(qǐng)/市場(chǎng)許可申請(qǐng)(NDA/MAA)審批過(guò)程中,經(jīng)常有來(lái)自藥品監(jiān)管機(jī)構(gòu)的問詢,如資料補(bǔ)充、數(shù)據(jù)質(zhì)疑等,導(dǎo)致藥監(jiān)與藥企的來(lái)回溝通。這構(gòu)成了藥品審批周期中的重要部分。通過(guò)分析過(guò)往的問詢,可以找出規(guī)律來(lái)預(yù)測(cè)和預(yù)防出現(xiàn)類似的問詢,從而整體上縮短藥品審批周期。這是藥企通過(guò)利用現(xiàn)有AI技術(shù),在短期內(nèi)可以實(shí)現(xiàn)的合理目標(biāo)。藥企在藥品上市前的臨床開發(fā)階段需要收集受試者反饋信息,在藥品上市后仍需要與患者互動(dòng),以收集醫(yī)學(xué)信息,進(jìn)行藥物警戒(PV)。自然語(yǔ)言處理(natural language processing,NLP)和自然語(yǔ)言生成(natural language generation, NLG)技術(shù)現(xiàn)在已經(jīng)準(zhǔn)備好用于基于語(yǔ)音的數(shù)據(jù),自動(dòng)將它們轉(zhuǎn)換為文本,并發(fā)掘它們以獲得不同維度的分析。這些分析比第三方對(duì)產(chǎn)品體驗(yàn)的分析或社交媒體數(shù)據(jù)挖掘要更加全面,可幫助產(chǎn)品上市、產(chǎn)品定位、標(biāo)簽拓展,以及監(jiān)管和營(yíng)銷策略。獲得可操作且有洞察力的監(jiān)管情報(bào)對(duì)于藥企內(nèi)部負(fù)責(zé)監(jiān)管事務(wù)(regulatory affairs, RA)和處理藥監(jiān)問詢的單位,他們希望以高準(zhǔn)確性和高合規(guī)水平加速審批,先進(jìn)技術(shù)可以提供一個(gè)智能監(jiān)管情報(bào)平臺(tái),具有諸如藥物監(jiān)管歷史監(jiān)控、臨床試驗(yàn)分析、藥監(jiān)問詢?cè)u(píng)估、競(jìng)爭(zhēng)對(duì)手藥物概況等功能特點(diǎn)。該平臺(tái)將利用細(xì)致的人工智能/機(jī)器學(xué)習(xí)(AI/ML)算法訪問來(lái)自所有相關(guān)公開和內(nèi)部信息源的信息,從數(shù)據(jù)挖掘中獲得洞察,并且自動(dòng)生成報(bào)告和可視化文件。在目前主要依靠人力工作的流程中,AI輔助的解決方案將極大地減少(90%以上)收集和評(píng)估用于制定戰(zhàn)略監(jiān)管決策的信息的時(shí)間,并使申請(qǐng)資料的質(zhì)量和合規(guī)水平達(dá)到近乎完美的程度。一款藥品的批準(zhǔn)途徑可能是復(fù)雜的,例如歐盟有3種規(guī)定的程序來(lái)獲得藥品批準(zhǔn),分別為互認(rèn)程序、分散程序和集中程序。對(duì)于大型制藥公司來(lái)說(shuō),藥監(jiān)事務(wù)的復(fù)雜性成倍地增長(zhǎng),這主要是因?yàn)樾滤庬?xiàng)目多,提交的申請(qǐng)數(shù)量較多,而拓展新適應(yīng)癥或因安全問題更新標(biāo)簽等則進(jìn)一步增加了復(fù)雜性。其次還存在其他一些問題,比如為每項(xiàng)申請(qǐng)確定最優(yōu)的審批路徑,將每項(xiàng)申請(qǐng)所需的申請(qǐng)資料準(zhǔn)確地打包在一起,等等。此外,如果在多地進(jìn)行申報(bào),不同的藥監(jiān)機(jī)構(gòu)對(duì)于同一申請(qǐng)的答復(fù)也不盡相同。因此,為制定最優(yōu)提交計(jì)劃來(lái)加快藥品獲批,須涉及相當(dāng)多的規(guī)劃。當(dāng)決定提交途徑時(shí),即使通常有許多過(guò)去提交的歷史數(shù)據(jù),藥企也只能做出定性判斷。在這種情況下,可以使用歷史數(shù)據(jù)訓(xùn)練機(jī)器來(lái)優(yōu)化提交路徑、規(guī)劃并預(yù)測(cè)審批的時(shí)間線,這是AI對(duì)藥企有較高影響的另一用例。藥企越來(lái)越多地開始使用外部數(shù)據(jù)源,如真實(shí)世界數(shù)據(jù),來(lái)了解疾病特征、患者特征等,并且利用這些數(shù)據(jù)更好地服務(wù)于研發(fā)。識(shí)別正確的疾病特征以更好地理解患者群體是基礎(chǔ),并且有廣泛的應(yīng)用。用途之一是患者招募,這可能是臨床試驗(yàn)最大的瓶頸之一。對(duì)于創(chuàng)新藥,研發(fā)人員需要了解人群并識(shí)別其中最適合在研藥物的患者群。雖然世界數(shù)據(jù)(RWD)是解決這些用例的核心,但使用聚類(clustering)的AI技術(shù)可以幫助研發(fā)者更清楚地了解真實(shí)世界的患者群是怎樣的,什么共病可能與這個(gè)群體相關(guān),如何在真實(shí)世界為該群體進(jìn)行診斷等。 AI實(shí)現(xiàn)藥物研發(fā)自動(dòng)化研發(fā)作為成本核心,始終處在壓力之下,要用更少的錢做更多的事情,這使得合理的自動(dòng)化成為有吸引力的選項(xiàng)。AI與其他技術(shù)結(jié)合,可以在降低運(yùn)營(yíng)成本方面發(fā)揮重要作用。除了節(jié)省成本,自動(dòng)化還能帶來(lái)其他好處,減少總體研發(fā)時(shí)間是一個(gè)明顯的好處。自動(dòng)化不僅節(jié)省了成本,而且改善了合規(guī)性,便于操作規(guī)模的擴(kuò)展。例如,在藥物警戒案例處理中,如果一項(xiàng)在第15天到期的案例在第13天時(shí)到達(dá),除非周轉(zhuǎn)時(shí)間能顯著改善,否則將無(wú)法處理。業(yè)務(wù)規(guī)模擴(kuò)大是通過(guò)自動(dòng)化實(shí)現(xiàn)的,特別是在受管制的地區(qū),需要足夠的準(zhǔn)備時(shí)間來(lái)識(shí)別合格的資源并對(duì)其培訓(xùn)。 圖表2. AI技術(shù)與新藥研發(fā)的一些結(jié)合點(diǎn)來(lái)源:公開信息,中康產(chǎn)業(yè)資本研究中心
自動(dòng)化可以通過(guò)多種方式實(shí)現(xiàn),本篇我們主要關(guān)注通過(guò)AI實(shí)現(xiàn)的自動(dòng)化。在涉及決策制定和主觀性的領(lǐng)域,人工智能是實(shí)現(xiàn)自動(dòng)化所必需的。在藥物研發(fā)領(lǐng)域中有好幾個(gè)領(lǐng)域以過(guò)程為導(dǎo)向,但其中嵌入了人工決策,這使得這些領(lǐng)域沒有AI就不能實(shí)現(xiàn)自動(dòng)化。 臨床試驗(yàn)中的數(shù)據(jù)需要很長(zhǎng)時(shí)間才能被清理、處理和匯編,這需要大量的勞動(dòng)。這項(xiàng)活動(dòng)是很好的自動(dòng)化候選項(xiàng)目。從創(chuàng)建和使用全局庫(kù)來(lái)設(shè)計(jì)病例記錄表(case record form, CRF)到對(duì)收集的數(shù)據(jù)生成數(shù)據(jù)查詢(DQ),在臨床試驗(yàn)的執(zhí)行階段花費(fèi)了大量人力。類似的,在最后一位患者最后一次訪問后,公司需要花費(fèi)大量時(shí)間將數(shù)據(jù)轉(zhuǎn)換為分析數(shù)據(jù)模型(ADAM)數(shù)據(jù)集,分析數(shù)據(jù),識(shí)別結(jié)果和問題,生成表列表圖(TLF)。這個(gè)過(guò)程可以通過(guò)使用機(jī)器來(lái)執(zhí)行智能的CRF設(shè)計(jì),提出智能的數(shù)據(jù)查詢,并對(duì)收集的中期試驗(yàn)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,以提供機(jī)會(huì)在做出有效的項(xiàng)目組合決策,同時(shí)自動(dòng)化手動(dòng)操作。安全自動(dòng)化可以說(shuō)是當(dāng)今研發(fā)領(lǐng)域最受歡迎的用例,有幾家公司已經(jīng)開始應(yīng)用,或正在積極評(píng)估該領(lǐng)域。投訴處理是一個(gè)類似的用例,盡管投訴處理過(guò)程的多變使它變得有些困難。質(zhì)量和藥物警戒方面的大部分預(yù)算都花在了這些活動(dòng)上,使得該領(lǐng)域成為自動(dòng)化的理想候選。圖表3. 科文斯的藥物警戒自動(dòng)化工具與路線圖來(lái)源:Covance(科文斯)官網(wǎng),中康產(chǎn)業(yè)資本研究中心
自動(dòng)創(chuàng)立eCTD(電子通用技術(shù)文檔)文件和標(biāo)簽 醫(yī)藥內(nèi)容構(gòu)成了制藥價(jià)值鏈若干方面的關(guān)鍵。通常,內(nèi)容只生產(chǎn)一次,并在制藥價(jià)值鏈中重復(fù)使用。例如,企業(yè)社會(huì)責(zé)任(CSR)的內(nèi)容在整個(gè)提交文檔中使用,或者一份公司核心數(shù)據(jù)表(CCDS)的更新導(dǎo)致多個(gè)下游標(biāo)簽的更新。CCDS是藥物上市許可持有人(MAH)準(zhǔn)備的一份文件,除藥物安全性信息外,還包括與適應(yīng)證、劑量、藥理學(xué)有關(guān)的材料和與產(chǎn)品有關(guān)的其他信息。 許多醫(yī)學(xué)編輯的時(shí)間和精力都花在尋找正確的文檔、閱讀和整理信息,以及將內(nèi)容安排到正確的模板中。隨著NLP(自然語(yǔ)言處理)和NLG(自然語(yǔ)言生成)技術(shù)的發(fā)展,人們能夠讓機(jī)器搜索正確的內(nèi)容、跟蹤更新、讀取內(nèi)容和整理相關(guān)組件來(lái)自動(dòng)創(chuàng)建這些文檔。 這是一項(xiàng)費(fèi)時(shí)費(fèi)力的活動(dòng),人們已經(jīng)多次嘗試自動(dòng)獲取和監(jiān)測(cè)涵蓋醫(yī)療事務(wù)、監(jiān)管事務(wù)、安全、臨床研究的文獻(xiàn)文章,但是這些嘗試比較零碎且迥然不同。因此,整個(gè)文獻(xiàn)檢索領(lǐng)域是智能自動(dòng)化的一個(gè)很好的候選領(lǐng)域,它將利用現(xiàn)有的技術(shù),通過(guò)將文獻(xiàn)合理的聚類來(lái)創(chuàng)建一個(gè)一站式、端到端的解決方案。該解決方案依靠實(shí)現(xiàn)單詞向量匹配的機(jī)器學(xué)習(xí)算法、基于搜索策略中的趨勢(shì)和模式的監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)、AI/NLP的支持,通過(guò)逐字文本或上下文匹配進(jìn)行高級(jí)搜索,以獲得最佳結(jié)果。 AI技術(shù)分類 以上討論的應(yīng)用場(chǎng)景,涉及的AI技術(shù)主要包括三個(gè)主要領(lǐng)域,分別為自然語(yǔ)言處理(NLP)、分類算法(classification algorithms)和聚類算法(clusteringalgorithms)。自然語(yǔ)言處理是處理自由格式文本、提供結(jié)構(gòu)化信息的技術(shù)。獲取結(jié)構(gòu)化數(shù)據(jù)并生成人類可讀的自由文本的相反過(guò)程稱為自然語(yǔ)言生成(NLG)。核心在于,現(xiàn)代的NLP系統(tǒng)將文檔中的單詞轉(zhuǎn)換成可計(jì)算的數(shù)字向量表示形式。這些向量包括單詞和單詞的上下文。這些系統(tǒng)經(jīng)過(guò)大量文件的訓(xùn)練。當(dāng)前,最先進(jìn)的NLP正在被越來(lái)越多地使用處理大型文檔集合和創(chuàng)建數(shù)字向量的復(fù)雜機(jī)制的算法所推動(dòng)。NLP技術(shù)正在跨多種語(yǔ)言和特定領(lǐng)域的本體和分類法進(jìn)行培訓(xùn),提供了強(qiáng)大的部署自動(dòng)化的方法,以增強(qiáng)文檔創(chuàng)作過(guò)程中的信息檢索和獲取。在醫(yī)療和監(jiān)管領(lǐng)域,NLP能夠用正確的文本寫出臨床術(shù)語(yǔ),并且具有很高的準(zhǔn)確性。圖表4. NLP將自然語(yǔ)言轉(zhuǎn)化為數(shù)字向量來(lái)源:easyai.tech網(wǎng)站,中康產(chǎn)業(yè)資本研究中心
|