【原】BIB | 深度學習生物醫(yī)學命名實體識別綜述

DrugAI 2022-04-19

展開全文

編譯｜李芬
審稿｜賴樂珊

今天給大家介紹我們湖南大學DrugAI課題組發(fā)表在Briefings in Bioinformatics上發(fā)表的一篇綜述。這篇綜述從“單一神經(jīng)網(wǎng)絡(luò)、多任務學習、遷移學習和混合模型”這4個方面，介紹了近年來深度學習如何從生物醫(yī)學文獻文中挖掘命名實體以及相關(guān)數(shù)據(jù)集。作者挑選了幾個有代表性的方法，在6個常用的數(shù)據(jù)集上進行了實驗比較。結(jié)果發(fā)現(xiàn)，深度學習的方法要普遍優(yōu)于傳統(tǒng)方法，并且不同的方法和數(shù)據(jù)集之間也有較大的差異。最后，作者總結(jié)了生物醫(yī)學命名實體（BioNER）存在的一些挑戰(zhàn)和未來的發(fā)展。

介紹

隨著生物醫(yī)學的廣泛發(fā)展，人們獲取電子生物醫(yī)學文獻越來越方便。尤其是在新冠肺炎疫情爆發(fā)之后，生物醫(yī)學類的文獻增長更為迅速。如此大的增長量，導致專業(yè)人員很難從中獲取自己所需要的信息，因此如何從大量的生物醫(yī)學文獻中挖掘出有用的信息就顯得十分重要。為了解決生物醫(yī)學文獻增長如此迅速的問題，研究者提出了許多文本挖掘任務，而生物醫(yī)學命名實體識別（BioNER）就是其中一項最基礎(chǔ)的任務。它的目的是從大量的非結(jié)構(gòu)化醫(yī)學文本中找出基因、疾病、蛋白質(zhì)等相應的醫(yī)學實體邊界，然后再經(jīng)過標準化映射到受控詞匯表中，從而方便進行文獻挖掘的下游任務。

相較于普通領(lǐng)域的命名實體識別，生物醫(yī)學實體（BioNEs）通常由很長的詞匯組成，例如：“遺傳性非息肉性結(jié)直腸癌綜合征”。而且一個實體有多個變體名稱，如：“Zolmitriptan, Zomig and Zomigon”，這三個名詞都是表示同一實體。除此之外，生物醫(yī)學實體通常由數(shù)字和字母縮寫組成，有時相同的字母可能表示不同的意思。因此，BioNER比普通領(lǐng)域NER要困難的多。而深度學習有一系列強大的特征提取器，可以有效地捕捉原始數(shù)據(jù)中包含的特征和規(guī)則。因此逐漸成為BioNER的主流方法。

在這篇文章中我們按照模型使用的數(shù)量和結(jié)合方式，從基于單一神經(jīng)網(wǎng)絡(luò)、基于多任務、基于遷移學習和基于混合模型的方法這4個方面對現(xiàn)有的生物醫(yī)學實體命名識別進行了綜述。旨在幫助不同的研究者，從多個方面系統(tǒng)地了解生物醫(yī)學命名實體識別。此外我們還總結(jié)了生物醫(yī)學命名實體識別常用的數(shù)據(jù)集和其來源，方便研究者快速地獲取所需要的數(shù)據(jù)集。接著我們從這些常用的BioNER模型中選出了幾個具有代表性的方法進行了性能比較，并分析了比較結(jié)果。最后對文章提到的方法進行了分析總結(jié)，概述了Bio-NER面臨的一些挑戰(zhàn)和機遇。

深度學習BioNER結(jié)構(gòu)

從生物醫(yī)學文本中識別相應實體大致分為三個步驟：(i)準備合適的數(shù)據(jù)集(ii)提取實體特征和(iii)候選實體的分類（圖1)。

數(shù)據(jù)集的大小和質(zhì)量嚴重影響著最終的識別效果。深度學習需要大量的高質(zhì)量的已標注的數(shù)據(jù)集，并從這些數(shù)據(jù)集中進行端到端的自主學習。黃金標準的數(shù)據(jù)集具有較少的噪聲，但其數(shù)量通常較少。白銀標準的數(shù)據(jù)集數(shù)量較大，但通常噪聲也很多。因此如何充分地選擇和利用數(shù)據(jù)集是BioNER任務的關(guān)鍵步驟。

深度學習通常不需要人工標記的特征，它們自主地從數(shù)據(jù)集學習有用的特征。用于自然語言處理的深層神經(jīng)網(wǎng)絡(luò)。深度學習的方法是將文本轉(zhuǎn)換成embedding信息，然后從這些信息中提取有用的特征用于生物醫(yī)學實體識別。提取特征的方式以及特征的組合影響著最后的結(jié)果，因此深度學習模型特征提取是BioNER最重要的一步。

當神經(jīng)網(wǎng)絡(luò)自動提取到數(shù)據(jù)實體特征后，需要根據(jù)學到的特征判斷是否是實體，這個實體應該屬于哪一類別哪一部分。而BioNER的最終目的是找到實體的邊界，因此我們需要用一個特定的規(guī)則，結(jié)合神經(jīng)網(wǎng)絡(luò)學習到的特征對文本中的每個詞做出判斷，進而找出最終的生物醫(yī)學實體。這個分類的過程可以是機器學習的方法，也可以是神經(jīng)網(wǎng)絡(luò)模型。

圖1 BioNER的大致步驟

深度學習的方法

我們根據(jù)模型的數(shù)量與結(jié)合方式，把這些方法分成4個類別，分別是：基于神經(jīng)網(wǎng)絡(luò)、基于多任務、基于遷移學習、基于混合模型的方法。表1總結(jié)了現(xiàn)有的BioNER方法，并評估了這些方法的可用性。

單一神經(jīng)網(wǎng)絡(luò)模型是只用神經(jīng)網(wǎng)絡(luò)模型識別指定任務的BioNEs的方法。該方法只使用深度學習模型從詞嵌入和字符嵌入中學習相應的實體特征表示。由于這種模型只需要使用神經(jīng)網(wǎng)絡(luò)，且只針對一個任務，實現(xiàn)起來比較簡單，因此是近年來使用最多的方法。目前最常用的神經(jīng)網(wǎng)絡(luò)模型主要是卷積神經(jīng)網(wǎng)絡(luò)（CNN）和長短時記憶網(wǎng)絡(luò)（LSTM）。有時候這兩個模型會結(jié)合其他神經(jīng)網(wǎng)絡(luò)模型或者在它們的基礎(chǔ)上進行微調(diào)改進以獲得更好的BioNER性能。

多任務學習是一種歸納學習的方法。它同時在多個任務上訓練不同的模型，然后共享不同任務模型之間的參數(shù)，例如使用多個BiLSTM同時識別細菌實體和基因?qū)嶓w，使得bacteria NER和gene NER性能都有提高。與神經(jīng)網(wǎng)絡(luò)模型不同的是，多任務學習結(jié)合了不同的任務，使用了更多的數(shù)據(jù)信息，因此近年來BioNER更傾向于使用MTL代替神經(jīng)網(wǎng)絡(luò)模型。

遷移學習是將某個領(lǐng)域或任務上學習到的知識或模式應用到其他相關(guān)的領(lǐng)域或問題中的方法。遷移學習通常在源域上訓練模型，然后將學到的特征，參數(shù)等遷移到目標領(lǐng)域并微調(diào)。與多任務學習相比，遷移學習在源領(lǐng)域和目標領(lǐng)域?qū)W習的過程是依次進行的，當源數(shù)據(jù)發(fā)生改變時，目標數(shù)據(jù)也能做出適當調(diào)整，適用于數(shù)據(jù)變化的情況。

混合模型是神經(jīng)網(wǎng)絡(luò)模型、多任務學習、遷移學習和傳統(tǒng)BioNER方法其中的兩種或多種組合而成的一種模型。與前幾個方法不同，混合模型是針對同一任務使用不同的模型，并將這些模型線性結(jié)合起來，提高單一任務的性能。在混合模型中，通常使用傳統(tǒng)的方法預先處理部分數(shù)據(jù)，然后神經(jīng)網(wǎng)絡(luò)模型從預先處理的這部分數(shù)據(jù)中學習相應的特征。這種方法能預先處理大量的低質(zhì)量數(shù)據(jù)，因此被經(jīng)常用在弱監(jiān)督或無監(jiān)督的學習中。

數(shù)據(jù)集

我們收集了以前工作中提到的可用于BioNER的所有數(shù)據(jù)集。它們的具體信息以及來源如表2所示。

結(jié)果

在這篇文章中我們評估和比較了CRF、GRAM-CNN、Layered-BiLSTM-CRF、MTM-CW和BioBERT模型在數(shù)據(jù)集JNLPBA、BC2GM、NCBI disease、BC5CDR、BC4CHEMD、LINNAEUS這6數(shù)據(jù)集上的性能。同時分析了導致這些結(jié)果的可能原因與改進后可能得到的結(jié)果。實驗結(jié)果如表3所示：

一般來說，這幾個模型在這6個數(shù)據(jù)集上都表現(xiàn)良好，但同一模型在不同的數(shù)據(jù)集上仍然存在很大的差異。模型在JNLPBA和LINNAEUS數(shù)據(jù)集上的表現(xiàn)明顯不如其他4個數(shù)據(jù)集。GRAM-CNN和MTM-CW在BC5CDR數(shù)據(jù)集上的F1-sorce是最高的，其次是BC4CHEMD，它在JNLPBA數(shù)據(jù)集上的性能最低。而BioBERT在BC4CHEMD數(shù)據(jù)集上的F1是最高的。這三個模型在BC5CDR和BC4CHEMD兩個數(shù)據(jù)集上的實驗結(jié)果相差不大。Layered-BiLSTM-CRF在BC4CHEMD數(shù)據(jù)集上的F1-sorce最高。

對于相同的數(shù)據(jù)集，BioBERT模型性能基本優(yōu)于MTM-CW。MTM-CW模型的性能始終優(yōu)于GRAM-CNN和Layered-BiLSTM-CRF模型，而GRAM-CNN的性能又高于Layered-BiLSTM-CRF?？偟膩碚f深度學習模型效果基本優(yōu)于CRF模型。

挑戰(zhàn)與展望

雖然實驗證明了這些方法在BioNER任務中的有效性。但目前仍然存在許多問題需要解決。

（1）目前相同類型的BioNER的數(shù)據(jù)集很多，但這些數(shù)據(jù)集之間的標注標注存在很大差異，因此需要制定統(tǒng)一的數(shù)據(jù)集標注標準。（2）此外，深度學習需要大量的注釋的訓練數(shù)據(jù)，而且訓練數(shù)據(jù)的數(shù)量與質(zhì)量與最后的實驗效果密切相關(guān)。因此需要構(gòu)建大規(guī)模高質(zhì)量語料庫。（3）生物醫(yī)學文獻的增長也為我們提供了大量的無標簽數(shù)據(jù)信息，這些無標簽的數(shù)據(jù)同樣含有豐富的信息。因此在未來可以考慮元學習策略，將這些已標記和未標記的數(shù)據(jù)充分利用起來，使得實驗模型不再受樣本數(shù)量的限制。（4）BioNER是近幾年才逐漸發(fā)展起來的NER任務的一個子領(lǐng)域，與NER有著異曲同工之妙，但它的方法還遠不如NER方法成熟。因此遷移其他領(lǐng)域的知識或方法也是未來的可行方案之一。

參考資料

Bosheng Song, Fen Li, Yuansheng Liu, Xiangxiang Zeng, Deep learning methods for biomedical named entity recognition: a survey and qualitative comparison, Briefings in Bioinformatics, 2021;, bbab282,

https:///10.1093/bib/bbab282