一、語言表征學(xué)習(xí) Language Representation Learning 通過自監(jiān)督語言模型預(yù)訓(xùn)練的語言表征學(xué)習(xí)已經(jīng)成為許多NLP系統(tǒng)的一個組成部分。傳統(tǒng)的語言建模不利用文本語料庫中經(jīng)常觀察到的實(shí)體事實(shí),如何將知識整合到語言表征中已引起越來越多的關(guān)注。 二、知識圖譜語言模型(KGLM):通過選擇和復(fù)制實(shí)體來學(xué)習(xí)并呈現(xiàn)知識。 ERNIE-Tsinghua:通過聚合的預(yù)訓(xùn)練和隨機(jī)Mask來融合信息實(shí)體。 K-BERT:將領(lǐng)域知識注入BERT上下文編碼器。 ERNIE-Baidu:引入了命名實(shí)體Mask和短語Mask以將知識集成到語言模型中,并由ERNIE 2.0通過持續(xù)的多任務(wù)學(xué)習(xí)進(jìn)一步改進(jìn)。 KEPLER:為了從文本中獲取事實(shí)知識,通過聯(lián)合優(yōu)化將知識嵌入和Mask語言建模損失相結(jié)合。 GLM:提出了一種圖引導(dǎo)的實(shí)體Mask方案來隱式地利用知識圖譜。 CoLAKE:通過統(tǒng)一的詞-知識圖譜和改進(jìn)的Transformer編碼器進(jìn)一步利用了實(shí)體的上下文。 BERT-MK:與K-BERT模型類似,更專注于醫(yī)學(xué)語料庫,通過知識子圖將醫(yī)學(xué)知識集成到預(yù)訓(xùn)練語言模型中。 Petroni等人:重新思考語言模型的大規(guī)模訓(xùn)練和知識圖譜查詢,分析了語言模型和知識庫,他們發(fā)現(xiàn)可以通過預(yù)訓(xùn)練語言模型獲得某些事實(shí)知識。 三、問答 Question Answering 基于知識圖譜的問答(KG-QA)用知識圖譜中的事實(shí)回答自然語言問題?;谏窠?jīng)網(wǎng)絡(luò)的方法表示分布式語義空間中的問題和答案,有些方法還進(jìn)行符號知識注入以進(jìn)行常識推理。 Single-fact QA:以知識圖譜為外部知識源,simple factoid QA或single-fact QA是回答一個涉及單個知識圖譜事實(shí)的簡單問題。 Dai等人:提出了一種條件聚焦神經(jīng)網(wǎng)絡(luò),配備聚焦修剪以減少sousuo空間。 BAMnet:使用雙向注意機(jī)制對問題和知識圖譜之間的雙向交互進(jìn)行建模。盡管深度學(xué)習(xí)技術(shù)在KG-QA中得到了廣泛應(yīng)用,但它們不可避免地增加了模型的復(fù)雜性。 Mohammed等人:通過評估有和沒有神經(jīng)網(wǎng)絡(luò)的簡單KG-QA,發(fā)現(xiàn)復(fù)雜的深度模型(如LSTM和GRU等啟發(fā)式算法)達(dá)到了最先進(jìn)的水平,非神經(jīng)模型也獲得了相當(dāng)好的性能。 多跳推理(Multi-hop Reasoning):處理復(fù)雜的多跳關(guān)系需要更專門的設(shè)計才能進(jìn)行多跳常識推理。結(jié)構(gòu)化知識提供了信息豐富的常識,這促進(jìn)了最近關(guān)于多跳推理的符號空間和語義空間之間的常識知識融合的研究。 Bauer等人:提出了多跳雙向注意力和指針生成器(pointer-generator)解碼器,用于有效的多跳推理和連貫的答案生成,利用來自ConceptNet的relational path selection和selectively-gated注意力注入的外部常識知識。 Variational Reasoning Network(VRN):使用reasoning-graph嵌入進(jìn)行多跳邏輯推理,同時處理主題實(shí)體識別中的不確定性。 KagNet:執(zhí)行concept recognition以從ConceptNet構(gòu)建模式圖,并通過GCN、LSTM和hierarchical path-based attention學(xué)習(xí)基于路徑的關(guān)系表示。 CogQA:結(jié)合了implicit extraction和explicit reasoning,提出了一種基于BERT和GNN的認(rèn)知圖模型,用于多跳QA。 四、推薦系統(tǒng) Recommender Systems 將知識圖譜集成為外部信息,使推薦系統(tǒng)具備常識推理能力,具有解決稀疏問題和冷啟動問題的潛力。通過注入實(shí)體、關(guān)系和屬性等知識圖譜的輔助信息,許多方法致力于使用基于嵌入的正則化模塊以改進(jìn)推薦效果。 collaborative CKE:通過平移KGE模型和堆疊自動編碼器聯(lián)合訓(xùn)練KGE、文本信息和視覺內(nèi)容。 DKN:注意到時間敏感和主題敏感的新聞文章由大量密集的實(shí)體和常識組成,通過知識感知CNN模型將知識圖譜與多通道word-entity-aligned文本輸入相結(jié)合。但是,DKN不能以端到端的方式進(jìn)行訓(xùn)練,因為它需要提前學(xué)習(xí)實(shí)體嵌入。 MKR:為了實(shí)現(xiàn)端到端訓(xùn)練,通過共享潛在特征和建模高階項目-實(shí)體交互,將多任務(wù)知識圖譜表示和推薦相關(guān)聯(lián)。 KPRN:雖然其他工作考慮了知識圖譜的關(guān)系路徑和結(jié)構(gòu),但KPRN將用戶和項目之間的交互視為知識圖譜中的實(shí)體關(guān)系路徑,并使用LSTM對路徑進(jìn)行偏好推斷以捕獲順序依賴關(guān)系。 PGPR:在基于知識圖譜的user-item交互上執(zhí)行reinforcement policy-guided的路徑推理。 KGAT:在entity-relation和user-item圖的協(xié)作知識圖譜上應(yīng)用圖注意力網(wǎng)絡(luò),通過嵌入傳播和基于注意力的聚合對高階連接進(jìn)行編碼。 總而言之,基于知識圖的推薦本質(zhì)上是通過在知識圖譜中嵌入傳播與多跳來處理可解釋性。 五、文本分類和特定任務(wù)應(yīng)用程序 Text Classification and Task-Specific Applications 知識驅(qū)動的自然語言理解(NLU)是通過將結(jié)構(gòu)化知識注入統(tǒng)一的語義空間來增強(qiáng)語言表征能力。最近成果利用了明確的事實(shí)知識和隱含的語言表征。 Wang等人:通過加權(quán)的word-concept嵌入,通過基于知識的conceptualization增強(qiáng)了短文本表征學(xué)習(xí)。 Peng等人:集成了外部知識庫,以構(gòu)建異構(gòu)信息圖譜,用于短社交文本中的事件分類。 在精神衛(wèi)生領(lǐng)域,具有知識圖譜的模型有助于更好地了解精神狀況和精神障礙的危險因素,并可有效預(yù)防精神健康導(dǎo)致的自殺。 Gaurs等人:開發(fā)了一個基于規(guī)則的分類器,用于知識驅(qū)動的自殺風(fēng)險評估,其中結(jié)合了醫(yī)學(xué)知識庫和自殺本體的自殺風(fēng)險嚴(yán)重程度詞典。 情感分析與情感相關(guān)概念相結(jié)合,可以更好地理解人們的觀點(diǎn)和情感。 SenticNet:學(xué)習(xí)用于情感分析的概念原語,也可以用作常識知識源。為了實(shí)現(xiàn)與情感相關(guān)的信息過濾。 Sentic LSTM:將知識概念注入到vanilla LSTM中,并為概念級別的輸出設(shè)計了一個知識輸出門,作為對詞級別的補(bǔ)充。 對話系統(tǒng) Dialogue Systems 問答(QA)也可以被視為通過生成正確答案作為響應(yīng)的單輪對話系統(tǒng),而對話系統(tǒng)考慮對話序列并旨在生成流暢的響應(yīng)以通過語義增強(qiáng)和知識圖譜游走來實(shí)現(xiàn)多輪對話。 Liu等人:在編碼器-解碼器框架下,通過知識圖譜檢索和圖注意機(jī)制對知識進(jìn)行編碼以增強(qiáng)語義表征并生成知識驅(qū)動的響應(yīng)。 DialKG Walker:遍歷符號知識圖譜以學(xué)習(xí)對話中的上下文轉(zhuǎn)換,并使用注意力圖路徑解碼器預(yù)測實(shí)體響應(yīng)。 通過形式邏輯表示的語義解析是對話系統(tǒng)的另一個方向。 Dialog-to-Action:是一種編碼器-解碼器方法,通過預(yù)定義一組基本動作,它從對話中的話語映射可執(zhí)行的邏輯形式,以在語法引導(dǎo)解碼器的控制下生成動作序列。 六、醫(yī)學(xué)和生物學(xué) Medicine and Biology 知識驅(qū)動的模型及其應(yīng)用為整合領(lǐng)域知識以在醫(yī)學(xué)和生物學(xué)領(lǐng)域進(jìn)行精確預(yù)測鋪平了道路。醫(yī)學(xué)應(yīng)用涉及有眾多醫(yī)學(xué)概念的特定領(lǐng)域知識圖譜。 Sousa等人:采用知識圖譜相似性進(jìn)行蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測,使用基因本體。 Mohamed等人:將藥物-靶點(diǎn)相互作用預(yù)測設(shè)定為生物醫(yī)學(xué)知識圖譜中與藥物及其潛在靶點(diǎn)的鏈接預(yù)測。 Lin等人:開發(fā)了一個知識圖譜網(wǎng)絡(luò)來學(xué)習(xí)藥物-藥物相互作用預(yù)測的結(jié)構(gòu)信息和語義關(guān)系。 UMLS:在臨床領(lǐng)域,來自Unified Medical Language Systems(UMLS)本體的生物醫(yī)學(xué)知識被集成到語言模型預(yù)訓(xùn)練中,用于臨床實(shí)體識別和醫(yī)學(xué)語言推理等下游臨床應(yīng)用。 Liu等人:設(shè)定了醫(yī)學(xué)圖像報告生成的任務(wù),包括編碼、檢索和釋義三個步驟。 知識圖譜相關(guān)信息學(xué)習(xí): 一、知識圖譜概論 1.1知識圖譜的起源和歷史 1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3知識圖譜的本質(zhì)和價值 1.4知識圖譜VS傳統(tǒng)知識庫VS關(guān)系數(shù)據(jù)庫 1.5經(jīng)典的知識圖譜 二、知識圖譜應(yīng)用 2.1知識圖譜應(yīng)用場景 2.2知識圖譜應(yīng)用簡介 三、知識表示與知識建模 3.1知識表示概念 3.2 知識表示方法 3.3典型知識庫項目的知識表示 3.4知識建模方法學(xué) 四、知識抽取與挖掘 4.1知識抽取基本問題 4.2數(shù)據(jù)采集和獲取 4.3面向結(jié)構(gòu)化數(shù)據(jù)的知識抽取 4.4面向半結(jié)構(gòu)化數(shù)據(jù)的知識抽取 4.5.面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取 4.6.知識挖掘 五、知識融合 5.1知識融合背景 5.2知識異構(gòu)原因分析 5.3知識融合解決方案分析 5.4.本體對齊基本流程和常用方法 5.5實(shí)體匹配基本流程和常用方法 六、存儲與檢索 6.1.知識圖譜的存儲與檢索概述 6.2.知識圖譜的存儲 6.3.知識圖譜的檢索 七、知識推理 7.1.知識圖譜中的推理技術(shù)概述 7.2.歸納推理:學(xué)習(xí)推理規(guī)則 7.3.演繹推理:推理具體事實(shí) 7.4.基于分布式表示的推理 八、語義sousuo 8.1.語義sousuo概述 8.2.sousuo關(guān)鍵技術(shù) 8.3.知識圖譜sousuo 8.4.知識可視化 a.摘要技術(shù) 九、知識問答 9.1.知識問答概述 9.2.知識問答基本流程 9.3.相關(guān)測試集 9.4.知識問答關(guān)鍵技術(shù) |
|