同濟(jì)大學(xué) zhou xiaohan對知識圖譜的應(yīng)用情況進(jìn)行了系統(tǒng)性研究,發(fā)表在CCEAI2020的會議上,這里是個(gè)簡單的翻譯。 ? 摘要: 知識圖譜,將信息表示為語義圖,已經(jīng)引起了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。 它們提供語義結(jié)構(gòu)化信息的特性為許多任務(wù)(包括回答問題,推薦和信息檢索)帶來了重要的可能解決方案,并被認(rèn)為為開發(fā)更多智能機(jī)器提供了廣闊的前景。 自Google自2012年提出該術(shù)語以來,盡管知識圖譜已經(jīng)在各種商業(yè)和科學(xué)領(lǐng)域中支持多種“大數(shù)據(jù)”應(yīng)用程序,但之前沒有進(jìn)行過系統(tǒng)的研究來對知識圖的應(yīng)用進(jìn)行系統(tǒng)地回顧。 因此,與專注于知識圖的構(gòu)建技術(shù)的其他相關(guān)工作不同,本論文旨在對源自不同領(lǐng)域的這些應(yīng)用程序進(jìn)行首次調(diào)查。 本文還指出,盡管近年來在應(yīng)用知識圖的強(qiáng)大功能(將語義結(jié)構(gòu)化信息提供到特定領(lǐng)域)方面取得了重要進(jìn)展,但仍有幾個(gè)方面有待探索。 ? 1.引言 近年來,知識圖(KG)已成為許多需要訪問結(jié)構(gòu)化知識的信息系統(tǒng)的基礎(chǔ)。 語義Web的概念可以追溯到2001年Berners Lee的研究[1]。Berners-Lee在他的工作中提出了諸如統(tǒng)一資源標(biāo)識符(URI),資源描述框架(RDF)和Web本體論之類的技術(shù)標(biāo)準(zhǔn)。 語言(OWL)應(yīng)得到促進(jìn)和發(fā)展。 知識圖已引起工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。 它們提供了可以由計(jì)算機(jī)解釋的語義結(jié)構(gòu)化信息,并且這種特性被認(rèn)為為許多人構(gòu)建更智能的機(jī)器提供了廣闊的前景。 關(guān)于知識圖的許多評論都集中在構(gòu)造技術(shù)上[7-8],盡管知識圖已經(jīng)支持了各種商業(yè)和科學(xué)領(lǐng)域中的多個(gè)“大數(shù)據(jù)”應(yīng)用程序,但是沒有關(guān)于知識圖的應(yīng)用的評論。 因此,本文的主要貢獻(xiàn)是對知識圖的應(yīng)用進(jìn)行了首次調(diào)查。 2.應(yīng)用 知識圖技術(shù)是Google提出的,近年來引起了很多研究關(guān)注。 KG的研究可分為兩類:KG的構(gòu)建技術(shù)研究和KG的應(yīng)用。 關(guān)于構(gòu)建技術(shù)的研究集中在圖形[7]中知識的提取,表示,融合和推理上,例如在從非結(jié)構(gòu)化文本中提取實(shí)體和關(guān)系并從此類KG推理新事實(shí)之后,正確地將實(shí)體和關(guān)系鏈接到KG。 在對應(yīng)用程序的研究中,強(qiáng)調(diào)將KG應(yīng)用于實(shí)際系統(tǒng)和特定領(lǐng)域。 本文對知識圖的應(yīng)用進(jìn)行了系統(tǒng)的調(diào)查。
2.1。 問答系統(tǒng)KG的語義信息可用于增強(qiáng)語義意識問答(QA)服務(wù)中的搜索結(jié)果。 Watson是一個(gè)使用YAGO和DBpedia等知識庫作為數(shù)據(jù)源的問題回答系統(tǒng),是IBM開發(fā)的,旨在擊敗Jeopardy程序中的人類專家,該程序可以用來展示KG的這種價(jià)值[9]。 結(jié)構(gòu)化知識也是社交聊天機(jī)器人和數(shù)字助理(例如XiaoIce [10],Cortana和Siri)的重要組成部分。 ? 2.1.2。 基于信息檢索。 基于信息檢索的質(zhì)量保證系統(tǒng)嘗試將自然語言問題自動(dòng)轉(zhuǎn)換為結(jié)構(gòu)化查詢。 然后他們從知識庫中檢索出一組候選答案。 最后,分別提出問題和候選者的特征以對這些候選者進(jìn)行排名,并提出從中識別正確答案的提議。 這種方法與自然語言問題的語義無關(guān),僅在處理簡單查詢時(shí)就取得了良好的效果。 例如,在[14]中,從給定問題中提取語言信息,例如疑問詞,問題焦點(diǎn),疑問動(dòng)詞和問題主題,以將該問題轉(zhuǎn)換為問題特征圖。 然后,形成由主題節(jié)點(diǎn)和Freebase中其他相關(guān)節(jié)點(diǎn)組成的主題圖,將主題圖中的每個(gè)節(jié)點(diǎn)視為候選答案。 最后,將從候選答案和主題圖提取的特征進(jìn)行組合,以從候選答案中識別出正確的特征。 此方法依靠規(guī)則和依存關(guān)系解析結(jié)果來提取問題的手工特征。 ? 2.1.3。 基于嵌入。 研究工作[15]是基于嵌入的QA系統(tǒng)的示例。 作者從學(xué)習(xí)給定問題和實(shí)體的低維向量嵌入開始。 然后,他們將Freebase的類型關(guān)聯(lián)起來,以計(jì)算問題和候選答案之間的相似性得分。 最后,具有最高相似度分?jǐn)?shù)的候選人將被視為最終答案。 研究工作[16]也以嵌入為核心。 它對不完善的標(biāo)記訓(xùn)練數(shù)據(jù)表現(xiàn)出誘人的適應(yīng)性。 此外,它提出了一種微調(diào)基于嵌入的模型,然后不斷提高性能的方法。 這樣的成就取決于對嵌入空間中采用的相似性進(jìn)行參數(shù)化的矩陣的精心優(yōu)化。 與語義解析方法和信息檢索方法相比,矢量建模方法在沒有任何手工特征或訓(xùn)練過程中用于詞性標(biāo)記,句法或依存關(guān)系解析的附加系統(tǒng)的情況下,具有競爭優(yōu)勢。 但是,它會忽略字序信息,并且無法處理復(fù)雜的問題。 ? 2.1.4。 基于深度學(xué)習(xí)。 隨著自然語言處理領(lǐng)域中深度學(xué)習(xí)的飛速發(fā)展,許多研究開始通過使用深度學(xué)習(xí)方法來改善傳統(tǒng)方法的性能,并取得了良好的效果。 董等。 [17]使用多列卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)進(jìn)行信息檢索,而無需依賴手工制作的功能和規(guī)則。 他們使用分?jǐn)?shù)層根據(jù)問題和候選答案的表示對候選答案進(jìn)行排名。 郝等。 [18]提供了一種具有交叉注意機(jī)制的端到端神經(jīng)網(wǎng)絡(luò)模型,該模型考慮了各種候選答案方面來表示問題及其相應(yīng)的分?jǐn)?shù)。 Yih等。 [19]認(rèn)為傳統(tǒng)語義分析的方法在很大程度上與知識庫分離。 受到信息檢索方法和嵌入方法的啟發(fā),他們減少了語義解析來查詢圖的生成,并將其表達(dá)為一個(gè)階段式搜索問題,以充分利用知識庫中的知識。 他們還應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型在早期階段利用知識庫來修剪搜索空間,從而簡化了語義匹配問題。 張等。 [20]提出了一種基于注意力的雙向長期短期記憶(BiLSTM),以學(xué)習(xí)使用嵌入方法時(shí)問題的表示形式。 實(shí)驗(yàn)結(jié)果表明,他們的方法是有效的,并且具有表達(dá)正確的問題信息的能力。 ? 2.1.5。 更復(fù)雜的任務(wù)。 近年來,一些研究還集中在更復(fù)雜的質(zhì)量檢查任務(wù)上。與其他專注于事實(shí)提取QA的工作不同,研究工作[21]專注于多跳生成任務(wù)。 根據(jù)這項(xiàng)工作,使用具有多注意機(jī)制的模型來執(zhí)行多跳推理,并由指針生成器解碼器合成答案。 這項(xiàng)工作還提出了一種方法,該方法通過使用從ConceptNet中選擇的扎根多跳關(guān)系常識信息來填補(bǔ)上下文跳之間的推理空白。 著作[22]專注于包含兩種語言的Code-Mix簡單問題QA。 它提出了Triplet-Siamese-Hybrid CNN(TSHCNN)來對候選答案進(jìn)行重新排序,并使用K-Nearest和雙語嵌入進(jìn)行語言轉(zhuǎn)換。 ? 2.2。 推薦系統(tǒng)隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,商品,電影和新聞等在線內(nèi)容的大量涌現(xiàn)成為用戶的嚴(yán)重問題。 在這種環(huán)境下出現(xiàn)的推薦系統(tǒng)減輕了個(gè)人面臨的信息過載。 協(xié)作過濾(CF)是一種傳統(tǒng)的推薦方法,可根據(jù)用戶的共同偏好和歷史互動(dòng)來執(zhí)行推薦。 但是,這種方法通常會遭受用戶數(shù)據(jù)稀疏(例如,用戶與項(xiàng)目之間的互動(dòng))以及冷啟動(dòng)問題的困擾。 因此,解決這些問題以便通過使用輔助信息來改進(jìn)推薦系統(tǒng)。 ? 2.2.1。 基于嵌入。 在推薦系統(tǒng)中利用KG的一種可行方法是基于嵌入的方法,該方法通過知識圖嵌入(KGE)算法對KG進(jìn)行預(yù)處理,并將學(xué)習(xí)到的實(shí)體嵌入應(yīng)用于推薦框架。 DKN [23]是一種基于CNN的方法,建議將實(shí)體嵌入與單詞嵌入相結(jié)合以進(jìn)行新聞推薦。 張等。 [24]提出了一個(gè)統(tǒng)一的貝葉斯框架,其中CF模塊與項(xiàng)目的文本嵌入,圖像嵌入和知識嵌入相結(jié)合。 著作[25]通過使用深層的自動(dòng)編碼器進(jìn)行推薦,開發(fā)了社交,個(gè)人資料和情感的多個(gè)網(wǎng)絡(luò)。 Wang等。 [26]設(shè)計(jì)了一個(gè)交叉和壓縮單元,以自動(dòng)在KGE任務(wù)和推薦任務(wù)之間共享潛在特征,并學(xué)習(xí)推薦系統(tǒng)中的項(xiàng)目與KG中的實(shí)體之間的高級交互。 ? 2.2.3。 其他工作。 RippleNet [29]是一種試圖結(jié)合上述兩種方法的優(yōu)點(diǎn)的方法。 它在KG中傳播用戶的潛在偏好,并發(fā)現(xiàn)他們的層次興趣。 它通過傳播偏好信息自然將KGE方法整合到推薦系統(tǒng)中,不需要任何手工設(shè)計(jì)。 但是,這種方法很少關(guān)注關(guān)系。 另外,隨著KG大小的增加,波動(dòng)集的大小可能變得不可預(yù)測,這將導(dǎo)致大量的計(jì)算和存儲開銷。 ? 2.3。 信息檢索 由于KG的出現(xiàn),當(dāng)今越來越多的基于Web的商業(yè)搜索引擎正在合并KG的實(shí)體數(shù)據(jù)以改善其搜索結(jié)果。 例如,Google合并了Google Plus和Google Knowledge Graph的數(shù)據(jù),而Facebook通過Graph Search在實(shí)體上執(zhí)行搜索任務(wù)。 ? 2.4。 特定領(lǐng)域的2.4.1。 醫(yī)療的。 在醫(yī)療保健信息爆炸性增長的同時(shí),文本醫(yī)療知識(TMK)在醫(yī)療保健信息系統(tǒng)中占有越來越重要的地位。 因此,一些研究開發(fā)了TMK并將其集成到知識圖中,從而為計(jì)算機(jī)提供了正確,快速地檢索和解釋醫(yī)學(xué)知識的方法。 恩斯特(Ernst)等人。 [37]提出了一種自動(dòng)構(gòu)建大型生物醫(yī)學(xué)知識圖的方法。 他們的數(shù)據(jù)源是來自UMLS的實(shí)體詞庫,以及來自不同健康門戶網(wǎng)站的各種科學(xué)出版物和帖子的輸入源,這些門戶無法與健康數(shù)據(jù)集成。 Shi等。 [38]成功地將健康數(shù)據(jù)整合到不同的文本醫(yī)學(xué)知識中。 他們還提供了一種算法,可以對知識圖進(jìn)行無意義的推理,以提高推理結(jié)果的性能。 古德溫(Goodwin)等人。 [39]專注于使用i2b2挑戰(zhàn)在2010年提出的框架,將醫(yī)師對斷言的信念狀態(tài)納入病歷中。 2.4.2。 網(wǎng)絡(luò)安全。 隨著信息技術(shù)的發(fā)展,信息安全越來越受到社會和行業(yè)的關(guān)注。 KG可以與網(wǎng)絡(luò)安全結(jié)合使用,以檢測和預(yù)測動(dòng)態(tài)攻擊并保護(hù)人們的網(wǎng)絡(luò)資產(chǎn)。 賈等。 [41]使用機(jī)器學(xué)習(xí)建立了一個(gè)網(wǎng)絡(luò)安全知識庫,并提出了一個(gè)五元模型來通過路徑排序算法獲得新知識。 Qi等。 [42]演示了網(wǎng)絡(luò)攻擊步驟,并通過在構(gòu)建KG時(shí)添加事件本體來定義攻擊,事件和警報(bào)之間的關(guān)系。 2.4.4。 消息。 通常,新聞是動(dòng)態(tài)的,并且會隨著時(shí)間而變化,新聞?wù)Z言高度凝結(jié),并且充滿知識實(shí)體和常識。 因此,一些研究將KG應(yīng)用于新聞?lì)I(lǐng)域來處理此類字符。 DKN [23]在新聞推薦中采用知識圖表示法來充分發(fā)現(xiàn)新聞之間潛在的知識級聯(lián)系,以便合理地為用戶擴(kuò)展推薦的結(jié)果。 文獻(xiàn)[47]開發(fā)了一種工具,可以從新聞報(bào)道中自動(dòng)構(gòu)建以事件為中心的KG,以各種語言(包括英語,意大利語,荷蘭語和西班牙語)描述世界的變化。 著作[48]聚集了描述事件的非結(jié)構(gòu)化新聞文章和結(jié)構(gòu)化Wiki數(shù)據(jù),以檢索描述事件的新聞文章。 ? 2.4.5。 教育。 在教育領(lǐng)域,一些研究已經(jīng)采用KG來學(xué)習(xí)資源推薦和概念可視化。 KnowEDU [50]是一個(gè)自動(dòng)構(gòu)建用于教育的KG的系統(tǒng)。 與普通KG中的節(jié)點(diǎn)代表共同的現(xiàn)實(shí)世界的實(shí)體不同,教育KG中的所需節(jié)點(diǎn)代表學(xué)習(xí)者應(yīng)掌握的教學(xué)概念。 因此,本研究將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模型應(yīng)用于教學(xué)數(shù)據(jù),以提取教學(xué)概念。 然后,通過概率關(guān)聯(lián)規(guī)則挖掘算法,利用學(xué)生的成績數(shù)據(jù),確定將教學(xué)概念相互聯(lián)系的教育關(guān)系。 Grévisse等[51]提出了一種推薦和整合學(xué)習(xí)材料到流行創(chuàng)作軟件中的工具。 他們通過擴(kuò)展和過濾策略利用開放式幼兒園的其他信息來構(gòu)建語義表示形式,并為教師確定最重要的概念,然后使用這些概念從開放式語料庫中查找和檢索相關(guān)的學(xué)習(xí)資源。 ? 2.5。 其他應(yīng)用程序描述社交網(wǎng)絡(luò)去匿名化和隱私推斷過程是應(yīng)用了KG的另一個(gè)應(yīng)用程序。 這樣的應(yīng)用有助于確定和衡量隱私披露[52]。 在這種情況下,節(jié)點(diǎn)代表用戶,而鏈接代表用戶的關(guān)系。 去匿名化的問題被轉(zhuǎn)換為最大加權(quán)二分匹配問題,并且局部敏感哈希(LSH)被用于隱私推斷。 ? 3.結(jié)論 據(jù)我們所知,本文是第一個(gè)系統(tǒng)地回顧知識圖的不同應(yīng)用的知識,這些知識圖來自于問題解答,推薦,信息檢索和其他領(lǐng)域等不同領(lǐng)域。 總的來說,我們得出的結(jié)論是,盡管知識圖具有提供語義結(jié)構(gòu)化信息的強(qiáng)大能力,并且近年來在將這種能力應(yīng)用于特定領(lǐng)域方面取得了重要進(jìn)展,但仍有幾個(gè)方面有待探索。 參考文獻(xiàn) Zou X. A survey on application of knowledge graph[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1487(1): 012016. 來源:https://www./content-4-872151.html |
|