知識圖譜技術是人工智能技術的組成部分,其強大的語義處理和互聯(lián)組織能力,為智能化信息應用提供了基礎。以下內容涵蓋了基本定義與架構、代表性知識圖譜庫、構建技術、開源庫和典型應用。 引言 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡數(shù)據(jù)內容呈現(xiàn)爆炸式增長的態(tài)勢。由于互聯(lián)網(wǎng)內容的大規(guī)模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰(zhàn)。知識圖譜(Knowledge Graph) 以其強大的語義處理能力和開放組織能力,為互聯(lián)網(wǎng)時代的知識化組織和智能應用奠定了基礎。最近,大規(guī)模知識圖譜庫的研究和應用在學術界和工業(yè)界引起了足夠的注意力[1-5]。一個知識圖譜旨在描述現(xiàn)實世界中存在的實體以及實體之間的關系。知識圖譜于2012年5月17日由[Google]正式提出[6],其初衷是為了提高搜索引擎的能力,改善用戶的搜索質量以及搜索體驗。隨著人工智能的技術發(fā)展和應用,知識圖譜作為關鍵技術之一,已被廣泛應用于智能搜索、智能問答、個性化推薦、內容分發(fā)等領域。 知識圖譜的定義 在維基百科的官方詞條中:知識圖譜是Google用于增強其搜索引擎功能的知識庫。本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網(wǎng)絡圖,節(jié)點表示實體或概念,邊則由屬性或關系構成?,F(xiàn)在的知識圖譜已被用來泛指各種大規(guī)模的知識庫。 在具體介紹知識圖譜的定義,我們先來看下知識類型的定義: 知識圖譜中包含三種節(jié)點: 實體: 指的是具有可區(qū)別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物有具體事物組成,此指實體。如圖1的“中國”、“美國”、“日本”等。,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。 語義類(概念):具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。 內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。 屬性(值): 從一個實體指向它的屬性值。不同的屬性類型對應于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如圖1所示的“面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。 關系: 形式化為一個函數(shù),它把kk個點映射到一個布爾值。在知識圖譜上,關系則是一個把kk個圖節(jié)點(實體、語義類、屬性值)映射到布爾值的函數(shù)。 基于上述定義?;谌M是知識圖譜的一種通用表示方式,即,其中,是知識庫中的實體集合,共包含|E|種不同實體; 是知識庫中的關系集合,共包含|R|種不同關系;代表知識庫中的三元組集合。三元組的基本形式主要包括(實體1-關系-實體2)和(實體-屬性-屬性值)等。每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-value pair,AVP)可用來刻畫實體的內在特性,而關系可用來連接兩個實體,刻畫它們之間的關聯(lián)。如下圖1的知識圖譜例子所示,中國是一個實體,北京是一個實體,中國-首都-北京 是一個(實體-關系-實體)的三元組樣例北京是一個實體 ,人口是一種屬性2069.3萬是屬性值。北京-人口-2069.3萬構成一個(實體-屬性-屬性值)的三元組樣例。 圖1 知識圖譜示例 知識圖譜的架構 知識圖譜的架構包括自身的邏輯結構以及構建知識圖譜所采用的技術(體系)架構。 1) 知識圖譜的邏輯結構 知識圖譜在邏輯上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質,例如開源的Neo4j[7]、Twitter的FlockDB[8]、sones的GraphDB[9]等。模式層構建在數(shù)據(jù)層之上,是知識圖譜的核心,通常采用本體庫來管理知識圖譜的模式層。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小。 2) 知識圖譜的體系架構 圖2 知識圖譜的技術架構 知識圖譜的體系架構是其指構建模式結構,如圖2所示。其中虛線框內的部分為知識圖譜的構建過程,也包含知識圖譜的更新過程。知識圖譜構建從最原始的數(shù)據(jù)(包括結構化、半結構化、非結構化數(shù)據(jù))出發(fā),采用一系列自動或者半自動的技術手段,從原始數(shù)據(jù)庫和第三方數(shù)據(jù)庫中提取知識事實,并將其存入知識庫的數(shù)據(jù)層和模式層,這一過程包含:信息抽取、知識表示、知識融合、知識推理四個過程,每一次更新迭代均包含這四個階段。知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。該構建方式需要利用一些現(xiàn)有的結構化知識庫作為其基礎知識庫,例如Freebase項目就是采用這種方式,它的絕大部分數(shù)據(jù)是從維基百科中得到的。自底向上指的是從一些開放鏈接數(shù)據(jù)中提取出實體,選擇其中置信度較高的加入到知識庫,再構建頂層的本體模式[10]。目前,大多數(shù)知識圖譜都采用自底向上的方式進行構建,其中最典型就是Google的Knowledge Vault[11]和微軟的Satori知識庫。現(xiàn)在也符合互聯(lián)網(wǎng)數(shù)據(jù)內容知識產生的特點。 代表性知識圖譜庫 根據(jù)覆蓋范圍而言,知識圖譜也可分為開放域通用知識圖譜和垂直行業(yè)知識圖譜[12]。開放通用知識圖譜注重廣度,強調融合更多的實體,較垂直行業(yè)知識圖譜而言,其準確度不夠高,并且受概念范圍的影響,很難借助本體庫對公理、規(guī)則以及約束條件的支持能力規(guī)范其實體、屬性、實體間的關系等。通用知識圖譜主要應用于智能搜索等領域。行業(yè)知識圖譜通常需要依靠特定行業(yè)的數(shù)據(jù)來構建,具有特定的行業(yè)意義。行業(yè)知識圖譜中,實體的屬性與數(shù)據(jù)模式往往比較豐富,需要考慮到不同的業(yè)務場景與使用人員。下圖展示了現(xiàn)在知名度較高的大規(guī)模知識庫。 圖3 代表性知識圖譜庫概覽 知識圖譜構建的關鍵技術 大規(guī)模知識庫的構建與應用需要多種技術的支持。通過知識提取技術,可以從一些公開的半結構化、非結構化和第三方結構化數(shù)據(jù)庫的數(shù)據(jù)中提取出實體、關系、屬性等知識要素。知識表示則通過一定有效手段對知識要素表示,便于進一步處理使用。然后通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。接下來,本文將以知識抽取、知識表示、知識融合以及知識推理技術為重點,選取代表性的方法,說明其中的相關研究進展和實用技術手段 。 1 知識提取 知識抽取主要是面向開放的鏈接數(shù)據(jù),通常典型的輸入是自然語言文本或者多媒體內容文檔(圖像或者視頻)等。然后通過自動化或者半自動化的技術抽取出可用的知識單元,知識單元主要包括實體(概念的外延)、關系以及屬性3個知識要素,并以此為基礎,形成一系列高質量的事實表達,為上層模式層的構建奠定基礎。 1.1 實體抽取 實體抽取也稱為命名實體學習(named entity learning) 或命名實體識別 (named entity recognition),指的是從原始數(shù)據(jù)語料中自動識別出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識圖譜構建的質量。因此,實體抽取是知識抽取中最為基礎與關鍵的一步。參照文獻[13],我們可以將實體抽取的方法分為4種:基于百科站點或垂直站點提取、基于規(guī)則與詞典的方法、基于統(tǒng)計機器學習的方法以及面向開放域的抽取方法?;诎倏普军c或垂直站點提取則是一種很常規(guī)基本的提取方法;基于規(guī)則的方法通常需要為目標實體編寫模板,然后在原始語料中進行匹配;基于統(tǒng)計機器學習的方法主要是通過機器學習的方法對原始語料進行訓練,然后再利用訓練好的模型去識別實體;面向開放域的抽取將是面向海量的Web語料[14]。 1) 基于百科或垂直站點提取 基于百科站點或垂直站點提取這種方法是從百科類站點(如維基百科、百度百科、互動百科等)的標題和鏈接中提取實體名。這種方法的優(yōu)點是可以得到開放互聯(lián)網(wǎng)中最常見的實體名,其缺點是對于中低頻的覆蓋率低。與一般性通用的網(wǎng)站相比,垂直類站點的實體提取可以獲取特定領域的實體。例如從豆瓣各頻道(音樂、讀書、電影等)獲取各種實體列表。這種方法主要是基于爬取技術來實現(xiàn)和獲取。基于百科類站點或垂直站點是一種最常規(guī)和基本的方法。 2) 基于規(guī)則與詞典的實體提取方法 早期的實體抽取是在限定文本領域、限定語義單元類型的條件下進行的,主要采用的是基于規(guī)則與詞典的方法,例如使用已定義的規(guī)則,抽取出文本中的人名、地名、組織機構名、特定時間等實體[15]。文獻[16]首次實現(xiàn)了一套能夠抽取公司名稱的實體抽取系統(tǒng),其中主要用到了啟發(fā)式算法與規(guī)則模板相結合的方法。然而,基于規(guī)則模板的方法不僅需要依靠大量的專家來編寫規(guī)則或模板,覆蓋的領域范圍有限,而且很難適應數(shù)據(jù)變化的新需求。 3) 基于統(tǒng)計機器學習的實體抽取方法 鑒于基于規(guī)則與詞典實體的局限性,為具更有可擴展性,相關研究人員將機器學習中的監(jiān)督學習算法用于命名實體的抽取問題上。例如文獻[17]利用KNN算法與條件隨機場模型,實現(xiàn)了對Twitter文本數(shù)據(jù)中實體的識別。單純的監(jiān)督學習算法在性能上不僅受到訓練集合的限制,并且算法的準確率與召回率都不夠理想。相關研究者認識到監(jiān)督學習算法的制約性后,嘗試將監(jiān)督學習算法與規(guī)則相互結合,取得了一定的成果。例如文獻[18]基于字典,使用最大熵算法在Medline論文摘要的GENIA數(shù)據(jù)集上進行了實體抽取實驗,實驗的準確率與召回率都在70%以上。近年來隨著深度學習的興起應用,基于深度學習的命名實體識別得到廣泛應用。在文獻[19],介紹了一種基于雙向LSTM深度神經網(wǎng)絡和條件隨機場的識別方法,在測試數(shù)據(jù)上取得的最好的表現(xiàn)結果。 圖4 基于BI-LSTM和CRF的架構 4) 面向開放域的實體抽取方法 針對如何從少量實體實例中自動發(fā)現(xiàn)具有區(qū)分力的模式,進而擴展到海量文本去給實體做分類與聚類的問題,文獻[20]提出了一種通過迭代方式擴展實體語料庫的解決方案,其基本思想是通過少量的實體實例建立特征模型,再通過該模型應用于新的數(shù)據(jù)集得到新的命名實體。文獻[21]提出了一種基于無監(jiān)督學習的開放域聚類算法,其基本思想是基于已知實體的語義特征去搜索日志中識別出命名的實體,然后進行聚類。 1.2 語義類抽取 語義類抽取是指從文本中自動抽取信息來構造語義類并建立實體和語義類的關聯(lián), 作為實體層面上的規(guī)整和抽象。以下介紹一種行之有效的語義類抽取方法,包含三個模塊:并列度相似計算、上下位關系提取以及語義類生成 [22]。 1) 并列相似度計算 并列相似度計算其結果是詞和詞之間的相似性信息,例如三元組(蘋果,梨,s1)表示蘋果和梨的相似度是s1。兩個詞有較高的并列相似度的條件是它們具有并列關系(即同屬于一個語義類),并且有較大的關聯(lián)度。按照這樣的標準,北京和上海具有較高的并列相似度,而北京和汽車的并列相似度很低(因為它們不屬于同一個語義類)。對于海淀、朝陽、閔行三個市轄區(qū)來說,海淀和朝陽的并列相似度大于海淀和閔行的并列相似度(因為前兩者的關聯(lián)度更高)。 當前主流的并列相似度計算方法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度方法[23-24]基于哈里斯(Harris)的分布假設(distributional hypothesis)[25],即經常出現(xiàn)在類似的上下文環(huán)境中的兩個詞具有語義上的相似性。分布相似度方法的實現(xiàn)分三個步驟:第一步,定義上下文;第二步,把每個詞表示成一個特征向量,向量每一維代表一個不同的上下文,向量的值表示本詞相對于上下文的權重;第三步,計算兩個特征向量之間的相似度,將其作為它們所代表的詞之間的相似度。 模式匹配法的基本思路是把一些模式作用于源數(shù)據(jù),得到一些詞和詞之間共同出現(xiàn)的信息,然后把這些信息聚集起來生成單詞之間的相似度。模式可以是手工定義的,也可以是根據(jù)一些種子數(shù)據(jù)而自動生成的。分布相似度法和模式匹配法都可以用來在數(shù)以百億計的句子中或者數(shù)以十億計的網(wǎng)頁中抽取詞的相似性信息。有關分布相似度法和模式匹配法所生成的相似度信息的質量比較參見文獻。 2) 上下位關系提取 該該模塊從文檔中抽取詞的上下位關系信息,生成(下義詞,上義詞)數(shù)據(jù)對,例如(狗,動物)、(悉尼,城市)。提取上下位關系最簡單的方法是解析百科類站點的分類信息(如維基百科的“分類”和百度百科的“開放分類”)。這種方法的主要缺點包括:并不是所有的分類詞條都代表上位詞,例如百度百科中“狗”的開放分類“養(yǎng)殖”就不是其上位詞;生成的關系圖中沒有權重信息,因此不能區(qū)分同一個實體所對應的不同上位詞的重要性;覆蓋率偏低,即很多上下位關系并沒有包含在百科站點的分類信息中。 在英文數(shù)據(jù)上用Hearst 模式和IsA 模式進行模式匹配被認為是比較有效的上下位關系抽取方法。下面是這些模式的中文版本(其中NPC 表示上位詞,NP 表示下位詞): NPC { 包括| 包含| 有} {NP、}* [ 等| 等等] NPC { 如| 比如| 像| 象} {NP、}* {NP、}* [{ 以及| 和| 與} NP] 等 NPC {NP、}* { 以及| 和| 與} { 其它| 其他} NPC NP 是 { 一個| 一種| 一類} NPC 此外,一些網(wǎng)頁表格中包含有上下位關系信息,例如在帶有表頭的表格中,表頭行的文本是其它行的上位詞。 3) 語義類生成 該模塊包括聚類和語義類標定兩個子模塊。聚類的結果決定了要生成哪些語義類以及每個語義類包含哪些實體,而語義類標定的任務是給一個語義類附加一個或者多個上位詞作為其成員的公共上位詞。此模塊依賴于并列相似性和上下位關系信息來進行聚類和標定。有些研究工作只根據(jù)上下位關系圖來生成語義類,但經驗表明并列相似性信息對于提高最終生成的語義類的精度和覆蓋率都至關重要。 1.3 屬性和屬性值抽取 屬性提取的任務是為每個本體語義類構造屬性列表(如城市的屬性包括面積、人口、所在國家、地理位置等),而屬性值提取則為一個語義類的實體附加屬性值。屬性和屬性值的抽取能夠形成完整的實體概念的知識圖譜維度。常見的屬性和屬性值抽取方法包括從百科類站點中提取,從垂直網(wǎng)站中進行包裝器歸納,從網(wǎng)頁表格中提取,以及利用手工定義或自動生成的模式從句子和查詢日志中提取。 常見的語義類/ 實體的常見屬性/ 屬性值可以通過解析百科類站點中的半結構化信息(如維基百科的信息盒和百度百科的屬性表格)而獲得。盡管通過這種簡單手段能夠得到高質量的屬性,但同時需要采用其它方法來增加覆蓋率(即為語義類增加更多屬性以及為更多的實體添加屬性值)。 圖5 愛因斯坦信息頁 由于垂直網(wǎng)站(如電子產品網(wǎng)站、圖書網(wǎng)站、電影網(wǎng)站、音樂網(wǎng)站)包含有大量實體的屬性信息。例如上圖的網(wǎng)頁中包含了圖書的作者、出版社、出版時間、評分等信息。通過基于一定規(guī)則模板建立,便可以從垂直站點中生成包裝器(或稱為模版),并根據(jù)包裝器來提取屬性信息。從包裝器生成的自動化程度來看,這些方法可以分為手工法(即手工編寫包裝器)、監(jiān)督方法、半監(jiān)督法以及無監(jiān)督法??紤]到需要從大量不同的網(wǎng)站中提取信息,并且網(wǎng)站模版可能會更新等因素,無監(jiān)督包裝器歸納方法顯得更加重要和現(xiàn)實。無監(jiān)督包裝器歸納的基本思路是利用對同一個網(wǎng)站下面多個網(wǎng)頁的超文本標簽樹的對比來生成模版。簡單來看,不同網(wǎng)頁的公共部分往往對應于模版或者屬性名,不同的部分則可能是屬性值,而同一個網(wǎng)頁中重復的標簽塊則預示著重復的記錄。 屬性抽取的另一個信息源是網(wǎng)頁表格。表格的內容對于人來說一目了然,而對于機器而言,情況則要復雜得多。由于表格類型千差萬別,很多表格制作得不規(guī)則,加上機器缺乏人所具有的背景知識等原因,從網(wǎng)頁表格中提取高質量的屬性信息成為挑戰(zhàn)。 上述三種方法的共同點是通過挖掘原始數(shù)據(jù)中的半結構化信息來獲取屬性和屬性值。與通過“閱讀”句子來進行信息抽取的方法相比,這些方法繞開了自然語言理解這樣一個“硬骨頭”而試圖達到以柔克剛的效果。在現(xiàn)階段,計算機知識庫中的大多數(shù)屬性值確實是通過上述方法獲得的。但現(xiàn)實情況是只有一部分的人類知識是以半結構化形式體現(xiàn)的,而更多的知識則隱藏在自然語言句子中,因此直接從句子中抽取信息成為進一步提高知識庫覆蓋率的關鍵。當前從句子和查詢日志中提取屬性和屬性值的基本手段是模式匹配和對自然語言的淺層處理。圖6 描繪了為語義類抽取屬性名的主框架(同樣的過程也適用于為實體抽取屬性值)。圖中虛線左邊的部分是輸入,它包括一些手工定義的模式和一個作為種子的(詞,屬性)列表。模式的例子參見表3,(詞,屬性)的例子如(北京,面積)。在只有語義類無關的模式作為輸入的情況下,整個方法是一個在句子中進行模式匹配而生成(語義類,屬性)關系圖的無監(jiān)督的知識提取過程。此過程分兩個步驟,第一個步驟通過將輸入的模式作用到句子上而生成一些(詞,屬性)元組,這些數(shù)據(jù)元組在第二個步驟中根據(jù)語義類進行合并而生成(語義類,屬性)關系圖。在輸入中包含種子列表或者語義類相關模式的情況下,整個方法是一個半監(jiān)督的自舉過程,分三個步驟: 模式生成:在句子中匹配種子列表中的詞和屬性從而生成模式。模式通常由詞和屬性的環(huán)境信息而生成。 模式匹配。 模式評價與選擇:通過生成的(語義類,屬性)關系圖對自動生成的模式的質量進行自動評價并選擇高分值的模式作為下一輪匹配的輸入。 1.3 關系抽取 關系抽取的目標是解決實體語義鏈接的問題。關系的基本信息包括參數(shù)類型、滿足此關系的元組模式等。例如關系BeCapitalOf(表示一個國家的首都)的基本信息如下: 參數(shù)類型:(Capital, Country) 模式: 元組:(北京,中國);(華盛頓,美國);Capital 和 Country表示首都和國家兩個語義類。 早期的關系抽取主要是通過人工構造語義規(guī)則以及模板的方法識別實體關系。隨后,實體間的關系模型逐漸替代了人工預定義的語法與規(guī)則。但是仍需要提前定義實體間的關系類型。 文獻[26]提出了面向開放域的信息抽取框架 (open information extraction,OIE),這是抽取模式上的一個巨大進步。但OIE方法在對實體的隱含關系抽取方面性能低下,因此部分研究者提出了基于馬爾可夫邏輯網(wǎng)、基于本體推理的深層隱含關系抽取方法[27]。 開放式實體關系抽取 開放式實體關系抽取可分為二元開放式關系抽取和n元開放式關系抽取。在二元開放式關系抽取中,早期的研究有KnowItAll[28]與TextRunner[27]系統(tǒng),在準確率與召回率上表現(xiàn)一般。文獻[29]提出了一種基于Wikipedia的OIE方法WOE,經自監(jiān)督學習得到抽取器,準確率較TextRunner有明顯的提高。針對WOE的缺點,文獻[30]提出了第二代OIE ReVerb系統(tǒng),以動詞關系抽取為主。文獻[31]提出了第三代OIE系統(tǒng)OLLIE(open language learning for information extraction),嘗試彌補并擴展OIE的模型及相應的系統(tǒng),抽取結果的準確度得到了增強。 然而,基于語義角色標注的OIE分析顯示:英文語句中40%的實體關系是n元的[32],如處理不當,可能會影響整體抽取的完整性。文獻[33]提出了一種可抽取任意英文語句中n元實體關系的方法KPAKEN,彌補了ReVerb的不足。但是由于算法對語句深層語法特征的提取導致其效率顯著下降,并不適用于大規(guī)模開放域語料的情況。 基于聯(lián)合推理的實體關系抽取 聯(lián)合推理的關系抽取中的典型方法是馬爾可夫邏輯網(wǎng)MLN(Markov logic network)[34],它是一種將馬爾可夫網(wǎng)絡與一階邏輯相結合的統(tǒng)計關系學習框架,同時也是在OIE中融入推理的一種重要實體關系抽取模型。基于該模型,文獻[35]提出了一種無監(jiān)督學習模型StatSnowball,不同于傳統(tǒng)的OIE,該方法可自動產生或選擇模板生成抽取器。在StatSnowball的基礎上,文獻[27,36]提出了一種實體識別與關系抽取相結合的模型EntSum,主要由擴展的CRF命名實體識別模塊與基于StatSnowball的關系抽取模塊組成,在保證準確率的同時也提高了召回率。文獻[27,37]提出了一種簡易的Markov邏輯TML(tractable Markov logic),TML將領域知識分解為若干部分,各部分主要來源于事物類的層次化結構,并依據(jù)此結構,將各大部分進一步分解為若干個子部分,以此類推。TML具有較強的表示能力,能夠較為簡潔地表示概念以及關系的本體結構。 2 知識表示 傳統(tǒng)的知識表示方法主要是以RDF(Resource Deion Framework資源描述框架)的三元組SPO(subject,property,object)來符號性描述實體之間的關系。這種表示方法通用簡單,受到廣泛認可,但是其在計算效率、數(shù)據(jù)稀疏性等方面面臨諸多問題。近年來,以深度學習為代表的以深度學習為代表的表示學習技術取得了重要的進展,可以將實體的語義信息表示為稠密低維實值向量,進而在低維空間中高效計算實體、關系及其之間的復雜語義關聯(lián),對知識庫的構建、推理、融合以及應用均具有重要的意義[38-40]。 2.1 代表模型 知識表示學習的代表模型有距離模型、單層神經網(wǎng)絡模型、雙線性模型、神經張量模型、矩陣分解模型、翻譯模型等。詳細可參見清華大學劉知遠的知識表示學習研究進展。相關實現(xiàn)也可參見 [39]。 1)距離模型 距離模型在文獻[41] 提出了知識庫中實體以及關系的結構化表示方法(structured embedding,SE),其基本思想是:首先將實體用向量進行表示,然后通過關系矩陣將實體投影到與實體關系對的向量空間中,最后通過計算投影向量之間的距離來判斷實體間已存在的關系的置信度。由于距離模型中的關系矩陣是兩個不同的矩陣,使得協(xié)同性較差。 2)單層神經網(wǎng)絡模型 文獻[42]針對上述提到的距離模型中的缺陷,提出了采用單層神經網(wǎng)絡的非線性模型(single layer model,SLM),模型為知識庫中每個三元組(h,r,t) 定義了以下形式的評價函數(shù): 式中, ut的T次冪∈R的k次冪為關系 r 的向量化表示;g()為tanh函數(shù); Mr,1×Mr,2∈R的k次冪是通過關系r定義的兩個矩陣。單層神經網(wǎng)絡模型的非線性操作雖然能夠進一步刻畫實體在關系下的語義相關性,但在計算開銷上卻大大增加。 3)雙線性模型 雙 線 性 模 型 又 叫 隱 變 量 模 型 (latent factor model,LFM),由文獻[43-44]首先提出。模型為知識庫中每個三元組 定義的評價函數(shù)具有如下形式: 式中,Mr∈R的d×d次冪是通過關系r 定義的雙線性變換矩陣; lh×lt∈R的d次冪是三元組中頭實體與尾實體的向量化表示。雙線性模型主要是通過基于實體間關系的雙線性變換來刻畫實體在關系下的語義相關性。模型不僅形式簡單、易于計算,而且還能夠有效刻畫實體間的協(xié)同性?;谏鲜龉ぷ?,文獻[45]嘗試將雙線性變換矩陣r M 變換為對角矩陣, 提出了DISTMULT模型,不僅簡化了計算的復雜度,并且實驗效果得到了顯著提升。 4)神經張量模型 文獻[45]提出的神經張量模型,其基本思想是:在不同的維度下,將實體聯(lián)系起來,表示實體間復雜的語義聯(lián)系。模型為知識庫中的每個三元組(h,r,t)定義了以下形式的評價函數(shù): 式中, ut的T次冪∈R的k次冪為關系 r 的向量化表示;g()為tanh函數(shù); Mr∈d×k×k是一個三階張量;Mr,1×Mr,2∈R的k次冪是通過關系r定義的兩個矩陣。 神經張量模型在構建實體的向量表示時,是將該實體中的所有單詞的向量取平均值,這樣一方面可以重復使用單詞向量構建實體,另一方面將有利于增強低維向量的稠密程度以及實體與關系的語義計算。 5)矩陣分解模型 通過矩陣分解的方式可得到低維的向量表示,故不少研究者提出可采用該方式進行知識表示學習,其中的典型代表是文獻[46]提出的RESACL模型。在RESCAL模型中,知識庫中的三元組集合被表示為一個三階張量,如果該三元組存在,張量中對應位置的元素被置1,否則置為0。通過張量分解算法,可將張量中每個三元組(h,r,t)對應的張量值解為雙線性模型中的知識表示形式lh的T次冪×Mr×lt并使|Xhrt-lh的T次冪×Mr×l|盡量小。 6)翻譯模型 文獻[47]受到平移不變現(xiàn)象的啟發(fā),提出了TransE模型,即將知識庫中實體之間的關系看成是從實體間的某種平移,并用向量表示。關系lr可以看作是從頭實體向量到尾實體向量lt的翻譯。對于知識庫中的每個三元組(h,r,t),TransE都希望滿足以下關系|lh+lt≈lt|:,其損失函數(shù)為:fr(h,t)=|lh+lr-lt|L1/L2, 該模型的參數(shù)較少,計算的復雜度顯著降低。與此同時,TransE模型在大規(guī)模稀疏知識庫上也同樣具有較好的性能和可擴展性。 2.2 復雜關系模型 知識庫中的實體關系類型也可分為1-to-1、1-to-N、N-to-1、N-to-N4種類型[47],而復雜關系主要指的是1-to-N、N-to-1、N-to-N的3種關系類型。由于TransE模型不能用在處理復雜關系上[39],一系列基于它的擴展模型紛紛被提出,下面將著重介紹其中的幾項代表性工作。 1)TransH模型 文獻[48]提出的TransH模型嘗試通過不同的形式表示不同關系中的實體結構,對于同一個實體而言,它在不同的關系下也扮演著不同的角色。模型首先通過關系向量lr與其正交的法向量wr選取某一個超平面F, 然后將頭實體向量lh和尾實體向量lt法向量wr的方向投影到F, 最后計算損失函數(shù)。TransH使不同的實體在不同的關系下?lián)碛辛瞬煌谋硎拘问剑捎趯嶓w向量被投影到了關系的語義空間中,故它們具有相同的維度。 2)TransR模型 由于實體、關系是不同的對象,不同的關系所關注的實體的屬性也不盡相同,將它們映射到同一個語義空間,在一定程度上就限制了模型的表達能力。所以,文獻[49]提出了TransR模型。模型首先將知識庫中的每個三元組(h, r,t)的頭實體與尾實體向關系空間中投影,然后希望滿足|lh+lt≈lt|的關系,最后計算損失函數(shù)。 文獻[49]提出的CTransR模型認為關系還可做更細致的劃分,這將有利于提高實體與關系的語義聯(lián)系。在CTransR模型中,通過對關系r 對應的頭實體、尾實體向量的差值lh-lt進行聚類,可將r分為若干個子關系rc 。 3)TransD模型 考慮到在知識庫的三元組中,頭實體和尾實體表示的含義、類型以及屬性可能有較大差異,之前的TransR模型使它們被同一個投影矩陣進行映射,在一定程度上就限制了模型的表達能力。除此之外,將實體映射到關系空間體現(xiàn)的是從實體到關系的語 義聯(lián)系,而TransR模型中提出的投影矩陣僅考慮了不同的關系類型,而忽視了實體與關系之間的交互。因此,文獻[50]提出了TransD模型,模型分別定義了頭實體與尾實體在關系空間上的投影矩陣。 4)TransG模型 文獻[51]提出的TransG模型認為一種關系可能會對應多種語義,而每一種語義都可以用一個高斯分布表示。TransG模型考慮到了關系r 的不同語義,使用高斯混合模型來描述知識庫中每個三元組(h,r,t)頭實體與尾實體之間的關系,具有較高的實體區(qū)分。(本文來自網(wǎng)絡,著作權歸原作者所有) |
|
來自: 遠志a1wu9ydemi > 《知識圖譜》