小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

[干貨]知識圖譜構(gòu)建的關(guān)鍵技術(shù)

 anjm 2020-02-22

大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種技術(shù)的支持。通過知識提取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化和第三方結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識要素。

知識表示則通過一定有效手段對知識要素表示,便于進(jìn)一步處理使用。然后通過知識融合,可消除實(shí)體、關(guān)系、屬性等指稱項與事實(shí)對象之間的歧義,形成高質(zhì)量的知識庫。知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。

接下來,本文將以知識抽取、知識表示、知識融合及知識推理技術(shù)為重點(diǎn),選取代表性的方法,說明其中的相關(guān)研究進(jìn)展和實(shí)用技術(shù)手段 。

知識抽取主要是面向開放的鏈接數(shù)據(jù),通常典型的輸入是自然語言文本或者多媒體內(nèi)容文檔等。然后通過自動化或者半自動化的技術(shù)抽取出可用的知識單元,知識單元主要包括實(shí)體、關(guān)系以及屬性3個知識要素,并以此為基礎(chǔ),形成一系列高質(zhì)量的事實(shí)表達(dá),為上層模式層的構(gòu)建奠定基礎(chǔ)。

1.1實(shí)體抽取

實(shí)體抽取也稱為命名實(shí)體學(xué)習(xí)或命名實(shí)體識別,指的是從原始數(shù)據(jù)語料中自動識別出命名實(shí)體。由于實(shí)體是知識圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確率、召回率等將直接影響到知識圖譜構(gòu)建的質(zhì)量。

我們將實(shí)體抽取的方法分為4種:基于百科站點(diǎn)或垂直站點(diǎn)提取、基于規(guī)則與詞典的方法、基于統(tǒng)計機(jī)器學(xué)習(xí)的方法以及面向開放域的抽取方法。

1.2語義類抽取

語義類抽取是指從文本中自動抽取信息來構(gòu)造語義類并建立實(shí)體和語義類的關(guān)聯(lián), 作為實(shí)體層面上的規(guī)整和抽象。有一種行之有效的語義類抽取方法,包含三個模塊:并列度相似計算、上下位關(guān)系提取以及語義類生成。

1.3屬性和屬性值抽取

屬性提取的任務(wù)是為每個本體語義類構(gòu)造屬性列表,而屬性值提取則為一個語義類的實(shí)體附加屬性值。屬性和屬性值的抽取能夠形成完整的實(shí)體概念的知識圖譜維度。

1.4關(guān)系抽取

關(guān)系抽取的目標(biāo)是解決實(shí)體語義鏈接的問題。關(guān)系的基本信息包括參數(shù)類型、滿足此關(guān)系的元組模式等。


傳統(tǒng)的知識表示方法主要是以RDF(Resource Description Framework資源描述框架)的三元組SPO(subject, predicate,object)來符號性描述實(shí)體之間的關(guān)系。但是其在計算效率、數(shù)據(jù)稀疏性等方面面臨諸多問題。

近年來,以深度學(xué)習(xí)為代表的學(xué)習(xí)技術(shù)取得了重要的進(jìn)展,可以將實(shí)體的語義信息表示為稠密低維實(shí)值向量,進(jìn)而在低維空間中高效計算實(shí)體、關(guān)系及其之間的復(fù)雜語義關(guān)聯(lián),對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。

2.1代表模型

知識表示學(xué)習(xí)的代表模型有距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、雙線性模型、神經(jīng)張量模型、矩陣分解模型、翻譯模型等。

2.2 復(fù)雜關(guān)系模型

知識庫中的實(shí)體關(guān)系類型也可分為1-to-1、1-to-N、N-to-1、N-to-N4種類型,而復(fù)雜關(guān)系主要指的是1-to-N、N-to-1、N-to-N的3種關(guān)系類型。

現(xiàn)在已經(jīng)從最開始的TransH模型發(fā)展到了用高斯分布來刻畫實(shí)體與關(guān)系的KG2E模型,模型使用高斯分布的均值表示實(shí)體或關(guān)系在語義空間中的中心位置,協(xié)方差則表示實(shí)體或關(guān)系的不確定度

通過知識提取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體、關(guān)系以及實(shí)體屬性信息的目標(biāo)。但是由于知識來源廣泛,存在知識質(zhì)量良莠不齊、來自不同數(shù)據(jù)源的知識重復(fù)、層次結(jié)構(gòu)缺失等問題,所以必須要進(jìn)行知識的融合。

3.1 實(shí)體對齊

實(shí)體對齊也稱為實(shí)體匹配或?qū)嶓w解析或者實(shí)體鏈接,主要是用于消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明等不一致性問題,可以從頂層創(chuàng)建一個大規(guī)模的統(tǒng)一知識庫,從而幫助機(jī)器理解多源異質(zhì)的數(shù)據(jù),形成高質(zhì)量的知識。

1)成對實(shí)體對齊方法

① 基于傳統(tǒng)概率模型的實(shí)體對齊方法主要就是考慮兩個實(shí)體各自屬性的相似性,而并不考慮實(shí)體間的關(guān)系。

② 基于機(jī)器學(xué)習(xí)的實(shí)體對齊方法主要是將實(shí)體對齊問題轉(zhuǎn)化為二分類問題。根據(jù)是否使用標(biāo)注數(shù)據(jù)可分為有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)兩類,基于監(jiān)督學(xué)習(xí)的實(shí)體對齊方法主要可分為成對實(shí)體對齊、基于聚類的對齊、主動學(xué)習(xí)。

2)局部集體實(shí)體對齊方法

局部集體實(shí)體對齊方法為實(shí)體本身的屬性以及與它有關(guān)聯(lián)的實(shí)體的屬性分別設(shè)置不同的權(quán)重,并通過加權(quán)求和計算總體的相似度,還可使用向量空間模型以及余弦相似性來判別大規(guī)模知識庫中的實(shí)體的相似程度。

3)全局集體實(shí)體對齊方法

① 基于相似性傳播的集體實(shí)體對齊方法是一種典型的集體實(shí)體對齊方法,匹配的兩個實(shí)體與它們產(chǎn)生直接關(guān)聯(lián)的其他實(shí)體也會具有較高的相似性。
② 基于概率模型的集體實(shí)體對齊方法基于概率模型的集體實(shí)體對齊方法主要采用統(tǒng)計關(guān)系學(xué)習(xí)進(jìn)行計算與推理,常用的方法有LDA模型、CRF模型、Markov邏輯網(wǎng)等。

3.2知識加工

通過實(shí)體對齊,可以得到一系列的基本事實(shí)表達(dá)或初步的本體雛形,然而事實(shí)并不等于知識,它只是知識的基本單位。要形成高質(zhì)量的知識,還需要經(jīng)過知識加工的過程,從層次上形成一個大規(guī)模的知識體系,統(tǒng)一對知識進(jìn)行管理。

1)本體構(gòu)建

本體是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語義基礎(chǔ), 其在知識圖譜中的地位相當(dāng)于知識庫的模具,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。


本體可通過人工編輯的方式手動構(gòu)建,也可通過數(shù)據(jù)驅(qū)動自動構(gòu)建,然后再經(jīng)質(zhì)量評估方法與人工審核相結(jié)合的方式加以修正與確認(rèn)。

2)質(zhì)量評估

對知識庫的質(zhì)量評估任務(wù)通常是與實(shí)體對齊任務(wù)一起進(jìn)行的,其意義在于,可以對知識的可信度進(jìn)行量化,保留置信度較高的,舍棄置信度較低的,有效確保知識的質(zhì)量。

3.3 知識更新

人類的認(rèn)知能力、知識儲備以及業(yè)務(wù)需求都會隨時間而不斷遞增。因此,知識圖譜的內(nèi)容也需要與時俱進(jìn),不論是通用知識圖譜,還是行業(yè)知識圖譜,它們都需要不斷地迭代更新,擴(kuò)展現(xiàn)有的知識,增加新的知識。

知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。在推理的過程中,往往需要關(guān)聯(lián)規(guī)則的支持。由于實(shí)體、實(shí)體屬性以及關(guān)系的多樣性,人們很難窮舉所有的推理規(guī)則,一些較為復(fù)雜的推理規(guī)則往往是手動總結(jié)的。

對于推理規(guī)則的挖掘,主要還是依賴于實(shí)體以及關(guān)系間的豐富同現(xiàn)情況。知識推理的對象可以是實(shí)體、實(shí)體的屬性、實(shí)體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理方法主要可分為基于邏輯的推理與基于圖的推理兩種類別。

1) 基于邏輯的推理

基于邏輯的推理基于邏輯的推理方式主要包括一階謂詞邏輯、描述邏輯以及規(guī)則等。一階謂詞邏輯推理是以命題為基本進(jìn)行推理,而命題又包含個體和謂詞。邏輯中的個體對應(yīng)知識庫中的實(shí)體對象,具有客觀獨(dú)立性,可以是具體一個或泛指一類;謂詞則描述了個體的性質(zhì)或個體間的關(guān)系。

2) 基于圖的推理

在基于圖的推理方法中,主要是利用了關(guān)系路徑中的蘊(yùn)涵信息,通過圖中兩個實(shí)體間的多步路徑來預(yù)測它們之間的語義關(guān)系。即從源節(jié)點(diǎn)開始,在圖上根據(jù)路徑建模算法進(jìn)行游走,如果能夠到達(dá)目標(biāo)節(jié)點(diǎn),則推測源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)間存在聯(lián)系。關(guān)系路徑的建模方法研究工作尚處于初期,其中在關(guān)系路徑的可靠性計算、關(guān)系路徑的語義組合操作等方面,仍有很多工作需進(jìn)一步探索并完成。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多