為建設(shè)國家電網(wǎng)客戶服務(wù)中心的智能對話系統(tǒng),需要從大量文檔、知識庫、對話等數(shù)據(jù)中提煉知識形成知識圖譜,提出一種融合事實圖譜和事理圖譜的新型知識圖譜框架,能夠基于多源異構(gòu)數(shù)據(jù)共建新型知識圖譜,在國網(wǎng)領(lǐng)域精準問答、客服系統(tǒng)知識支撐、對話管理引導(dǎo)、知識推理等方面均有較好性能。融合后的圖譜及應(yīng)用系統(tǒng)在國網(wǎng)客服中心問答平臺中投入使用,大幅提升了客服人員工作效率和服務(wù)質(zhì)量。 。 中文引用格式: 楊維. 領(lǐng)域知識融合與共建研究[J].電子技術(shù)應(yīng)用,2019,45(12):47-50. 英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50. 近年來,隨著人工智能和自然語言處理方法的研究進一步深入和應(yīng)用進一步落地,基于知識圖譜的對話系統(tǒng)及其衍生應(yīng)用在越來越多的場景中開始發(fā)揮其作用。國家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后,也就國網(wǎng)客服的相關(guān)場景做了很多知識圖譜和對話系統(tǒng)的相關(guān)研究。當前國網(wǎng)客服對話面臨的最大的困難即為傳統(tǒng)知識圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐,而在實際生產(chǎn)情況下,只存在大量非結(jié)構(gòu)化、清洗困難的異構(gòu)數(shù)據(jù)。如何組織和處理這些數(shù)據(jù)就成為了國網(wǎng)客服的知識圖譜構(gòu)建和對話系統(tǒng)建立的關(guān)鍵挑戰(zhàn)。 在解決痛點前,先要明確基于國網(wǎng)客服中心的對話系統(tǒng)[1] 和知識圖譜的核心需求。在設(shè)計知識圖譜的架構(gòu)時,本文考慮了對話類應(yīng)用對知識圖譜[2] 的下述需求: (1)實例關(guān)聯(lián)需求:即語義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實體、屬性、關(guān)系等建立映射關(guān)系并消歧; (2)答案獲取需求:即根據(jù)相應(yīng)實例、關(guān)系和屬性等查詢相應(yīng)值和答案; (3)邏輯推理需求:即基于已知語義信息,根據(jù)推理邏輯規(guī)則獲取精準語義推理或運算結(jié)果; (4)指導(dǎo)對話管理需求:即根據(jù)已知語義信息反哺對話管理,基于靜態(tài)的對話策略和動態(tài)的知識內(nèi)容產(chǎn)生動態(tài)、可變化的圖譜對話。 前兩個需求在傳統(tǒng)KBQA[3] 的相關(guān)研究中,基于RDF/OWL標準的事實圖譜,業(yè)界一般稱為知識圖譜,但由于本文需要區(qū)分和融合,根據(jù)其特征稱為事實圖譜。事實圖譜已經(jīng)被大量的研究證實了其可用性和實用性,然而這種類型的圖譜對推理和指導(dǎo)對話管理的支持性能上均由于其本身知識組織形式的局限性,需要額外人工設(shè)計大量的規(guī)則,且由于基于預(yù)設(shè)好的邏輯規(guī)則,在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時代以來,很多研究從數(shù)據(jù)出發(fā),基于自底向上的思路,從實際圖譜推理和應(yīng)用的角度做了一些探索,提出了依托事件挖掘算法構(gòu)建的事理圖譜,并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用,有很不錯的表現(xiàn),得到了業(yè)內(nèi)研究人員的高度認可。但也不得不承認,由于其本身基于統(tǒng)計學(xué)習(xí)算法、概率分布計算關(guān)系概率,且以抽象泛化后的事理為元數(shù)據(jù),因此,實例映射、消歧和答案獲取等功能的精準性和可解釋性就遠低于事實圖譜。因此,本文從目標應(yīng)用即垂直領(lǐng)域任務(wù)型對話的角度出發(fā),考慮兩類圖譜架構(gòu)的相關(guān)特性,結(jié)合實際研究和工作中的經(jīng)驗,提出了融合事實圖譜和事理的思路,來發(fā)揮兩類圖譜的優(yōu)勢,從而提升任務(wù)型對話性能的目標。 要解決事實圖譜的融合和事理圖譜的融合,需要先簡單介紹其概念、研究現(xiàn)狀等內(nèi)容。
1.1 事實圖譜
事實圖譜是一種描述事實知識內(nèi)容的知識庫,一般節(jié)點代表概念,邊代表概念的相關(guān)性質(zhì)。本文構(gòu)建標準為RDF/RDFS標準。這兩類標準是用來表現(xiàn)萬維網(wǎng)上各類資源的信息的一種語言,RDF通過類、屬性和值來描述資源。RDF Schema(RDFS)是對RDF的一種擴展,應(yīng)用程序?qū)S玫念惡蛯傩员仨毷褂脤DF的擴展來定義。RDF Schema就是這樣一種擴展。RDFS不提供實際的應(yīng)用程序?qū)S玫念惡蛯傩?,而是提供了描述?yīng)用程序?qū)S玫念惡蛯傩缘目蚣?。RDFS中的類與面向?qū)ο缶幊陶Z言中的類非常相似,這就使得資源能夠作為類的實例和類的子類來被定義。 事實圖譜的知識獲取有很多成果卓然的研究,從實體級的實體挖掘[4] 、實體發(fā)現(xiàn)、實體鏈接,到關(guān)系抽取[5] ,主要目標是找到各類事實知識信息,并將它們按照三元組的結(jié)構(gòu)組織起來,用以描述事物本身性質(zhì)及其相關(guān)關(guān)系,在國網(wǎng)客服場景下,利用實際生產(chǎn)中的機房、設(shè)備、人員、應(yīng)用功能、服務(wù)等既定事實構(gòu)建了事實圖譜。
1.2 事理圖譜
事理圖譜[6] 是一種描述事件之間的演化規(guī)律和模式的邏輯知識庫。從結(jié)構(gòu)上來說事理圖譜是一個有向有環(huán)圖,節(jié)點代表事件,有向邊代表事件之間的順承、因果等關(guān)系。 事理圖譜的構(gòu)建方法也有不少相關(guān)研究,主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如:新聞)的抽取和泛化,并計算相關(guān)邊的轉(zhuǎn)移概率,最后生成相應(yīng)事理的拓撲圖。因此,在國網(wǎng)場景中,本文將指導(dǎo)性文檔中的操作步驟、方法、故障實例等涉及大量實踐且事件具有一定邏輯關(guān)系的知識內(nèi)容形成了事理圖譜。圖2是某業(yè)務(wù)流程的事理圖譜表示。
在垂直領(lǐng)域下,常常很難有大量事件密集型數(shù)據(jù),尤其是基于具體行業(yè)、公司場景下,往往只有一些規(guī)范性文檔、操作手冊作為基礎(chǔ)數(shù)據(jù)來源。因此,獲得的事理圖譜和事實圖譜在常規(guī)融合的情況下,往往會出現(xiàn)大量孤島節(jié)點,實現(xiàn)不了在對話過程中支撐對話知識的作用。因此,在垂直領(lǐng)域特定場景下的知識融合和知識共建是相互耦合的,需要以專家知識的種子圖譜為基礎(chǔ),融合事理圖譜,并在融合過程中讓事理和事實互相校驗互相補充,才能不斷豐富圖譜內(nèi)容,保證圖譜對整個對話支持[7] 的性能。 圖譜融合實際上就是節(jié)點消歧并建立鏈接。為了對事實圖譜和事理圖譜建立相互鏈接,使之融合成為一個大圖譜,本文提出下述架構(gòu): 以實體粒度的知識為核心,將語義角色中的實體、謂詞、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài),其中實體稱之為概念(concept),通常為名詞和領(lǐng)域核心詞等事實知識內(nèi)容,以父類-類-實體的形式來組織上下位關(guān)系,概念通過謂詞關(guān)系鏈接到相關(guān)事件上,具體的類和大類鏈接到具體泛化事理上。 這樣的架構(gòu)既可以實現(xiàn)從知識圖譜中獲得的詳細的語義信息、實體、詳細事件,也可以根據(jù)實體上下文關(guān)系及其事理的邏輯推理,指導(dǎo)對話管理。 (3)只需要定義較少的事理邏輯推理和上下位邏輯推理,即可實現(xiàn)對對話的引導(dǎo)和跟蹤; (4)能夠獲取精準的當前語義事件(如:買蘋果,而非買水果); (5)構(gòu)建過程中實體挖掘、事件挖掘、事件泛化等算法的相互校驗提高整個圖譜的知識的精準性; (6)概念相匹配的謂詞體系校驗語義解析結(jié)果,輔助解析結(jié)果的重排序。 總言之,這樣的框架是從應(yīng)用的角度出發(fā),從構(gòu)建過程中融合兩類圖譜,將更多更精準的關(guān)系和語義信息融入知識圖譜中,并利用在融合共建中產(chǎn)生的謂詞、實體、事件等資源輔助識別、檢索、排序等算法。其架構(gòu)如圖3所示。
如圖3所示,在事實圖譜中,實體和類展現(xiàn)了核心的上下位關(guān)系;事理圖譜中通過事件到事理的泛化,體現(xiàn)事件的上下位關(guān)系。事實圖譜中的類和子類通過謂詞關(guān)系連接到事理圖譜中的具體事理中,事實圖譜中的實體通過謂詞關(guān)系連接到具體事件上,將兩類圖譜有機地連接起來。 所以融合本質(zhì)就是通過謂詞關(guān)系,將事理圖譜和對應(yīng)概念的事實圖譜鏈接成一個語義內(nèi)容和邏輯關(guān)系更豐富的知識圖譜。顯然,融合過程中可以利用已有信息不斷補充和反向校驗其他信息,所以知識融合的過程也是一個不斷互相補充互相完善的過程。 首先,在構(gòu)建過程中需要一些通用資源,例如:中文動詞詞典、同義詞典、來自于通用知識庫(例如:wikipedia、freebase等)的同義詞、語義上下位關(guān)系等資源。 其次,用以構(gòu)建的數(shù)據(jù)源主要是兩類,一類是功能文檔、產(chǎn)品文檔等帶有場景和邏輯順承關(guān)系的文檔類數(shù)據(jù);另一類是問答對話類帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實圖譜和事理圖譜的分別建立也都是基于這類數(shù)據(jù)。 這里主要介紹在已建立了基礎(chǔ)的事實圖譜和事理圖譜,融合和共建新架構(gòu)圖譜的流程: (1)利用動詞詞典,構(gòu)造謂詞關(guān)系集。 (2)利用事實同義詞典,從事理圖譜中發(fā)現(xiàn)相關(guān)實體并篩選。 例如:事實圖譜中存在Class=(員工),事理圖譜中存在Event=<通知相關(guān)人員>,利用同義詞“員工:人員,發(fā)現(xiàn),<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系,并關(guān)聯(lián)。 (4)篩選事實-謂詞組合,產(chǎn)生新的事件/事理。 例如:事實:(服務(wù)器)(交換機)(刀片機)…結(jié)合謂詞: “重啟”,產(chǎn)生新的事件,<重啟服務(wù)器><重啟交換機> 例如:事實:(服務(wù)器),在Class=設(shè)備,<重啟服務(wù)器>, 本文實驗基于國網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室聯(lián)合構(gòu)建知識圖譜和對應(yīng)對話系統(tǒng),其中基礎(chǔ)事實圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國網(wǎng)培訓(xùn)文檔、標準運維解決方案文檔、故障分析報告、客服常見問答問題等文檔數(shù)據(jù)構(gòu)造。實驗最后獲得如表1所示成果。
本文在該知識圖譜和清華語義平臺的基礎(chǔ)上建立了針對客服系統(tǒng)的相應(yīng)知識管理及對話系統(tǒng),在客服應(yīng)答、故障查修、運維狀態(tài)跟蹤等場景下均獲得了較好的應(yīng)用效果。 本文提出了一套基于事實圖譜和事理圖譜融合的新型知識圖譜構(gòu)建框架,該框架不僅包含了相關(guān)垂直領(lǐng)域的各類知識信息,還將基礎(chǔ)語義信息和推理信息融入其中。該框架構(gòu)建過程中能夠不斷鏈接映射并互相補充,達到圖譜動態(tài)擴展的目標,有效提高了圖譜構(gòu)建效率,降低了圖譜構(gòu)建的人工成本。最后成功建設(shè)了一個較為完善的垂直領(lǐng)域混合型圖譜,并在相關(guān)問答知識類應(yīng)用中對其性能進行了較好的驗證。 參考文獻
[1] MCTEAR M F.Spoken dialogue technology: enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1): 90-169.
[2] 代文韜,林詩璐,朱小燕,等.基于知識圖譜的保險領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用,2019,45(9): 18-21,27.
[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1): 1-22.
[4] 李剛,黃永峰.一種面向微博文本的命名實體識別方法[J].電子技術(shù)應(yīng)用,2018,44(1): 118-120,124.
[5] 金鵬,楊忠良,黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩詞隱寫檢測方法[J].電子技術(shù)應(yīng)用,2018,44(10): 114-117,126.
[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013: 311-319.
[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18): 3604-3612.
作者信息:
楊 維
(國家電網(wǎng)客服中心 信息技術(shù)部,天津300000)
原創(chuàng)聲明: 此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。