基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法摘 要 本文提出了一種簡(jiǎn)單有效的詞義消歧方法,該模型充分利用依存文法分析,從句子的內(nèi)部結(jié)構(gòu),尋找詞語(yǔ)之間支配與被支配的關(guān)系,借以確定能夠?qū)υ~語(yǔ)語(yǔ)義構(gòu)成內(nèi)在限制的詞語(yǔ)。借助《知網(wǎng)》系統(tǒng)的實(shí)體關(guān)系,并結(jié)合與該岐義詞相關(guān)聯(lián)詞語(yǔ)的義項(xiàng),歧義詞的義項(xiàng)權(quán)重,從而根據(jù)義項(xiàng)權(quán)重大小來(lái)判斷歧義詞的詞義。 關(guān)鍵詞 詞義消歧;知網(wǎng);語(yǔ)言處理;依存句法分析
1 引言自然語(yǔ)言中存在著大量的多義詞,如何在給定的上下文中,確定其中各個(gè)詞語(yǔ)在多個(gè)詞義中選取正確的詞義,是詞義消歧所應(yīng)解決的問(wèn)題。如果多義詞的多個(gè)詞義之間具有不同的詞性,則通過(guò)詞性標(biāo)注就可以確定該詞詞義。所以本文所說(shuō)的詞義消歧,是指如何在詞性相同的情況下選擇多義詞正確詞義的問(wèn)題。 漢語(yǔ)詞語(yǔ)的詞義消歧開(kāi)始于上世紀(jì)90年代后期,主要是利用詞典提供的信息。出現(xiàn)了利用《漢語(yǔ)詞典》釋義文本、《同義詞詞林》、《知網(wǎng)》中的語(yǔ)義類(lèi),對(duì)實(shí)詞多義進(jìn)行消歧的方法,但是平均正確率并不是很高[1][2]。 近年來(lái),隨著計(jì)算機(jī)存儲(chǔ)容量和運(yùn)算速度的提高,通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的利用,出現(xiàn)了許多基于語(yǔ)料庫(kù)統(tǒng)計(jì)的詞義消歧方法。使消歧的準(zhǔn)確率有了一定程度的提高,但是有些低頻詞,在語(yǔ)料中出現(xiàn)次數(shù)不多,很難搜集到它們的上下文環(huán)境,存在著知識(shí)獲取中數(shù)據(jù)稀疏以及自動(dòng)學(xué)習(xí)算法的參數(shù)空間過(guò)大問(wèn)題。 到目前,無(wú)論那種方法都沒(méi)有很好地解決詞義消歧問(wèn)題[3]。其中一個(gè)重要的原因就是詞義知識(shí)獲取中的瓶頸問(wèn)題,詞義消歧知識(shí)庫(kù)的質(zhì)量已成為詞義消歧成敗的關(guān)鍵。 本文提出了一種基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法,該方法只考慮詞匯句法之間的內(nèi)在關(guān)聯(lián)對(duì)特定環(huán)境中詞義的貢獻(xiàn),借助依存文法分析來(lái)找出這種詞義關(guān)聯(lián)。假設(shè)不存在詞義關(guān)聯(lián)的上下文對(duì)于歧義詞語(yǔ)的特定詞義貢獻(xiàn)為0,存在語(yǔ)法關(guān)聯(lián)的上下文對(duì)詞義的貢獻(xiàn)相互獨(dú)立。選擇與歧義詞匯存在語(yǔ)法關(guān)聯(lián)的上下文作為模型中的特征值,這樣做既可以減少無(wú)關(guān)上下文對(duì)詞義消歧產(chǎn)生的噪音,又可以大幅度減少計(jì)算次數(shù),在提高詞義消歧準(zhǔn)確率的同時(shí),能夠明顯提高詞義消歧的工作效率。2 語(yǔ)義資源《知網(wǎng)》簡(jiǎn)介“知網(wǎng)”(Hownet)是董振東先生花費(fèi)十年時(shí)間編輯而成的語(yǔ)義詞典,也是一款供自然語(yǔ)言處理工作者免費(fèi)使用的完全共享軟件。知網(wǎng)是一個(gè)以漢語(yǔ)和詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[4]。 知網(wǎng)作為一個(gè)知識(shí)系統(tǒng),是一個(gè)網(wǎng)而不是樹(shù)。它所著力反映的是概念的共性和個(gè)性,同時(shí)知網(wǎng)還著力反映了概念之間和概念的屬性之間的各種關(guān)系。知網(wǎng)知識(shí)庫(kù)主要包括:①中英雙語(yǔ)知識(shí)詞典;②義原分類(lèi)源文件;③知網(wǎng)管理工具;④知網(wǎng)說(shuō)明文件(包括詞類(lèi)表和標(biāo)識(shí)符號(hào)說(shuō)明) 等。本文采用的知網(wǎng)知識(shí)庫(kù)文件主要有經(jīng)過(guò)處理的①和②。2.1 義原分類(lèi)源文件在知網(wǎng)中,“概念”是對(duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念,其中每個(gè)詞的每一個(gè)義項(xiàng)分別對(duì)應(yīng)于一個(gè)不同的概念。而“義原”是基本的、不易于再分割的、沒(méi)有歧義的最小單位。不同的義原組合構(gòu)成了不同的概念定義。 《知網(wǎng)》一共采用了1500 多個(gè)義原,這些義原分為“Event|事件”等十多個(gè)大類(lèi)、16種關(guān)系。在義原關(guān)系中最重要的還是上下位關(guān)系。2.2 中英雙語(yǔ)知識(shí)詞典《中英雙語(yǔ)知識(shí)詞典》中一共收錄了12萬(wàn)多條記錄,而每一個(gè)詞語(yǔ)用一條或多條記錄來(lái)表示,每條記錄的詞典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八項(xiàng),例如“電腦”一詞的概念的記錄如下所示: NO.=21902 W_C=電腦 G_C=N E_C= W_E=computer G_E=N E_E= DEF= computer|電腦 其中NO.為概念編號(hào),W_C、G_C、E_C分別是漢語(yǔ)的詞語(yǔ)、詞性和例子,W_E、G_E、E_E分別是對(duì)應(yīng)的英語(yǔ)詞語(yǔ)、詞性和例子,DEF是知網(wǎng)對(duì)于該概念的定義。3 依存句法分析方法依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere 在其著作《結(jié)構(gòu)句法基礎(chǔ)》(1959 年)中提出,對(duì)語(yǔ)言學(xué)的產(chǎn)生了深遠(yuǎn)的影響,特別是在計(jì)算語(yǔ)言學(xué)界備受推崇。依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中動(dòng)詞是支配其他成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者[5]。 二十世紀(jì)七十年代,Robinson 提出依存語(yǔ)法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中,學(xué)者提出了依存關(guān)系的第五條公理[6]: 1. 一個(gè)句子中只有一個(gè)成分是獨(dú)立的; 2. 其它成分直接依存于某一成分; 3. 任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分; 4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之間,那么C 或者直接依存于B,或者直接依存處于A 和B 之間的某一成分。 5. 中心成分左右兩邊的其它成分相互不發(fā)生關(guān)系。對(duì)于第5條公理本方法中并沒(méi)有采納,因?yàn)楫?dāng)某一個(gè)歧義詞語(yǔ)恰好出現(xiàn)在中心動(dòng)詞的一側(cè)時(shí),會(huì)割斷與另一側(cè)詞語(yǔ)關(guān)聯(lián)關(guān)系,從而影響歧義消除的效果。4 基于《知網(wǎng)》的語(yǔ)義消歧過(guò)程4.1 語(yǔ)義消歧的體系結(jié)構(gòu)詞義消歧的處理需要完成兩個(gè)步驟:(1)對(duì)已經(jīng)完成詞性標(biāo)注的句子利用知網(wǎng)查出每個(gè)詞語(yǔ)所有可能詞義集合;(2)從該集合中選出正確詞義。本方法的體系結(jié)構(gòu)如下:圖一 基于《知網(wǎng)》的詞義消歧模型 首先對(duì)待分析的句子進(jìn)行分詞、詞性標(biāo)注,去掉一些無(wú)關(guān)的虛詞,提取出關(guān)鍵詞[7],本方法中取名詞、動(dòng)詞、形容詞和副詞,得到以下三元組(O,W,wt,N)O為該詞在句子中的位置;W為詞語(yǔ)本身;wt為詞語(yǔ)權(quán)重;N為該詞的詞性。 對(duì)于某個(gè)存在歧義的詞語(yǔ),如果根據(jù)該詞語(yǔ)的詞性能夠進(jìn)行區(qū)分則直接消歧輸出;對(duì)于詞性相同而概念解釋具有多個(gè),則根據(jù)句法分析得到與該詞語(yǔ)所有關(guān)聯(lián)的實(shí)詞。 設(shè)歧義詞w與其詞性對(duì)應(yīng)的有n個(gè)義項(xiàng):R1,R2,∧Rn(n≥2),把每個(gè)義項(xiàng)按照義原進(jìn)行分解為K1, K2…Kj(j≤6 因?yàn)橹W(wǎng)中每個(gè)詞語(yǔ)的義項(xiàng)定義最多包括6個(gè)義原),并去除那些沒(méi)有區(qū)分能力的義原。通過(guò)依存句法分析取出歧義詞所在句子中與其相關(guān)聯(lián)的另外m個(gè)實(shí)詞W1,W2,∧Wm(1≤m≤T-1)其中T是句子中所有實(shí)詞(包括歧義詞本身)的數(shù)目。設(shè)這m個(gè)實(shí)詞分別有R1,R2,∧Rm個(gè)義項(xiàng)(Ri≥1,1≤i≤m),再把每個(gè)Ri按照義原進(jìn)行分解Ki1, Ki2…Kij(j≤6),并令每個(gè)義原的初始權(quán)重為Weight(Kij)=1。 判斷歧義詞語(yǔ)的每個(gè)義原與關(guān)聯(lián)詞語(yǔ)的某個(gè)義原是否存在以下關(guān)系,這些關(guān)系在知網(wǎng)中均已定義: A.相同義原 B.材料-成品關(guān)系 C.施事/經(jīng)驗(yàn)者/關(guān)系主體-事件關(guān)系 D.受事/內(nèi)容/領(lǐng)屬物-事件關(guān)系 E.工具-事件關(guān)系 F.場(chǎng)所-事件關(guān)系 G.事件-角色關(guān)系 H.相關(guān)關(guān)系 I.上下位關(guān)系 如果存在以上關(guān)系,那么歧義詞語(yǔ)的相應(yīng)義原權(quán)重加1,最后該義原所在義項(xiàng)的權(quán)重wt(Ri)。 取K(K為歧義詞所有義項(xiàng)中權(quán)重最大的項(xiàng))所在的義項(xiàng)為最終歧義詞語(yǔ)的消歧結(jié)果。 4.2 語(yǔ)義消歧過(guò)程偽代碼1、根據(jù)依存句法分析得到與歧義詞語(yǔ)所有關(guān)聯(lián)實(shí)詞的偽代碼如算法4.1所示。 算法4.1 依存句法分析關(guān)聯(lián)詞語(yǔ)的算法 輸入:帶有詞序的歧義詞語(yǔ)W 輸出:與歧義詞語(yǔ)W相關(guān)聯(lián)的詞語(yǔ)Wm 函數(shù)體: 1)對(duì)整個(gè)句子進(jìn)行依存句法分析 得到句子的獨(dú)立成分和與這個(gè)獨(dú)立成分相關(guān)聯(lián)的 詞語(yǔ)Wm四元組 2)對(duì)于帶有詞序的歧義詞語(yǔ)W IF W 與Wm 存在依存關(guān)系并且Wm是經(jīng)過(guò)分詞處 理得到的關(guān)鍵詞 THEN return( Wm ) ENDIF 2、歧義詞語(yǔ)義原權(quán)重調(diào)節(jié)算法的偽代碼如算法4.2所示。 算法4.2 義原權(quán)重調(diào)節(jié)的算法 輸入:義原比重相同的關(guān)鍵詞w的四元組 輸出:經(jīng)調(diào)節(jié)的義項(xiàng)比重的關(guān)鍵詞 函數(shù)體: 1)給詞W的每個(gè)義項(xiàng)按照義原分解并分別把每個(gè)義原賦一初始比重 2)對(duì)于歧義詞W關(guān)聯(lián)的每一個(gè)關(guān)鍵詞Wm 對(duì)于Wm中的與Wm詞性相對(duì)應(yīng)的義項(xiàng)Rm 對(duì)于Rm中的每個(gè)義原Kij 對(duì)于歧義詞W的每個(gè)與W詞性相對(duì)應(yīng)的義項(xiàng)Rn 對(duì)于Rn中的每個(gè)義原Kj I F Kij 與Kj 有上述關(guān)系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF5 實(shí)驗(yàn)結(jié)果分析我們選擇人民日?qǐng)?bào)語(yǔ)料庫(kù)作為實(shí)驗(yàn)語(yǔ)料,語(yǔ)料中共有800個(gè)句子,每個(gè)句子的長(zhǎng)度為20-30字符。把以上的消歧過(guò)程在VC6.0中實(shí)現(xiàn)做以測(cè)試。消歧的正確率計(jì)算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語(yǔ)總數(shù)/存在歧義的詞語(yǔ)總數(shù)......(3) 消歧結(jié)果的正確與否是通過(guò)手工進(jìn)行判定的。目前實(shí)驗(yàn)的正確率為90.6%。這表明我們提出的基于依存句法對(duì)歧義進(jìn)行消解是有效的。實(shí)驗(yàn)中我們還對(duì)句子長(zhǎng)度對(duì)消歧正確率的影響做了測(cè)試,如果句子的長(zhǎng)度過(guò)短,那么消歧的效果將會(huì)下降,句子的長(zhǎng)度過(guò)長(zhǎng),理論上會(huì)提高消歧的精度,但是依存句法分析主要是針對(duì)句子分析的程序,對(duì)于文本段落的分析,會(huì)降低依存關(guān)系的分析精度,從而降低詞語(yǔ)消歧的準(zhǔn)確率。 雖然該方法與基于統(tǒng)計(jì)的方法在計(jì)算復(fù)雜度和時(shí)間上具有明顯的效率,但是也存在著一些問(wèn)題。 (1) 義原的敏感性問(wèn)題。由于該方法是基于多義詞語(yǔ)義原與關(guān)聯(lián)詞語(yǔ)的義原關(guān)系進(jìn)行的,故義原詞語(yǔ)如何確定是一個(gè)關(guān)鍵問(wèn)題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開(kāi)放所有詞條義項(xiàng)實(shí)例,在試驗(yàn)中我們手工地為部分詞語(yǔ)添加義項(xiàng)實(shí)例,這不免會(huì)有一些主觀傾向性,并且試驗(yàn)語(yǔ)料的數(shù)目比較有限。 (3) 擴(kuò)大測(cè)試對(duì)象的范圍。多義詞消歧方法的系統(tǒng)評(píng)價(jià)是困難的,本文提出的方法需要進(jìn)一步在大規(guī)模測(cè)試集進(jìn)行檢驗(yàn)。6 結(jié)論本文提出了一種基于依存句法分析句子結(jié)構(gòu)進(jìn)行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過(guò)關(guān)聯(lián)詞語(yǔ)的義原在知網(wǎng)中的關(guān)聯(lián)關(guān)系來(lái)調(diào)整概念的趨向權(quán)重從而從多個(gè)概念中得到一個(gè)最優(yōu)的結(jié)果。實(shí)例是用語(yǔ)言來(lái)表示的,可以很方便通過(guò)調(diào)整詞語(yǔ)實(shí)例集的例子來(lái)達(dá)到一個(gè)比較好的排歧效果。同時(shí)我們采用的語(yǔ)義知識(shí)資源《知網(wǎng)》是專(zhuān)為自然語(yǔ)言處理而設(shè)計(jì)的,無(wú)論是詞條數(shù)還是語(yǔ)義定義及分類(lèi)體系都十分適用于自然語(yǔ)言處理。從實(shí)驗(yàn)的分析來(lái)看,基于實(shí)例的方法具有良好的歧義消解效果。 [1] 劉開(kāi)瑛. 漢語(yǔ)全文檢索中的義項(xiàng)標(biāo)注技術(shù)研究. 計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用. 北京: 清華大學(xué)出版社, 1995 [2] 劉小虎. 英漢機(jī)器翻譯中詞義消歧方法的研究. 哈爾濱大學(xué)[博士學(xué)位] . 1998 [3] 趙鐵軍等. 機(jī)器翻譯原理. 哈爾濱: 哈爾濱工業(yè)大學(xué)出版社. 2000 [4]董振東,董強(qiáng),“知網(wǎng)”,http://www.keenage.com,1999[5]劉海濤,依存語(yǔ)法和機(jī)器翻譯. 語(yǔ)言文字應(yīng)用. 1997, 3:89-93[6]郭艷華, 周昌樂(lè). 一種漢語(yǔ)語(yǔ)句依存關(guān)系網(wǎng)協(xié)動(dòng)生成方法研究. 杭州工業(yè)學(xué)院學(xué)報(bào). 2000, 20(4):24-32[7]分詞程序,天津市海量科技有限公司海量智能計(jì)算技術(shù)研究中心[8]依存句法分析部分源程序,哈工大信息檢索研究室 |
|