開放文本中蘊(yùn)含著大量的邏輯性知識(shí),以刻畫事物之間邏輯傳導(dǎo)關(guān)系的邏輯類知識(shí)庫是推動(dòng)知識(shí)推理發(fā)展的重要基礎(chǔ)。 因果抽取是一個(gè)十分有趣的話題,研發(fā)大規(guī)模邏輯推理知識(shí)庫有助于支持實(shí)體或事件等傳導(dǎo)驅(qū)動(dòng)決策任務(wù),而目前尚未有開源的因果事件對(duì)出現(xiàn),為了彌補(bǔ)這一空缺,本文對(duì)外開源一個(gè)面向多領(lǐng)域的十萬級(jí)因果事件對(duì)數(shù)據(jù)集,可以自行轉(zhuǎn)成因果關(guān)系圖譜,展開更多有趣實(shí)驗(yàn),供大家一起參考。 地址:https://github.com/liuhuanyong/CausalDataset 一、因果抽取常用方法我們?cè)凇?strong>事件圖譜技術(shù):因果關(guān)系事件對(duì)抽取常用方法的解析與動(dòng)手實(shí)踐》中講述了因果抽取的方法,從傳統(tǒng)模式規(guī)則、語義分析、依存句法、序列標(biāo)注四種方式進(jìn)行實(shí)踐,并配上實(shí)現(xiàn)項(xiàng)目進(jìn)行講解,這涵蓋了當(dāng)前因果事件抽取的常用方式。 地址: https://github.com/liuhuanyong/CausalityEventExtraction 1、基于模式匹配的因果事件對(duì)提取 基于模式匹配的方式,是進(jìn)行因果抽取的入門級(jí)以及兜底方式,充分利用好語言學(xué)知識(shí),具有顯式標(biāo)記的因果關(guān)聯(lián)詞、因果表達(dá)句式進(jìn)行歸納,并配以正則表達(dá)式實(shí)現(xiàn),可以有效地提取出大量的因果事件對(duì)。 2、基于語義角色的因果事件抽取 基于觸發(fā)詞模式匹配的方法無法捕捉因果事件之間的關(guān)聯(lián)關(guān)系,因此可以借助依存句法分析以及語義角色標(biāo)注的方式進(jìn)行處理。 以因果關(guān)系觸發(fā)詞為核心動(dòng)作,首先從語義角色方面找尋該觸發(fā)詞動(dòng)作的實(shí)施對(duì)象和受事對(duì)象,將實(shí)施對(duì)象作為原因事件,將受事對(duì)象作為結(jié)果事件,并根據(jù)詞性過濾事件; 3、基于依存句法的因果事件抽取 由于自然語言處理的復(fù)雜性,LTP中未能對(duì)一些子句中的因果關(guān)系觸發(fā)詞進(jìn)行語義角色標(biāo)注,或者只標(biāo)注了一部分,即A0和A1未同時(shí)被標(biāo)注出來,因此利用依存句法分析來抽取此類情況下的因果事件對(duì)。 4、基于序列標(biāo)注的因果抽取 針對(duì)基于規(guī)則的因果抽取模型中的不足,可以使用基于Bert微調(diào)的序列標(biāo)注模型。在序列標(biāo)簽的設(shè)計(jì)上,模型的序列標(biāo)簽采用BIO標(biāo)簽體系,標(biāo)簽類型主要為cause、triger、effect。 為了能方便地根據(jù)標(biāo)簽結(jié)果進(jìn)行因果三元組組合,在設(shè)計(jì)標(biāo)簽體系時(shí)也對(duì)單因果、多因果進(jìn)行了區(qū)分,分別設(shè)置為multi-cause、multi-effect。 二、基于多領(lǐng)域文本數(shù)據(jù)集的因果事件對(duì)為了得到多領(lǐng)域因果事件對(duì),我們以清華大學(xué)開源的文本分類數(shù)據(jù)集THUnews,THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式。 其在原始新浪新聞分類體系的基礎(chǔ)上,重新整合劃分出14個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會(huì)、時(shí)尚、時(shí)政、體育、星座、游戲、娛樂。滿足了多領(lǐng)域性的需求。 數(shù)據(jù)地址:http://thuctc./#中文文本分類數(shù)據(jù)集THUCNews 訓(xùn)練因果抽取識(shí)別模型,最終去重得到了100,688條因果關(guān)系對(duì),通過對(duì)頻次進(jìn)行統(tǒng)計(jì),可以過濾出質(zhì)量較高的因果對(duì),下面顯示了格式為原因事件@結(jié)構(gòu)事件\t出現(xiàn)頻次格式下的數(shù)據(jù)樣例。 投資風(fēng)險(xiǎn)巨大@本金全部虧損 248 1、關(guān)于“地震”相關(guān)的因果事件對(duì)
2、與“貶值”相關(guān)的因果事件對(duì) 虛擬道具貶值@廣范圍用戶付費(fèi)意愿越來越低 3 3、與“戀愛”相關(guān)的因果事件對(duì)
總結(jié)本文以清華大學(xué)開源的文本分類數(shù)據(jù)集THUnews,對(duì)外開源了一個(gè)面向多領(lǐng)域的十萬級(jí)因果事件對(duì)數(shù)據(jù)集,并介紹了常用技術(shù)方法。 當(dāng)然,數(shù)據(jù)的質(zhì)量也有不足之處,規(guī)模不大,可以加以改善。 |
|