小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

因果關(guān)系圖譜開放下載:因果抽取方法概述及十萬級(jí)多領(lǐng)域因果事件對(duì)數(shù)據(jù)集對(duì)外開源

 520jefferson 2022-09-23 發(fā)布于北京

開放文本中蘊(yùn)含著大量的邏輯性知識(shí),以刻畫事物之間邏輯傳導(dǎo)關(guān)系的邏輯類知識(shí)庫是推動(dòng)知識(shí)推理發(fā)展的重要基礎(chǔ)。

因果抽取是一個(gè)十分有趣的話題,研發(fā)大規(guī)模邏輯推理知識(shí)庫有助于支持實(shí)體或事件等傳導(dǎo)驅(qū)動(dòng)決策任務(wù),而目前尚未有開源的因果事件對(duì)出現(xiàn),為了彌補(bǔ)這一空缺,本文對(duì)外開源一個(gè)面向多領(lǐng)域的十萬級(jí)因果事件對(duì)數(shù)據(jù)集,可以自行轉(zhuǎn)成因果關(guān)系圖譜,展開更多有趣實(shí)驗(yàn),供大家一起參考。

地址:https://github.com/liuhuanyong/CausalDataset

一、因果抽取常用方法

我們?cè)凇?strong>事件圖譜技術(shù):因果關(guān)系事件對(duì)抽取常用方法的解析與動(dòng)手實(shí)踐》中講述了因果抽取的方法,從傳統(tǒng)模式規(guī)則、語義分析、依存句法、序列標(biāo)注四種方式進(jìn)行實(shí)踐,并配上實(shí)現(xiàn)項(xiàng)目進(jìn)行講解,這涵蓋了當(dāng)前因果事件抽取的常用方式。

地址: https://github.com/liuhuanyong/CausalityEventExtraction

1、基于模式匹配的因果事件對(duì)提取

基于模式匹配的方式,是進(jìn)行因果抽取的入門級(jí)以及兜底方式,充分利用好語言學(xué)知識(shí),具有顯式標(biāo)記的因果關(guān)聯(lián)詞、因果表達(dá)句式進(jìn)行歸納,并配以正則表達(dá)式實(shí)現(xiàn),可以有效地提取出大量的因果事件對(duì)。

圖片

2、基于語義角色的因果事件抽取

基于觸發(fā)詞模式匹配的方法無法捕捉因果事件之間的關(guān)聯(lián)關(guān)系,因此可以借助依存句法分析以及語義角色標(biāo)注的方式進(jìn)行處理。

圖片

以因果關(guān)系觸發(fā)詞為核心動(dòng)作,首先從語義角色方面找尋該觸發(fā)詞動(dòng)作的實(shí)施對(duì)象和受事對(duì)象,將實(shí)施對(duì)象作為原因事件,將受事對(duì)象作為結(jié)果事件,并根據(jù)詞性過濾事件;

3、基于依存句法的因果事件抽取

由于自然語言處理的復(fù)雜性,LTP中未能對(duì)一些子句中的因果關(guān)系觸發(fā)詞進(jìn)行語義角色標(biāo)注,或者只標(biāo)注了一部分,即A0和A1未同時(shí)被標(biāo)注出來,因此利用依存句法分析來抽取此類情況下的因果事件對(duì)。

圖片

4、基于序列標(biāo)注的因果抽取

針對(duì)基于規(guī)則的因果抽取模型中的不足,可以使用基于Bert微調(diào)的序列標(biāo)注模型。在序列標(biāo)簽的設(shè)計(jì)上,模型的序列標(biāo)簽采用BIO標(biāo)簽體系,標(biāo)簽類型主要為cause、triger、effect。

為了能方便地根據(jù)標(biāo)簽結(jié)果進(jìn)行因果三元組組合,在設(shè)計(jì)標(biāo)簽體系時(shí)也對(duì)單因果、多因果進(jìn)行了區(qū)分,分別設(shè)置為multi-cause、multi-effect。

圖片

二、基于多領(lǐng)域文本數(shù)據(jù)集的因果事件對(duì)

為了得到多領(lǐng)域因果事件對(duì),我們以清華大學(xué)開源的文本分類數(shù)據(jù)集THUnews,THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式。

其在原始新浪新聞分類體系的基礎(chǔ)上,重新整合劃分出14個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會(huì)、時(shí)尚、時(shí)政、體育、星座、游戲、娛樂。滿足了多領(lǐng)域性的需求。

數(shù)據(jù)地址:http://thuctc./#中文文本分類數(shù)據(jù)集THUCNews

訓(xùn)練因果抽取識(shí)別模型,最終去重得到了100,688條因果關(guān)系對(duì),通過對(duì)頻次進(jìn)行統(tǒng)計(jì),可以過濾出質(zhì)量較高的因果對(duì),下面顯示了格式為原因事件@結(jié)構(gòu)事件\t出現(xiàn)頻次格式下的數(shù)據(jù)樣例。

投資風(fēng)險(xiǎn)巨大@本金全部虧損 248
用戶友好界面@模式幫助用戶選擇場(chǎng)景 38
政策消息面和技術(shù)面所有信息@交易者預(yù)期變 37
磨砂表面處理@觸感更佳 31
加上F2大光圈和豐富手動(dòng)功能@機(jī)器推出受到消費(fèi)者廣泛關(guān)注 26
金屬材質(zhì)設(shè)計(jì)@整體造型更具品質(zhì)感 25
商務(wù)機(jī)型中并常見@上下邊框顯得厚 23
頂蓋采用工程塑料制成配@筆記本外殼防滑耐磨 19
取消傳統(tǒng)曲面過度@iPhone4底部揚(yáng)聲器變得碩大 17
準(zhǔn)專業(yè)機(jī)型GRDIGITALII和GX200電子水平儀功能引進(jìn)@使用R10拍攝高樓山水 16
鏡頭位移減震功能以及閃光燈控制系統(tǒng)@低光照下拍攝照片時(shí)噪 14
像素觸摸式液晶屏幕@操控方面人性化 14
采用直線條形式邊框風(fēng)格@整體看上去大氣 14
像素?cái)z像頭鑲嵌屏幕上方@視頻聊天方便 14

1、關(guān)于“地震”相關(guān)的因果事件對(duì)

日本東北部海域發(fā)生里氏大地震@重大人員傷亡和財(cái)產(chǎn)損失 6
日本東北部海域發(fā)生里氏地震@重大人員傷亡和財(cái)產(chǎn)損失 5
印尼西爪哇省附近印度洋海域發(fā)生里氏地震@人死亡人受傷 4
智利中南部城市康塞普西翁附近發(fā)生里氏強(qiáng)烈地震@重大人員傷亡 3
智利發(fā)生里氏地震@重大人員傷亡和財(cái)產(chǎn)損失 3
東部凡省發(fā)生強(qiáng)烈地震@死亡人數(shù) 3
上周五地震中受損核反應(yīng)堆發(fā)生爆炸@核工業(yè)相關(guān)公司股票 3
日本大地震@金融市場(chǎng)動(dòng) 3
最近地震和海嘯災(zāi)害中復(fù)蘇@日元匯率下跌 3
日本東北部大地震@全球關(guān)注 2
汶川地震期間捐款數(shù)目@高度關(guān)注 2

2、與“貶值”相關(guān)的因果事件對(duì)

虛擬道具貶值@廣范圍用戶付費(fèi)意愿越來越低 3
流動(dòng)性過剩加劇@貶值趨勢(shì) 3
日本核泄露事件@外資產(chǎn)貶值 3
全球性經(jīng)濟(jì)復(fù)蘇以及貶值流動(dòng)性過剩@全球商品價(jià)格出現(xiàn)暴漲 3
朝鮮進(jìn)行貨幣貶值@市場(chǎng)經(jīng)濟(jì)癱瘓 2
歐洲主權(quán)債務(wù)危機(jī)深化和亞洲國家貨幣貶值@日本有警惕金融資本市場(chǎng)動(dòng)蕩 2
游戲公司濫發(fā)虛擬物品@玩家虛擬物品貶值 2
住房?jī)r(jià)格貶值@全球經(jīng)濟(jì)下滑形勢(shì)演變成 2
中長(zhǎng)期內(nèi)貶值@資金撤離資產(chǎn) 2
持續(xù)貶值和人民幣升值預(yù)期@中國內(nèi)陸成為資金洼地 2
韓元貶值@進(jìn)口商品價(jià)格上升 2
貨幣大體上呈貶值趨勢(shì)@國際油價(jià)名義價(jià)格走高 2
朱廣滬時(shí)期大面積召人@國家隊(duì)貶值 1

3、與“戀愛”相關(guān)的因果事件對(duì)

戀愛觀婚姻觀@觀眾極大興趣 2
戀愛問題@學(xué)生意外傷害事 2
人相知相惜@戀愛溫度始終保持合適系數(shù) 1
持人大爆錢包@戀愛故事 1
來美麗密令戀愛線人電影@陸毅閃耀大銀幕上 1
李成儒和小演員侯角戀愛往事@媒體關(guān)注 1
歌曲轉(zhuǎn)換過渡上顯得流暢@聽起來實(shí)在如男女戀愛中不倫戀 1
抓緊時(shí)間南京談戀愛@臺(tái)上臺(tái)下哄笑 1
公司安排工作@沒時(shí)間戀愛 1
強(qiáng)打精神去面對(duì)@戀愛沒有興趣 1

總結(jié)

本文以清華大學(xué)開源的文本分類數(shù)據(jù)集THUnews,對(duì)外開源了一個(gè)面向多領(lǐng)域的十萬級(jí)因果事件對(duì)數(shù)據(jù)集,并介紹了常用技術(shù)方法。

當(dāng)然,數(shù)據(jù)的質(zhì)量也有不足之處,規(guī)模不大,可以加以改善。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多