小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

事理圖譜:事件演化的規(guī)律和模式

 工農(nóng)子弟兵 2019-07-20

原創(chuàng)作者:丁效,李忠陽,劉挺

2016年7月,哈工大社會計算與信息檢索研究中心(HIT-SCIR)開始啟動事理圖譜的研究工作。

2017年10月,研究中心主任劉挺教授在中國計算機大會(CNCC)上正式提出事理圖譜的概念。

2018年9月,在研究中心丁效老師的主持下,研制出中文金融事理圖譜1.0版本,2019年7月更新為2.0版。

本文是對2016年7月以來工作的最新總結(jié),敬請各位同行指正。


引言

事件是人類社會的核心概念之一,人們的社會活動往往是事件驅(qū)動的。事件之間在時間、空間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價值的知識。然而,現(xiàn)有的典型知識圖譜均以實體及其屬性和關系為研究核心,缺乏對事理邏輯這一重要人類知識的刻畫。

為了彌補這一不足,事理圖譜應運而生,它能夠揭示事件的演化規(guī)律和發(fā)展邏輯,刻畫和記錄人類行為活動。在圖結(jié)構(gòu)上,事理圖譜是一個有向有環(huán)圖,其中節(jié)點表示事件,有向邊表示事件之間的演化關系。現(xiàn)實世界中事件演化規(guī)律的復雜性決定了我們必須采用這種復雜的圖結(jié)構(gòu)。本質(zhì)上,事理圖譜是一個事理邏輯知識庫,描述了事件之間的演化規(guī)律和模式。

1. 研究背景及意義

隨著深度學習的興起,人工智能迎來了新的發(fā)展高潮。人工智能的一個發(fā)展瓶頸在于,如何讓機器掌握人類知識。例如,人類能輕易理解“吃過飯”后,就“不餓”了這樣的常識知識,而讓機器理解并掌握大量這樣的知識是一件極其困難的事情,而這也是通往強人工智能的必由之路。在眾多類型的人類知識中,事理邏輯是一種非常重要且普遍存在的知識。

許多人工智能應用依賴于對事理邏輯知識的深刻理解。以隱式消費意圖識別以及隱式情感分析為例,只有讓機器知道“結(jié)婚”事件伴隨著后續(xù)一系列消費事件,例如“買房子”、“買汽車”和“去旅行”,我們才能在觀察到“結(jié)婚”事件的時候,準確地識別出用戶潛在的隱式消費意圖,進而向目標用戶做出精準的產(chǎn)品推薦。只有讓機器掌握“考試不及格”會引起“情緒低落”這樣的常識事理,才能從顯式事件當中挖掘出用戶背后的隱式情感。

現(xiàn)有的對話生成系統(tǒng)大多從大規(guī)模對話語料中以最大似然估計進行訓練。然而人類對話的語義和語境是復雜多變的,這樣得到的對話系統(tǒng)很難深入理解對話上下文的前因后果,而只是對訓練語料中特定問答模式的記憶。只有讓機器理解了“吃過飯”之后“人不餓了”,“看電影”之前要“先買票”這樣的常識事理,對話系統(tǒng)才能根據(jù)不同的問答語境,做出更加智能的回復。

股市一般伴隨著短期內(nèi)隨機的小波動,以及長期內(nèi)重大事件驅(qū)動的大波動。例如,近來隨著人工智能迎來發(fā)展高潮,以及“國家將人工智能列為國家發(fā)展戰(zhàn)略”,科大訊飛等人工智能企業(yè)股價迎來了一波大漲。

事件驅(qū)動的股市預測悄然興起。從金融文本中挖掘“糧食減產(chǎn)”導致“農(nóng)產(chǎn)品價格上漲”,再導致“通脹”,進而導致“股市下跌”這樣的遠距離事件依賴,對于事件驅(qū)動的股市漲跌預測非常有價值。事理邏輯知識的挖掘與知識庫構(gòu)建迫在眉睫,這將極大地推動多項人工智能應用的發(fā)展。

事件是人類社會的核心概念之一,人們的社會活動往往是事件驅(qū)動的。事件之間在時間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價值的知識,挖掘這種事理邏輯知識對我們認識人類行為和社會發(fā)展變化規(guī)律非常有意義。

然而,當前無論是知識圖譜還是語義網(wǎng)絡等知識庫的核心研究對象都不是事件。盡管傳統(tǒng)知識圖譜在現(xiàn)代搜索引擎中(例如Google、Bing、Baidu等商業(yè)搜索引擎)得到了廣泛應用,但是其聚焦于實體和實體之間的關系,缺乏對事理邏輯知識的挖掘。我們認為事理邏輯知識,包括事件之間的順承、因果、條件和上下位等關系,對于人工智能領域的多種任務具有非常巨大的價值。

為了揭示事件的演化規(guī)律和發(fā)展模式,我們提出了事理圖譜的概念,旨在將事件的演化規(guī)律和模式構(gòu)建成一個有向圖形式的事理知識庫,用于刻畫和記錄人類行為活動和事件客觀演化規(guī)律。

2. 事理圖譜的定義

事理圖譜(Event Logic Graph,縮寫ELG)是一個事理邏輯知識庫,描述了事件之間的演化規(guī)律和模式。結(jié)構(gòu)上,事理圖譜是一個有向有環(huán)圖,其中節(jié)點代表事件,有向邊代表事件之間的順承、因果、條件和上下位等事理邏輯關系。

理論上,事理圖譜中的事件是具有一定抽象程度的泛化事件。表示為抽象、語義完備的謂詞短語或句子,也可以表示為可變長度的、結(jié)構(gòu)化的(主體、事件詞、客體)多元組,其中必然包含一個事件詞,標志事件的發(fā)生,例如:“跑步”,而事件的主體和客體都可以在不同的應用場景下被省略,例如:“(元首,出訪)”可以省略事件的客體,“(購買,機票)”可以省略事件的主體。一般情況下,事件以及事件的抽象程度與該事件發(fā)生的場景緊密關聯(lián)在一起,脫離了具體的場景,一個單獨的事件可能變得過度抽象而難以理解。

例如,雖然脫離了具體的場景,但“吃火鍋”, “看電影”, “去機場”,“地震” 仍是合理的事件表達;但“做事情”,“吃”等事件由于過度抽象,屬于不合理或不完整的事件表達。

事件詞可以是動詞或名詞,但是絕大多數(shù)事件都是動詞觸發(fā)的。其中,按動詞的內(nèi)容意義進行劃分,可將事件分為動作類事件、狀態(tài)類事件、關系類事件與能愿類事件四個大類。

2.1 事理圖譜中的事件關系類型

我們認為,現(xiàn)實世界中有四種事理邏輯關系特別重要,也是我們提出的事理圖譜中主要關注的事理邏輯關系,包括事件之間的順承關系、因果關系、條件關系和上下位關系。

順承關系是指兩個事件在時間上相繼發(fā)生的偏序關系。我們借鑒TimeML時序關系類別中的before和after偏序關系,在事理圖譜中的順承關系包括兩種情況:一種情況是順承的前序事件a結(jié)束后,后序事件b緊接著發(fā)生;另一種情況是前序事件a結(jié)束后,隔一段時間后序事件b才會發(fā)生,具體如圖1所示。兩個前后順承的事件之間存在一個介于0到1之間的轉(zhuǎn)移概率,表示從一個事件按時序順承關系演化到下一事件的置信度。

圖1 兩種順承關系示例

因果關系是指兩個事件之間,前一事件(原因)的發(fā)生導致后一事件(結(jié)果)的發(fā)生。在事理圖譜中,因果關系滿足原因事件在前,結(jié)果事件在后的時間上的偏序關系,因此在一定意義上,可以認為因果關系是順承關系的子集。因果事件對之間存在一個介于0到1之間的因果強度值,表示該因果關系成立的置信度。

條件關系是指前一個事件是后一個事件發(fā)生的條件。條件關系屬于思想中命題的某種邏輯關系,因果關系屬于對客觀事實的某種認識,我們認為“原因≠理由”,“原因”指的是事件之間的因果關系,是關于事實的,“理由”是前提與結(jié)論或論據(jù)與論點的內(nèi)在聯(lián)系,是關于邏輯的。舉例來說,“如果買票的人多,那么電影好看”這一條件是成立的,而“因為買票的人多,所以電影好看”這一因果是不成立的。

上下位關系:事件之間的上下位關系有兩種:名詞性上下位關系和動詞性上下位關系。例如,事件“食品價格上漲”與“蔬菜價格上漲”構(gòu)成名詞性上下位關系;事件“殺害”與“刺殺”互為動詞性上下位關系。需要注意的是,上下位關系一般是沒有疑義的確定知識,因此可認為該類關系的置信度為常數(shù)1或0,即表示該知識是正確的或者是錯誤的。

2.2 事理圖譜中的事件屬性

事理圖譜除了關注事件之間的事理邏輯關系外,還關注事件自身的屬性。事件屬性用來描述事件發(fā)生的程度、持續(xù)時間等。

在進行推理時,事件屬性會起到非常重要的作用,例如,從金融文本中可以抽取到“貨幣超發(fā)”會導致“匯率貶值”,“匯率貶值”又會導致“貨幣緊縮”,而實際上“貨幣持續(xù)超發(fā)”才會導致“匯率貶值”,而“匯率大幅貶值”才會導致“貨幣緊縮”,這里面“持續(xù)”和“大幅”作為事件的屬性,可以影響到事件未來的走勢情況。此外,“股票下跌/上漲”的百分比也是事件重要的屬性,股票上漲0.1%和上漲10%對未來事件的影響是有非常明顯的區(qū)別的。

3. 事理圖譜與知識圖譜的關系

“知識圖譜”這一術(shù)語有兩層含義。如果認為“知識圖譜”表示廣義上的知識庫,是一種用以存儲知識的本體的話,那么“事理圖譜”可以認為是一種存儲事理邏輯關系的“知識圖譜”;如果認為“知識圖譜”特指狹義上現(xiàn)階段谷歌、百度所構(gòu)建的以實體為中心、用于提升用戶搜索體驗的知識庫,以及Freebase、 YAGO、 DBpedia、ConceptNet和微軟的Concept Graph等產(chǎn)品的話,那么“事理圖譜”便是與“知識圖譜”相并列的一種新型常識知識庫。

表1 事理圖譜與知識圖譜的區(qū)別及聯(lián)系

事理圖譜與傳統(tǒng)知識圖譜有本質(zhì)上的不同。如表1所示,事理圖譜以事件為核心研究對象,有向邊表示事理邏輯關系,即順承、因果、條件和上下位;邊上標注有概率信息說明事理圖譜是一種事件間相繼發(fā)生可能性的刻畫,不是確定性關系。而知識圖譜以實體為核心研究對象,實體屬性以及實體間關系種類往往成千上萬。知識圖譜以客觀真實性為目標,某一條屬性或關系要么成立,要么不成立。

4. 事理圖譜的構(gòu)建

4.1 基本技術(shù)原理

事理圖譜課題主要研究從大規(guī)模無結(jié)構(gòu)化(或者結(jié)構(gòu)化、半結(jié)構(gòu)化)文本數(shù)據(jù)中自動獲取事理邏輯知識,并將這些知識組織成有向有環(huán)圖結(jié)構(gòu),用以描述事件之間的演化規(guī)律和模式。這樣的知識庫我們稱之為“事理圖譜”。

事理圖譜項目包含“構(gòu)建”、“推理”和“應用”三個關鍵技術(shù)點

(1) 事理圖譜的構(gòu)建

事理圖譜的構(gòu)建主要用到以下具體的自然語言處理技術(shù):事件定義、開放域或限定域事件抽取,事理關系抽取(包含事件順承、因果、上下位關系抽取等),事理關系置信強度計算,事件相似度計算,事件抽象與泛化等。

(2) 事理圖譜的推理

事理圖譜的推理可以用于事件及關系的補全,主要涉及到的技術(shù)有:結(jié)構(gòu)化事件表示學習,短語級、句子級事件表示學習,事理圖譜圖結(jié)構(gòu)上的圖神經(jīng)網(wǎng)絡技術(shù)等。

(3) 事理圖譜的應用

事理圖譜的應用是指將構(gòu)建好的事理圖譜用于下游任務,例如消費意圖識別和商品推薦、對話系統(tǒng)回復生成、股市漲跌預測、未來事件預測等,幫助提升具體任務的效果。此階段用到的技術(shù)主要有:事理圖譜的存儲與查詢(事件的搜索與匹配),事件表示學習,事理圖譜表示學習等。

4.2 主要技術(shù)領域及當前發(fā)展熱點

與事理圖譜項目密切相關的技術(shù)領域主要包含以下幾個方面:

(1) 常識知識庫資源構(gòu)建

傳統(tǒng)的常識知識庫資源構(gòu)建主要圍繞實體及其關系展開。2012年谷歌成功將大規(guī)模知識圖譜商業(yè)化,顯著改善了搜索結(jié)果的呈現(xiàn)方式,并提升了搜索引擎的用戶體驗。之后以實體為中心的知識圖譜獲得了長足的發(fā)展以及廣泛的應用。時至今日,知識圖譜仍然是學術(shù)界的一個發(fā)展熱點。知識圖譜上的知識表示學習、實體鏈接、實體消歧、知識圖譜補全等等研究方向仍然是當下研究的熱點問題。

然而,已有研究者注意到事件常識的重要性,部分最新的研究工作開始研究以事件為中心的常識知識庫構(gòu)建。

(2) 統(tǒng)計腳本學習

給出多個事件組成的上文,統(tǒng)計腳本學習研究下一個可能發(fā)生的事件是什么,可以認為是建模事件預測的能力。

傳統(tǒng)方法多在無監(jiān)督抽取的結(jié)構(gòu)化事件鏈條上進行模型的搭建,這條技術(shù)路線仍然在發(fā)展當中,不斷有新的模型涌現(xiàn);最近,學者們提出故事結(jié)尾預測的評估方式,是對傳統(tǒng)評估方法的進一步完善。

(3) 事件順承關系抽取

由于語料標注的限制,事件時序關系抽取研究進展相當緩慢。雖然曾經(jīng)連續(xù)舉辦多個技術(shù)評測,推動了該技術(shù)的發(fā)展,但是進步仍然十分有限。最近,時序關系抽取重新引起了學者的研究興趣,有許多相關研究發(fā)表。從預料的構(gòu)建,識別方法的改進等多個方面繼續(xù)推動該研究走向使用階段。目前,已有開放域的時序關系抽取系統(tǒng)發(fā)布。

(4) 事件因果關系抽取

文本中的因果關系抽取一直是一個難點。雖然學者們提出了許多方法,但是仍以因果模板匹配的方法抽取精確度最好。模板匹配的缺點在于召回率難以保證,許多有價值的因果關系無法召回。目前,高效準確的因果關系抽取方法仍然是一個難點及研究熱點。

(5) 知識表示學習與網(wǎng)絡表示學習

知識表示學習是指將知識圖譜中的實體及關系映射到低維稠密向量,進而可以更加方便地用于后續(xù)任務當中。網(wǎng)絡表示學習的研究對象不僅僅包含知識圖譜這種網(wǎng)絡,而是更廣義上的網(wǎng)絡。這兩個研究方向都是當下研究的熱點問題,屬于事理圖譜應用階段的實用技術(shù)。

5. 金融事理圖譜V2.0版本發(fā)布

2018年9月10日,HIT-SCIR正式對外發(fā)布金融事理圖譜V1.0版本,經(jīng)過近10個月的潛心研發(fā),HIT-SCIR推出金融事理圖譜V2.0版本,相對于V1.0版本,V2.0版本進行了如下的改進。

表2 金融事理圖譜1.0版本與2.0版本對比


金融事理圖譜v1.0

金融事理圖譜v2.0

URL

http://eeg./

http://elg./

數(shù)據(jù)源

北京語言大學新聞語料、騰訊、網(wǎng)易、股吧、和訊、Resset等網(wǎng)站的金融新聞

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多