時(shí)態(tài)數(shù)據(jù)是一種典型的數(shù)據(jù)結(jié)構(gòu),用于描述復(fù)雜系統(tǒng)的時(shí)間序列,在工業(yè)、醫(yī)學(xué)、金融等領(lǐng)域有著廣泛的應(yīng)用。分析這種類型的數(shù)據(jù)對各種應(yīng)用都非常有價(jià)值。因此,在過去的幾十年里,不同的時(shí)態(tài)數(shù)據(jù)分析任務(wù),如分類、聚類和預(yù)測,被提出。其中,因果發(fā)現(xiàn),即從時(shí)序數(shù)據(jù)中學(xué)習(xí)因果關(guān)系,是一項(xiàng)有趣而關(guān)鍵的任務(wù),受到了廣泛的研究關(guān)注。根據(jù)時(shí)序數(shù)據(jù)是否經(jīng)過校準(zhǔn),現(xiàn)有的因果關(guān)系發(fā)現(xiàn)工作可以分為兩類,即多元時(shí)間序列因果關(guān)系發(fā)現(xiàn)和事件序列因果關(guān)系發(fā)現(xiàn)。然而,以往的研究大多只關(guān)注時(shí)間序列的偶然發(fā)現(xiàn),而忽略了第二類偶然發(fā)現(xiàn)。本文詳細(xì)說明了這兩類之間的相關(guān)性,并對現(xiàn)有的解決方案進(jìn)行了系統(tǒng)的概述。提供了時(shí)態(tài)數(shù)據(jù)因果發(fā)現(xiàn)的公開數(shù)據(jù)集、評估指標(biāo)和新視角。 1. 引言 社會網(wǎng)絡(luò)、生物信息學(xué)、神經(jīng)科學(xué)、金融等領(lǐng)域廣泛收集記錄復(fù)雜系統(tǒng)狀態(tài)變化的時(shí)態(tài)數(shù)據(jù)。時(shí)態(tài)數(shù)據(jù)是最常用的數(shù)據(jù)結(jié)構(gòu)之一,由按時(shí)間排序的屬性序列組成。近年來,隨著傳感器和計(jì)算設(shè)備的快速發(fā)展,時(shí)態(tài)數(shù)據(jù)分析的研究工作不斷涌現(xiàn)。人們針對不同的任務(wù)提出了不同的方法,如分類[1,2],聚類[3,4],預(yù)測[5],因果發(fā)現(xiàn)[6,7]等。其中,因果發(fā)現(xiàn)識別眾多時(shí)態(tài)成分之間的因果關(guān)系已成為時(shí)態(tài)數(shù)據(jù)分析中一項(xiàng)具有挑戰(zhàn)性但至關(guān)重要的任務(wù)。學(xué)習(xí)到的因果結(jié)構(gòu)有助于解釋數(shù)據(jù)的生成過程,指導(dǎo)數(shù)據(jù)分析方法的設(shè)計(jì)。根據(jù)數(shù)據(jù)是否經(jīng)過校準(zhǔn),用于因果發(fā)現(xiàn)的時(shí)間數(shù)據(jù)可以分為兩類,即多元時(shí)間序列(MTS)和事件序列。因此,現(xiàn)有的因果發(fā)現(xiàn)方法也可以分別分為兩類。本綜述旨在提供一個(gè)深思熟慮的概述,并總結(jié)時(shí)序數(shù)據(jù)因果發(fā)現(xiàn)的前沿。 MTS數(shù)據(jù)描述了多個(gè)變量隨時(shí)間變化的標(biāo)定狀態(tài),在許多領(lǐng)域是一種通用的時(shí)態(tài)數(shù)據(jù)。發(fā)現(xiàn)MTS的因果關(guān)系有助于提高數(shù)據(jù)分析模型的可解釋性和魯棒性。然而,因果關(guān)系的定義并不唯一,導(dǎo)致了不同的解決方案?,F(xiàn)有的研究工作可以分為四類,即基于約束的方法、基于評分的方法、基于功能因果模型(functional causal model, FCM)的方法和Granger因果方法。此外,也存在一些新的視角,如Takens的因果關(guān)系和微分方程。本文將詳細(xì)說明每個(gè)類別的主要思想和最新進(jìn)展。事件序列中的因果關(guān)系發(fā)現(xiàn)是事件序列中的另一項(xiàng)任務(wù),它在非規(guī)則和異步觀察到的時(shí)間序列中推斷因果關(guān)系。具體來說,它將不同事件的序列作為輸入,并輸出表示不同事件之間因果相互作用的因果圖。這項(xiàng)任務(wù)非常重要,因?yàn)楝F(xiàn)實(shí)世界中的大多數(shù)事件不能在固定的時(shí)間間隔內(nèi)出現(xiàn)。根據(jù)MTS任務(wù),將相應(yīng)的方法分為三大類:基于約束的方法、基于得分的方法和基于Granger因果關(guān)系的方法。在這三類方法中,基于Granger因果關(guān)系的方法,特別是基于Granger因果的霍克斯過程模型,由于Granger因果關(guān)系和霍克斯過程之間存在天然的匹配,得到了較好的發(fā)展。我們將在本綜述中進(jìn)一步詳細(xì)描述這些方法。 最近,許多研究[8,9,10,11,12,13,14,15,16,17]被發(fā)表來總結(jié)偶然發(fā)現(xiàn)的進(jìn)展。我們比較了表1中具有代表性的評論及其亮點(diǎn)。如圖所示,這些調(diào)研分為兩行。第一行[8,10,9,11]的研究工作從不同的角度討論了一般的因果發(fā)現(xiàn)問題。例如,[8]給出了計(jì)算因果關(guān)系發(fā)現(xiàn)方法的簡要綜述。[10]專注于持續(xù)優(yōu)化方法的快速發(fā)展。為了處理大數(shù)據(jù),在[9]中引入了基于機(jī)器學(xué)習(xí)的因果推理和因果發(fā)現(xiàn)方法。此外,回顧了不同變量范式下的深度學(xué)習(xí)因果發(fā)現(xiàn)方法,從更廣闊的視角討論了數(shù)據(jù)中的因果關(guān)系。這些論文將時(shí)態(tài)數(shù)據(jù)作為一種特殊的應(yīng)用,并沒有包括許多數(shù)據(jù)指定的方法。第二行中的調(diào)查側(cè)重于時(shí)態(tài)數(shù)據(jù)的偶然發(fā)現(xiàn)。如表1所示,[6,7]綜述了二元時(shí)間序列的因果發(fā)現(xiàn)方法。最近,[12,13]對時(shí)間序列中的因果推理方法進(jìn)行了綜述。最近的工作[14]對已有的時(shí)間序列因果發(fā)現(xiàn)方法進(jìn)行了討論和比較評估。然而,這些綜述忽略了事件序列的因果關(guān)系發(fā)現(xiàn)方法。文中不僅對這兩種時(shí)態(tài)數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法進(jìn)行了全面的綜述,而且分析了它們之間的聯(lián)系和區(qū)別。 其次,在第2節(jié)中,我們首先介紹了偶然發(fā)現(xiàn)問題的背景和初步研究。第3節(jié)和第4節(jié)分別介紹了MTS和事件序列因果關(guān)系發(fā)現(xiàn)的最新進(jìn)展。然后,在第5節(jié)中概述了時(shí)態(tài)數(shù)據(jù)因果發(fā)現(xiàn)的應(yīng)用,在第6節(jié)中總結(jié)了可用的資源。最后,在第7節(jié)中討論了現(xiàn)有時(shí)態(tài)數(shù)據(jù)因果關(guān)系發(fā)現(xiàn)方法的局限性和新發(fā)展方向。 2. 多元時(shí)間序列的因果發(fā)現(xiàn) 在本節(jié)中,我們回顧了多變量時(shí)間序列數(shù)據(jù)的因果發(fā)現(xiàn)方法,包括基于約束的方法、基于評分的方法、基于功能因果模型的方法、Granger因果關(guān)系等。結(jié)合這些特點(diǎn),具有代表性的算法總結(jié)在表3中。 3.1 基于約束的方法 作為一類因果關(guān)系發(fā)現(xiàn)算法,基于約束的方法依賴于條件獨(dú)立性的統(tǒng)計(jì)檢驗(yàn),易于理解且應(yīng)用廣泛。首先給出了基于約束的方法的主要思想,包括一般步驟和因果假設(shè)。詳細(xì)的方法將分為有因果充分性假設(shè)和無因果充分性假設(shè)兩類,并分別介紹。一般步驟是:首先,基于條件獨(dú)立性建立變量間的骨架;其次,根據(jù)規(guī)則中的方向準(zhǔn)則對骨架進(jìn)行方向估計(jì);目標(biāo)是構(gòu)建表示真實(shí)因果圖的MEC的完全部分有向無環(huán)圖(CPDAGs)。這些從觀察中得出MEC的方法的核心是因果假設(shè)。這些方法通常是在因果馬爾可夫性質(zhì)和忠實(shí)度的假設(shè)下進(jìn)行的,有些還假設(shè)因果充分性(沒有未觀察到的混雜因素)。在本節(jié)中,我們首先回顧了因果充分性假設(shè)下的主要算法及其對時(shí)序數(shù)據(jù)的擴(kuò)展,然后介紹了當(dāng)因果充分性假設(shè)不確定時(shí)的處理方法。 3.2 基于分?jǐn)?shù)的方法 另一類因果發(fā)現(xiàn)方法是基于得分函數(shù)的。首先介紹基于評分的方法的主要思想,包括(動態(tài))貝葉斯網(wǎng)絡(luò)、基于評分的方法與基于約束的方法相比的特點(diǎn)、模型評分和模型搜索。然后,分別回顧MTS的組合搜索方法和連續(xù)優(yōu)化方法; 3.3 FCM-Based方法 上述兩類方法要么面臨MEC的不可分離性,要么需要大樣本來確認(rèn)因果忠實(shí)度。因果發(fā)現(xiàn)也可以基于功能因果模型(Functional Causal Models, FCM)進(jìn)行[89],也稱為2.1中的SCM,通過一組方程來描述因果系統(tǒng)。近年來,基于FCM的時(shí)間和非時(shí)間數(shù)據(jù)處理方法大量涌現(xiàn)。在本小節(jié)中,我們首先介紹基于FCM方法的主要思想,包括功能因果模型和噪聲在因果關(guān)系定位中的使用。然后分別介紹兩類基于FCM的方法,即基于獨(dú)立分量分析的方法和基于加性噪聲模型的方法。在FCM中,每個(gè)變量都用一個(gè)方程來解釋其直接原因和一些額外的噪聲。例如,函數(shù)xj = fj (xi, uj)解釋了xi→xj與一些額外的噪聲uj的因果關(guān)系?;贔CM的因果發(fā)現(xiàn)方法的一個(gè)基本思想是,統(tǒng)計(jì)噪聲可以是一個(gè)有價(jià)值的見解來源,這迎合了最近的發(fā)現(xiàn)[90],挑戰(zhàn)了噪聲應(yīng)該被視為討厭的正統(tǒng)觀點(diǎn)。其中,因果關(guān)系可以借助噪聲進(jìn)行識別和估計(jì)。 3.4 基于Granger因果關(guān)系的方法 Granger因果關(guān)系是分析時(shí)間序列數(shù)據(jù)的常用工具。有許多因果發(fā)現(xiàn)方法都是在Granger因果關(guān)系的基礎(chǔ)上發(fā)展起來的。在這一小節(jié)中,我們首先介紹Granger因果關(guān)系的定義。在深入研究具體方法之前,將給出兩類MTS Granger因果關(guān)系模型(無模型和基于模型)并進(jìn)行比較。由于基于模型的方法在更一般的情況下具有優(yōu)越性,本文的其余部分將重點(diǎn)介紹基于模型的方法的兩個(gè)最新進(jìn)展:(1)基于核的方法(3.4.3),以及(2)基于神經(jīng)網(wǎng)絡(luò)的方法(3.4.4)。 3.5 其他 上述四類方法已經(jīng)成為因果發(fā)現(xiàn)研究的主題。為了保證方法的完備性,本節(jié)將介紹5種不同于上述方法的方法,包括基于信息論統(tǒng)計(jì)的因果關(guān)系方法、基于微分方程的因果模型方法、非線性狀態(tài)空間方法、基于邏輯的方法和混合方法。 4 事件序列的因果關(guān)系發(fā)現(xiàn) 多元時(shí)間序列的一個(gè)重要假設(shè)是時(shí)間戳是離散的,時(shí)間間隔是固定的。然而,在現(xiàn)實(shí)世界中,絕大多數(shù)事件不會以固定的時(shí)間間隔發(fā)生。因此,我們需要想出一些方法來處理這些不規(guī)則和異步的數(shù)據(jù)。我們可以將事件序列構(gòu)建為{(t1, e1),(t2, e2),…},其中第一個(gè)維度表示對應(yīng)事件發(fā)生的時(shí)間,第二個(gè)維度表示對應(yīng)的事件類型。在本節(jié)中,我們將專注于推斷事件序列中的因果關(guān)系。首先,介紹了多元點(diǎn)過程,為事件序列的因果發(fā)現(xiàn)做了初步的介紹;然后,我們回顧了基于格蘭杰因果模型的方法,這些方法是很好的發(fā)展。最后,給出了基于約束的方法和基于分?jǐn)?shù)的方法。 5. 應(yīng)用 時(shí)序因果發(fā)現(xiàn)已被廣泛應(yīng)用于許多領(lǐng)域,如科學(xué)努力(地球科學(xué)[197],神經(jīng)科學(xué)[198,199,200],生物信息學(xué)[201]),工業(yè)實(shí)現(xiàn)(異常檢測[202],根本原因分析[203,204],在線系統(tǒng)中的商業(yè)智能[205],視頻分析[206])。表5總結(jié)了該方法的應(yīng)用領(lǐng)域和相關(guān)研究。對于科學(xué)研究而言,學(xué)習(xí)到的因果關(guān)系通常不應(yīng)被視為最終結(jié)果,而應(yīng)被視為進(jìn)一步研究的起點(diǎn)和假設(shè)[207]。作為一種推動者,因果發(fā)現(xiàn)可以在工業(yè)環(huán)境中的多階段方法中發(fā)揮支持作用[203]。在本節(jié)的其余部分中,我們將回顧三個(gè)領(lǐng)域,包括地球科學(xué)、異常檢測和根本原因,以解釋將時(shí)間因果發(fā)現(xiàn)分別納入科學(xué)努力和工業(yè)實(shí)施的主要工作流程。 |
|