必讀最新進(jìn)展,時(shí)間序列因果推斷:問題、方法和模型
正文Moraffah, R., Sheth, P., Karami, M. et al. Causal inference for time series analysis: problems, methods and evaluation. Knowl Inf Syst 63, 3041–3085 (2021). Time series data are a collection of chronological observations which are generated by several domains such as medical and financial fields. Over the years, different tasks such as classification, forecasting and clustering have been proposed to analyze this type of data. Time series data have been also used to study the effect of interventions overtime. Moreover, in many fields of science, learning the causal structure of dynamic systems and time series data is considered an interesting task which plays an important role in scientific discoveries. Estimating the effect of an intervention and identifying the causal relations from the data can be performed via causal inference. Existing surveys on time series discuss traditional tasks such as classification and forecasting or explain the details of the approaches proposed to solve a specific task. In this paper, we focus on two causal inference tasks, i.e., treatment effect estimation and causal discovery for time series data and provide a comprehensive review of the approaches in each task. Furthermore, we curate a list of commonly used evaluation metrics and datasets for each task and provide an in-depth insight. These metrics and datasets can serve as benchmark for research in the field.
摘要時(shí)間序列數(shù)據(jù)是由多個(gè)領(lǐng)域(例如醫(yī)學(xué)和金融領(lǐng)域)的按時(shí)間順序的集合。多年來,許多學(xué)者用分類、預(yù)測和聚類等不同方法來分析此類數(shù)據(jù)。時(shí)間序列數(shù)據(jù)也被用于研究時(shí)間上的處置效果。在許多科學(xué)領(lǐng)域,動(dòng)態(tài)系統(tǒng)和時(shí)間序列數(shù)據(jù)的因果結(jié)構(gòu)也在科學(xué)發(fā)現(xiàn)中發(fā)揮著重要作用。通過因果推理,可以估計(jì)干預(yù)的效果,從數(shù)據(jù)中找出因果關(guān)系。現(xiàn)有的時(shí)間序列研究集中于分類和預(yù)測等傳統(tǒng)任務(wù),或用于解釋某些特定方法的細(xì)節(jié)。論文關(guān)注兩個(gè)因果推理任務(wù),即時(shí)間序列數(shù)據(jù)的處置效應(yīng)和因果發(fā)現(xiàn),并提供全面的概述。此外,論文為每項(xiàng)任務(wù)整理了一份常用評估指標(biāo)和數(shù)據(jù)集列表,并提供了深入的分析。這些指標(biāo)和數(shù)據(jù)集可以作為該領(lǐng)域研究的基準(zhǔn)。1 簡介第二章介紹流行的時(shí)間序列模型。第三章討論時(shí)間序列因果推斷的必要定義和假設(shè)。第四章討論時(shí)間序列的因果處置效應(yīng)和因果發(fā)現(xiàn)。第五章總結(jié)了常用的數(shù)據(jù)集和常用指標(biāo),提供了方法框架。第六章總結(jié)了未來研究方向。2 時(shí)間序列模型建模2.1 自回歸模型AR模型:X(t)與過去變量的回歸。 MA模型:X(t)與公式(1)殘差的回歸。 r階拆分:將非平穩(wěn)序列轉(zhuǎn)化為平穩(wěn)序列。 以上三個(gè)模型可以衍生出ARIMA模型、SES模型、DES模型、TES模型 2.2 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)記貝葉斯網(wǎng)絡(luò)G=(V,E),V是節(jié)點(diǎn),E是路徑。V點(diǎn)的概率為所有父節(jié)點(diǎn)到達(dá)該點(diǎn)的局部條件概率乘積。2.2.1 狀態(tài)空間模型SSM代表狀態(tài)轉(zhuǎn)移公式,用于描述狀態(tài)轉(zhuǎn)移的概率,常用的形式是線性動(dòng)態(tài)系統(tǒng)(LDS),符合一階馬爾可夫假設(shè)。LDS的形式如下: 假設(shè)xt不僅由隱藏狀態(tài)zt決定,還由離散的狀態(tài)st決定,則聯(lián)合概率分布函數(shù)為:2.2.2 隱藏馬爾可夫模型(HMM)HMM是SSM的一種形式,假設(shè)狀態(tài)轉(zhuǎn)移遵守馬爾可夫過程。聯(lián)合概率分布函數(shù)為:鮑姆-韋爾奇算法(The Baum–Welch algorithm)是用于估計(jì)HMM參數(shù)的一種EM算法。2.3 高斯過程(Gaussian processes,GP)只有通過對不確定性建模,才能利用可用數(shù)據(jù)進(jìn)行穩(wěn)健分析。因此,貝葉斯推理被用來處理噪聲和動(dòng)態(tài)環(huán)境中的不確定性。高斯過程是一類貝葉斯非參數(shù)模型,特別適合于對時(shí)間序列數(shù)據(jù)進(jìn)行建模。特別地,高斯過程是一類隨機(jī)過程,它定義了一組隨機(jī)變量上的聯(lián)合高斯分布。符合高斯過程的函數(shù)(f(x))由均值(m(x)和協(xié)方差(k(x,x’)函數(shù)指定,表示為f(x)~G P(m(x),k(x,x’))。形式為:2.3.1 深度學(xué)習(xí)和高斯過程(GP)使用神經(jīng)網(wǎng)絡(luò)將輸入映射到特征空間(提取非平穩(wěn)特征),而最后一層稀疏高斯過程在隱藏狀態(tài)空間回歸。例如Maddix DC, Wang Y, Smola A (2018) 。2.3.2 GP方法l Marton H, Hernéndez-Lobato JM,Murillo-Fuentes JJ (2018)一文提出了一種基于隨機(jī)梯度哈密頓蒙特卡羅方法的深度高斯過程模型的推理方法。該論文表明,這些模型中的后驗(yàn)具有非高斯性質(zhì),因此,基于變分推理估計(jì)高斯后驗(yàn)的現(xiàn)有方法對于多模態(tài)后驗(yàn)來說是較差的潛在近似。l Li SCX, Marlin B (2016)提出了一種不確定性感知分類框架,有助于學(xué)習(xí)黑盒分類模型,以對稀疏和不規(guī)則采樣的時(shí)間序列進(jìn)行分類。該框架使用高斯過程回歸將不規(guī)則時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,這允許將稀疏和不規(guī)則采樣的數(shù)據(jù)輸入到任何黑盒分類器中,該分類器可以使用梯度下降進(jìn)行學(xué)習(xí),同時(shí)保留不確定性。l Tobar F, Bui TD, Turner RE (2015)提出了一個(gè)稱為高斯過程卷積模型(GPCM)的框架,它作為平穩(wěn)時(shí)間序列的生成模型。該模型背后的主要思想是基于濾波器函數(shù)和白噪聲過程之間的卷積。這種方法直接從時(shí)間序列恢復(fù)譜密度的后驗(yàn)分布。在恢復(fù)后驗(yàn)分布之前,它還將非參數(shù)先驗(yàn)置于譜密度之上。從數(shù)據(jù)中學(xué)習(xí)模型允許以概率、分析和計(jì)算上易于處理的方式對協(xié)方差核以及頻譜進(jìn)行推斷。l Cunningham J, Ghahramani Z, Rasmussen C (2012)提出了一種高斯過程模型,用于分析具有多個(gè)時(shí)間標(biāo)記的多個(gè)時(shí)間序列。所提出的模型可以被視為輸入空間和給定數(shù)據(jù)標(biāo)記之間的映射。因此,該模型可以用作協(xié)方差函數(shù)的選擇。它還有助于學(xué)習(xí)和推理成為標(biāo)準(zhǔn)。l Haufe S et al (2010) 提出了一種利用周期性高斯過程進(jìn)行長期預(yù)測的算法。他們還指出,對于長期預(yù)測,有必要通過高斯過程映射概率分布。他們使用常用的平穩(wěn)周期核的重新參數(shù)化,這反過來又允許他們采用解析雙逼近策略來計(jì)算預(yù)測分布的矩。l 如果想了解高斯過程以及如何使用它們對時(shí)間序列數(shù)據(jù)進(jìn)行建模,可以參考Rasmussen CE (2003)、Liu H et al (2020)、Roberts S et al (2013)。2.4 神經(jīng)網(wǎng)絡(luò)對于更復(fù)雜、有噪聲和更高維度的現(xiàn)實(shí)世界數(shù)據(jù),ARIMA 和狀態(tài)空間模型等效率不高。針對這個(gè)問題,已有研究結(jié)合了各種無監(jiān)督深度模型。最新的研究可以參考Fawaz HI et al (2019)、Gamboa JCB (2017)和Lim B, Zohren S (2021)。Graves A (2013)提出了一種使用RNN和LSTM等循環(huán)模型生成序列的方法,通過處理每個(gè)步驟(xt)的真實(shí)數(shù)據(jù)并預(yù)測下一步(xt+1)的值。每一步的輸出預(yù)測 (yt ) 都是概率性的,并從中采樣以作為下一步的輸入。從已經(jīng)訓(xùn)練的網(wǎng)絡(luò)中的每一步迭代采樣,并將其傳遞到下一步,產(chǎn)生一個(gè)新的序列。3 背景本節(jié)介紹因果處置效果估計(jì)中的常見定義和假設(shè)。假設(shè)A是虛擬變量,代表是否為實(shí)驗(yàn)組。Y是結(jié)果。X是組間協(xié)變量。定義1:平均處置效應(yīng) (Average Treatment Effect)定義2:樣本平均處理效應(yīng)(Sample Average Treatment Effect)定義3:條件平均處理效應(yīng)(Conditional Average Treatment Effect)定義4:實(shí)驗(yàn)組的平均干預(yù)效應(yīng)(Conditional Average Treatment Effect) 以上變量在隨機(jī)試驗(yàn)中有效,但是觀測數(shù)據(jù)一般只能體現(xiàn)總體的水平,為了獲得一致估計(jì)量,以下條件需要滿足。假設(shè)3:條件可交換性。非條件可交換性是指實(shí)驗(yàn)組(treatment group)里的個(gè)體是可交換的,即如果它們被調(diào)換,新的實(shí)驗(yàn)組將觀察到與舊的實(shí)驗(yàn)組相同的結(jié)果,而新的控制組將觀察到與舊的控制組相同的結(jié)果。條件可交換性是指給定的X下可交換。假設(shè)4:因果平穩(wěn)性,即因果關(guān)系在不同時(shí)間段內(nèi)保持穩(wěn)定假設(shè)5:因果充分性假設(shè),即沒有未被觀測到的混雜變量 假設(shè)6:因果馬爾可夫條件 假設(shè)7:統(tǒng)計(jì)模型中的變量關(guān)系是否忠實(shí)地反映了真實(shí)的因果關(guān)系4 因果關(guān)系和時(shí)間序列分析本節(jié)討論時(shí)間序列數(shù)據(jù)的因果處置效果估計(jì)和因果發(fā)現(xiàn)。因果效應(yīng)估計(jì)通常用個(gè)體處置效果(ITE)、平均處置效果(ATE)、條件平均處置效果(CATE)和處置者平均處置效果(ATT)等指標(biāo)來衡量。因果發(fā)現(xiàn)是從數(shù)據(jù)中識(shí)別系統(tǒng)中變量之間的因果關(guān)系。常用的方法見表1和表2。4.1 時(shí)間序列上的因果處置效應(yīng)估計(jì)政策制定者經(jīng)常面臨評估干預(yù)(即政策變化)對結(jié)果的影響。處置效應(yīng)分為三種:(1)不隨時(shí)間變化的處置效應(yīng),(2)時(shí)變的處置效應(yīng),以及(3)動(dòng)態(tài)方案。本節(jié)介紹時(shí)間序列因果處置效應(yīng)的最新進(jìn)展和應(yīng)用。4.1.1 固定處置效應(yīng)當(dāng)一種干預(yù)發(fā)生在一個(gè)特定時(shí)間點(diǎn)并且此后不再改變時(shí),它是時(shí)間不變的或固定的,例如單劑量藥物。DID的模型形式: 合成控制方法(Synthetic Control Method):Abadie A, Gardeazabal J (2003)于 2003 年提出的合成控制方法 (SCM) 克服了控制組選擇模糊的問題,旨在估計(jì)總體水平上發(fā)生的干預(yù)措施的效果(例如國家、地區(qū)、 城市)。這種方法是通過確定每個(gè)控制單元的權(quán)重,使得所有這些潛在控制單元(稱為供體池)的加權(quán)平均值最接近治療前受治療單元的特征,并使用學(xué)習(xí)到的權(quán)重來估計(jì)干預(yù)后的反事實(shí) 。形式上,SCM 通過最小化以下項(xiàng)來找到權(quán)重:中斷時(shí)間序列 (ITS) 的使用場景:(1)干預(yù)在已知的時(shí)間點(diǎn)開始,(2)干預(yù)后結(jié)果變化相對較快或有一定的滯后,(3)結(jié)果持續(xù)足夠長的時(shí)間。4.1.2 時(shí)變處置效應(yīng)大多數(shù)時(shí)候不能用簡單的二分法來評估處置效應(yīng),例如需醫(yī)生會(huì)根據(jù)患者的臨床反應(yīng)重新調(diào)整劑量時(shí)的藥物劑量。在這種情況下,A(代表處置與否的虛擬變量)將與時(shí)間相關(guān)并且始終被記錄(A(t) = {A(1), A(2), ...A(n)})。大多數(shù)研究方法認(rèn)為影響處置分配和潛在結(jié)果的變量都是已知的, 否則結(jié)果會(huì)有偏差。Bica I, Alaa AM, van der Schaar M (2019)構(gòu)建了因子模型,采用循環(huán)神經(jīng)網(wǎng)絡(luò)考慮了潛在變量,模型如圖3。 4.1.3 動(dòng)態(tài)處理機(jī)制動(dòng)態(tài)處置模型是將處置變量和協(xié)變量的時(shí)間序列作為參數(shù),并輸出要采取的行動(dòng),目的是得到一系列關(guān)于如何隨時(shí)間變化的決策策略。圖 4 顯示了兩階段動(dòng)態(tài)處置方案,其中 X 和 A 分別表示分類協(xié)變量和代表處置動(dòng)作的虛擬變量。兩階段參與者的觀測數(shù)據(jù)用 (X1, A1, X2, A2) 表示,其中 X1 是處置前協(xié)變量,X2 是時(shí)變協(xié)變量,可能取決于處置期間接受的處置。第一個(gè)間隔。隨機(jī)處置行動(dòng)為 A1 和 A2,主要結(jié)果為 Y = f (X1, A1, X2, A2)。 4.2 時(shí)間序列的因果關(guān)系4.2.1 基于格蘭杰因果關(guān)系和條件獨(dú)立性的方法格蘭杰因果關(guān)系:如果Y包含了X過去值無法包含的信息,則認(rèn)為Y 是X 的格蘭杰原因。 4.2.2 基于結(jié)構(gòu)方程模型的方法結(jié)構(gòu)方程模型(SEM)長期以來一直用于從觀測數(shù)據(jù)中尋找因果關(guān)系。SEM的一種形式是線性非高斯非循環(huán)模型(LiNGAM),用于識(shí)別因果結(jié)構(gòu)。該模型利用獨(dú)立成分分析 (ICA) 來識(shí)別觀測數(shù)據(jù)中的因果關(guān)系。與高斯過程不同,LiNGAM 基于使用數(shù)據(jù)的非高斯性。該方法的關(guān)鍵在于,當(dāng)數(shù)據(jù)為非高斯時(shí),可以識(shí)別更多的生成結(jié)構(gòu)。它可以在數(shù)學(xué)上表示為: 4.2.3 基于深度學(xué)習(xí)的方法本節(jié)簡要介紹深度神經(jīng)網(wǎng)絡(luò)如何應(yīng)用于時(shí)間序列數(shù)據(jù)的因果發(fā)現(xiàn),并如何克服傳統(tǒng)時(shí)間序列因果模型的缺點(diǎn)。格蘭杰因果關(guān)系方法建立在時(shí)間序列的線性基礎(chǔ)上。然而,在現(xiàn)實(shí)世界的情況下,時(shí)間序列之間的依賴性通常是非線性的,可能會(huì)導(dǎo)致格蘭杰因果關(guān)系的估計(jì)不一致。為了將非線性相互作用納入格蘭杰因果關(guān)系檢測中,Tank A et al (2018)提出了一類非線性架構(gòu),例如多層感知器(MLP)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),其中每個(gè)時(shí)間序列都使用 MLP 或 RNN 進(jìn)行建模。非線性框架的輸入是所有序列的過去滯后值,輸出是單個(gè)序列的未來值。作者還利用群體套索懲罰來進(jìn)一步將輸入的權(quán)重縮小到零。Dang XH, Shah SY, Zerfos P (2018)提出了一種基于深度學(xué)習(xí)的框架,該框架由多個(gè)定制的門控循環(huán)單元(GRU)組成,旨在發(fā)現(xiàn)非線性和時(shí)間序列間的依賴性。Wu T, Breuel T, Skuhersky M, Kautz J引入了一種新穎的最小預(yù)測信息正則化方法來從時(shí)間序列推斷因果關(guān)系,使深度學(xué)習(xí)模型能夠發(fā)現(xiàn)非線性因果關(guān)系。這項(xiàng)工作對因果關(guān)系做出了兩個(gè)假設(shè)。首先是因果充分性假設(shè),該假設(shè)指出每個(gè)時(shí)間序列 x(i ) 只能由 x(1)、x(2)、...x(N) 中的時(shí)間序列引起。第二個(gè)假設(shè)是“均值因果關(guān)系”假設(shè),該假設(shè)指出因果關(guān)系影響其他變量的平均值。他們的模型試圖回答這樣的問題:在不進(jìn)行預(yù)測的情況下,X( j ) t?1 會(huì)被破壞多少?x(i ) t 明顯更差?為此,他們采用輸入并添加具有可學(xué)習(xí)幅度的獨(dú)立噪聲,并通過輸入和損壞輸出之間的互信息來測量損壞程度。上述情況的風(fēng)險(xiǎn)可以由下式給出: 5 模型效果評估本節(jié)概述時(shí)間序列和因果時(shí)間序列文獻(xiàn)中使用的基準(zhǔn)數(shù)據(jù)集和指標(biāo)。5.1 數(shù)據(jù)集本節(jié)簡要介紹時(shí)間序列因果推理文獻(xiàn)中使用的一些數(shù)據(jù)集。5.1.1時(shí)間序列數(shù)據(jù)集l UCR時(shí)間序列分類數(shù)據(jù)集(UCR Time Series Classification Archive):由 120 多個(gè)數(shù)據(jù)集組成。這些數(shù)據(jù)集代表了一個(gè)分類問題。每個(gè)數(shù)據(jù)集中的每個(gè)項(xiàng)目都有一個(gè)類標(biāo)簽。https://www.cs./~eamonn/time_series_data_2018/l Baydogan’s 數(shù)據(jù)集(Baydogan’s Archive) :由來自語音識(shí)別、活動(dòng)識(shí)別和醫(yī)學(xué)等不同應(yīng)用的十多個(gè)不同的多元時(shí)間序列數(shù)據(jù)集組成。l 紐約出租車數(shù)據(jù)(NYC Taxi Dataset):單變量時(shí)間序列數(shù)據(jù)集,包含 2014 年 7 月 1 日至 2015 年 1 月 31 日期間紐約市 (NYC) 出租車需求,并觀察每半小時(shí)記錄的乘客數(shù)量,包含 10320 個(gè)時(shí)間戳。l 真實(shí)雅虎服務(wù)網(wǎng)絡(luò)流量數(shù)據(jù)集(Real Yahoo Services Network Traffic Dataset):單變量時(shí)間序列數(shù)據(jù)集,包含雅虎服務(wù)的流量。這些異?,F(xiàn)象由人類標(biāo)記。該數(shù)據(jù)集由 67 個(gè)不同的時(shí)間序列組成,每個(gè)時(shí)間序列包含約 1400 個(gè)時(shí)間戳。l 合成雅虎服務(wù)網(wǎng)絡(luò)流量數(shù)據(jù)集(Synthetic Yahoo Services Network Traffic Dataset):該數(shù)據(jù)集由 100 個(gè)包含異常的合成單變量時(shí)間序列數(shù)據(jù)組成。每個(gè)時(shí)間序列包含大約 1421 個(gè)時(shí)間戳。這些傳統(tǒng)數(shù)據(jù)集在解決傳統(tǒng)時(shí)間序列問題(例如分類和預(yù)測)時(shí)非常有效,但沒有對照組和實(shí)驗(yàn)組,無法用于因果推斷。5.1.2處置效應(yīng)評估數(shù)據(jù)集本節(jié)介紹用于研究處置效應(yīng)的常用現(xiàn)實(shí)數(shù)據(jù)集。l MIMIC II/III 數(shù)據(jù):該數(shù)據(jù)集包含 ICU 患者的數(shù)據(jù),包括患者的血壓、氧飽和度、用藥以及時(shí)間等各種屬性(Bica et al.)。l 廣告數(shù)據(jù):谷歌的廣告數(shù)據(jù)和搜索數(shù)據(jù)(Brodersen et al.)。l 地理實(shí)驗(yàn)數(shù)據(jù):廣告活動(dòng)數(shù)據(jù),一半樣本采用非重合地理數(shù)據(jù),詳見Kerman J, Wang P, Vaver J (2017)。l 西班牙地區(qū)的經(jīng)濟(jì)數(shù)據(jù):在有關(guān)沖突的經(jīng)濟(jì)成本的案例研究中,使用西班牙地區(qū)的經(jīng)濟(jì)數(shù)據(jù)來分析恐怖主義的影響。作者使用巴斯克人隨時(shí)間推移的人均 GDP 進(jìn)行因果分析,詳見Abadie A, Gardeazabal J (2003)。l 加州控?zé)熡?jì)劃(California’s Tobacco Control Program):利用合成控制方法研究了加州控?zé)熡?jì)劃的影響,作者使用年度國家級面板數(shù)據(jù)。這些數(shù)據(jù)包含 1970 年至 2000 年美國多個(gè)州的人均卷煙銷量,此期間是第 99 號提案通過的時(shí)間。詳見Abadie A, Diamond A, Hainmueller J (2010)。l 空氣質(zhì)量數(shù)據(jù):該數(shù)據(jù)集用于研究汽油含量對空氣質(zhì)量的影響,包括臭氧水平、最低/最高/平均溫度、降水和降雪信息,時(shí)間涵蓋 1989 年至 2006 年。詳見Auffhammer M, Kellogg R (2011)。l 貨幣政策數(shù)據(jù):該數(shù)據(jù)集來自三個(gè)不同的來源。瑞士和歐元的季度 GDP 取自歐盟統(tǒng)計(jì)局。瑞士的月度商業(yè)信心指數(shù)和月度消費(fèi)者價(jià)格指數(shù)取自經(jīng)合組織。月度資產(chǎn)負(fù)債表數(shù)據(jù)、月度活期存款利率和月度平均匯率均取自瑞士國家銀行。作者使用該數(shù)據(jù)集探索歐元-瑞士法郎匯率對數(shù)回報(bào)的月度因果預(yù)測變量,數(shù)據(jù)范圍涵蓋 1999 年至 2017 年。詳見Pfister N, Bühlmann P, Peters J (2019)。5.1.3因果發(fā)現(xiàn)數(shù)據(jù)集本節(jié)介紹用于因果發(fā)現(xiàn)的常用現(xiàn)實(shí)數(shù)據(jù)集。l 美國制造業(yè)增長數(shù)據(jù)(US Manufacturing Growth Data):該數(shù)據(jù)集包含美國制造企業(yè)1973-2004 年就業(yè)、銷售、研發(fā)(R&D) 支出和營業(yè)收入增長率的微觀經(jīng)濟(jì)數(shù)據(jù)。它可用于識(shí)別影響公司增長率的因果變量。詳見Entner D, Hoyer PO (2010)。l 糖尿病數(shù)據(jù)集:該數(shù)據(jù)集由從兩個(gè)來源獲得的糖尿病患者記錄組成:自動(dòng)電子記錄設(shè)備和紙質(zhì)記錄,可用于推導(dǎo)真實(shí)因果圖。詳見Schaechtle U, Stathis K, Bromuri S (2013)。l 溫度臭氧數(shù)據(jù):該數(shù)據(jù)集由兩個(gè)變量、72 個(gè)時(shí)間點(diǎn)、16 個(gè)不同地點(diǎn)組成。兩個(gè)變量是臭氧和輻射,假設(shè)輻射對臭氧有因果影響。詳見GongMet al (2017)、Mooij JM et al (2016)、 Schaechtle U, Stathis K, Bromuri S (2013)。l OHDNOAA 數(shù)據(jù)集:這是美國國家海洋和大氣管理局水文發(fā)展辦公室提供的數(shù)據(jù)集,由美國幾個(gè)方形區(qū)域內(nèi)的 32 個(gè)水文相關(guān)變量組成。數(shù)據(jù)是恒定間隔6小時(shí),范圍從1979年到2008年。詳見Jangyodsuk P, Seo DJ, Gao J (2014)。l 神經(jīng)活動(dòng)數(shù)據(jù)集:該數(shù)據(jù)集由實(shí)時(shí)全腦成像組成,用于記錄秀麗隱桿線蟲的神經(jīng)活動(dòng)。該數(shù)據(jù)集由 302 個(gè)神經(jīng)元組成,通常用于識(shí)別哪些神經(jīng)元負(fù)責(zé)運(yùn)動(dòng)。l 人體動(dòng)作捕捉:該數(shù)據(jù)集來自 CMU MoCap 數(shù)據(jù)庫,包含兩個(gè)受試者的關(guān)節(jié)角度、身體位置的數(shù)據(jù)。該數(shù)據(jù)集包含 2024 個(gè)時(shí)間點(diǎn)的 54 個(gè)關(guān)節(jié)角度。詳見Tank A et al (2018)。l 交通預(yù)測數(shù)據(jù)集:該數(shù)據(jù)集包含來自加利福尼亞州洛杉磯四個(gè)月的傳感器數(shù)據(jù),共有 207 個(gè)傳感器被用于收集這些數(shù)據(jù)。每個(gè)傳感器的位置(以 GPS 坐標(biāo)的形式)也包含在數(shù)據(jù)集中。詳見Pan Z et al (2018)。l 股票指數(shù)數(shù)據(jù)。例如Rothenh?usler D et al (2015)。5.1.4 綜合數(shù)據(jù)集本節(jié)討論一些綜合數(shù)據(jù)集和一些使用綜合模型的論文。表3總結(jié)了綜合模型的特點(diǎn)。 l 混雜/共因模型:因果關(guān)系文獻(xiàn)中的一個(gè)關(guān)注點(diǎn)是混雜因素的存在。文獻(xiàn)中的一些方法提出了數(shù)據(jù)生成過程來模擬它們的存在。例如,Huang等人使用模擬的數(shù)據(jù)集,其中有一個(gè)共同的原因和共同的影響[74]。這些數(shù)據(jù)集包含噪聲變量和隨時(shí)間變化的因果變量。e(t)是變量e在時(shí)間t的值,讓c代表影響e的變量,因此有:l 非線性模型:由于許多建議的框架是為非線性系統(tǒng)設(shè)計(jì)的、 已經(jīng)開發(fā)了幾種方法來模擬非線性系統(tǒng)以進(jìn)行評估。非線性模型的一個(gè)例子是Papana等人[121]所使用的模擬。在他們的工作中,他們模擬了一個(gè)具有線性和非線性關(guān)系的三變量系統(tǒng)。還有其他各種使用數(shù)據(jù)的非線性模型的工作。 l 動(dòng)態(tài)模型:模擬變化過程的模型,即變量的依賴性以非線性和非指數(shù)方式隨時(shí)間變化。變量以非線性和非指數(shù)的方式隨時(shí)間變化。例子可見L?we S et al (2020)。處置效應(yīng)的例子可見Kerman J, Wang P, Vaver J (2017)。l 混沌模型(Chaotic Models):混沌性是模型偏離其超參數(shù)不同值的能力?;煦缧酝ǔS寐鍌惼澞P蛠肀硎?。彼得斯等人。[121]提出了一種針對具有這種特性的非線性數(shù)據(jù)的模擬方法。洛倫茲模型的變體在其他地方用于時(shí)間序列的因果推理。Khanna 等人的工作中使用了 Lorenze-96 模型。[88] 作者提到它是氣候科學(xué)的流行模型。5.2 模型評估指標(biāo)5.2.1 時(shí)間序列指標(biāo)l 編輯帶有實(shí)際懲罰的距離(Edit Distance with Real Penalty)l 歐氏距離(Euclidean Distance)l 動(dòng)態(tài)時(shí)間規(guī)整(DTW):不同于上述方法要求軌跡等長,DTW允許一些點(diǎn)重復(fù)使用,以使得軌跡間有最佳對齊方式。5.2.2 因果時(shí)間序列評估指標(biāo)本節(jié)介紹時(shí)間序列因果發(fā)現(xiàn)模型的常見變量,然后介紹了處置效應(yīng)模型的評估指標(biāo)。這些指標(biāo)的摘要見表4。處置效應(yīng)評估指標(biāo):MSE、F檢驗(yàn)、T檢驗(yàn) 因果發(fā)現(xiàn)指標(biāo)主要是尋找因果關(guān)系,包括:SHD結(jié)構(gòu)漢明距離、真/假陽性率、接受者-操作者曲線下的面積AUROC曲線、均方誤差、F-分?jǐn)?shù)、精確度和召回率、準(zhǔn)確-召回曲線下的面積AUPR、F檢驗(yàn)。其中,F(xiàn)檢驗(yàn)的定義如下:6 總結(jié)和展望論文全面介紹了時(shí)間序列數(shù)據(jù)的因果推理理論,將模型分為四類,即自回歸模型、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)、高斯過程和神經(jīng)網(wǎng)絡(luò),并討論每個(gè)類別的研究現(xiàn)狀。論文還討論了時(shí)間序列上兩個(gè)最重要的因果推理應(yīng)用,即因果處置效果估計(jì)和因果發(fā)現(xiàn),并根據(jù)方法對其分類。論文還介紹數(shù)據(jù)集和評估指標(biāo),可作為該領(lǐng)域未來研究的指南。接下來討論處置效應(yīng)、因果發(fā)現(xiàn)和模型評估的未來展望。6.1 因果處置效應(yīng)評估大多數(shù)方法都基于穩(wěn)定單位處置值假設(shè)(SUTVA),即潛在結(jié)果只受到處理變量的影響。但是在社會(huì)科學(xué)等許多研究領(lǐng)域,朋友、家人和熟人會(huì)影響受試者。因此,研究時(shí)應(yīng)當(dāng)考慮社交網(wǎng)絡(luò)和同伴的影響。此外,現(xiàn)有的模型將處理事件的發(fā)生視為離散事件。然而,一些處理事件,例如透析或靜脈注射利尿劑,是在一段時(shí)間內(nèi)連續(xù)進(jìn)行的。因此,估計(jì)連續(xù)時(shí)間和連續(xù)處置效果是一個(gè)需要探索的方向?;谏疃壬窠?jīng)網(wǎng)絡(luò)的因果發(fā)現(xiàn)方法大多數(shù)依賴格蘭杰因果關(guān)系,還可以考慮珀?duì)栆蚬P(guān)系。未來,利用深度神經(jīng)網(wǎng)絡(luò)從時(shí)間序列數(shù)據(jù)中確定因果結(jié)構(gòu)具有較為廣闊的前景。此外,時(shí)間序列領(lǐng)域的大多數(shù)現(xiàn)有算法僅利用觀測數(shù)據(jù),同時(shí)考慮干預(yù)時(shí)間序列可能會(huì)更加有用。6.2 模型效果評價(jià)和基準(zhǔn)數(shù)據(jù)集模型效果的評估需要穩(wěn)健的數(shù)據(jù)集。在因果發(fā)現(xiàn)中,當(dāng)其中一種模式是時(shí)間時(shí),我們需要數(shù)據(jù)集來評估多模式因果發(fā)現(xiàn)算法。多模式數(shù)據(jù)表示不同類型的數(shù)據(jù),如圖像、文本等。例如,在不同時(shí)間拍攝的場景的衛(wèi)星圖像表示多模式數(shù)據(jù)。當(dāng)涉及到處置效果估計(jì)時(shí),需要適合計(jì)算反事實(shí)結(jié)果和事實(shí)結(jié)果的數(shù)據(jù)集,從而考慮個(gè)體水平的影響,而非只考慮了總體水平。上一節(jié)提到的大多數(shù)數(shù)據(jù)集都是由觀察性研究產(chǎn)生的,在這種情況下不可能同時(shí)獲得事實(shí)和反事實(shí)的數(shù)據(jù)。不過,目前已經(jīng)有論文使用觀察和隨機(jī)對照試驗(yàn)(RCT)相結(jié)合的構(gòu)建數(shù)據(jù)來克服這一困難,例如Jaber A et al(2020), Louizos C et al(2017)。未來的研究將需要更多這樣的數(shù)據(jù)來更好地評估處置效應(yīng)。 關(guān)于時(shí)間序列方法:1.時(shí)間序列分析的各種程序, 38頁集結(jié)整理成文檔,2.ARDL, ARIMA, VAR, (G)ARCH時(shí)間數(shù)據(jù)模型講解及軟件操作,3.R軟件中的時(shí)間序列分析程序包縱覽,4.時(shí)間序列分析的各種程序, 38頁集結(jié)整理成文檔,5.時(shí)間序列數(shù)據(jù)分析的思維導(dǎo)圖一覽, 金融經(jīng)濟(jì)學(xué)者必備工具,6.送書: 應(yīng)用時(shí)間序列分析(經(jīng)典),7.為啥時(shí)間序列模型比較難學(xué)?時(shí)間序列的正名路,8.面板數(shù)據(jù)單位根檢驗(yàn)軟件操作和解讀全在這里,9.動(dòng)態(tài)面板回歸和軟件操作,單位根和協(xié)整檢驗(yàn)(Dynamic Panel Data),10.疫情期計(jì)量課程免費(fèi)開放!面板數(shù)據(jù), 因果推斷, 時(shí)間序列分析與Stata應(yīng)用,11.送書: 應(yīng)用時(shí)間序列分析(經(jīng)典),12.時(shí)間序列模型分解,季節(jié)調(diào)整分析基礎(chǔ),13.動(dòng)態(tài)因子模型是什么, 又怎么去實(shí)現(xiàn)? 14.動(dòng)態(tài)面板分位數(shù)估計(jì)怎么做?15.動(dòng)態(tài)面板門檻回歸程序公布, 使用方法介紹,16.把動(dòng)態(tài)面板命令講清楚了,對Stata的ado詳盡解釋,17.時(shí)間序列分析概覽(今天的重點(diǎn)1),18.全面比較和概述運(yùn)用機(jī)器學(xué)習(xí)模型進(jìn)行時(shí)間序列預(yù)測的方法優(yōu)劣!19.一文讀懂“非平穩(wěn)時(shí)間序列計(jì)量經(jīng)濟(jì)學(xué)分析”, 包括單位根檢驗(yàn), 結(jié)構(gòu)突變檢驗(yàn)等,20.中斷時(shí)間序列分析ITSA是什么? 很流行的政策評估新范式!21.可以在面板回歸分析中使用時(shí)間序列解釋變量或被解釋變量嗎?22.ARIMA時(shí)間序列模型的步驟, 程序和各種檢驗(yàn), 附上代碼并通過示例進(jìn)行解讀!23.使用Stata做時(shí)間序列分析書籍, 包括模型講解以及Stata示例操作,24.時(shí)間序列中的協(xié)整檢驗(yàn)和VECM,以及回歸后的系列估計(jì)操作關(guān)于因果推斷書籍:1.一本最新因果推斷書籍, 包括了機(jī)器學(xué)習(xí)因果推斷方法, 學(xué)習(xí)主流和前沿方法,2.社會(huì)經(jīng)濟(jì)政策的評估計(jì)量經(jīng)濟(jì)學(xué), 提供書籍和數(shù)據(jù)和程序文件,3.諾獎(jiǎng)得主Angrist的因果推斷課程文獻(xiàn)讀物單子再次更新了, 還提供了其他三門課程,4.全面且前沿的因果推斷課程, 提供視頻, 課件, 書籍和經(jīng)典文獻(xiàn),5.從網(wǎng)頁上直接復(fù)制代碼的因果推斷書籍出現(xiàn)了, 學(xué)會(huì)主流方法成效極快,6.推薦書籍"用R軟件做應(yīng)用因果分析", 有需要的學(xué)者可以自行下載!7.哪本因果推斷書籍最好?我們給你整理好了這個(gè)書單!8.“不一樣”的因果推斷書籍, 很多觀點(diǎn)讓我們能恍然大悟, 涵蓋了不少其他書里沒有的因果推斷方法!9.搞懂因果推斷中內(nèi)生性問題解決方法必讀的書籍和文獻(xiàn)已搜集好!10.一位“詩人”教授寫了本因果推斷書籍, 現(xiàn)在可以直接下載PDF參看!11.使用R軟件學(xué)習(xí)計(jì)量經(jīng)濟(jì)學(xué)方法三本書籍推薦,12.機(jī)器學(xué)習(xí)與Econometrics的書籍推薦, 值得擁有的經(jīng)典,13.史上最全的因果識(shí)別經(jīng)典前沿書籍, 僅此一份,14.用R語言做Econometrics的書籍推薦, 值得擁有的經(jīng)典,15.Stata學(xué)習(xí)的書籍和材料大放送, 以火力全開的勢頭,16.USA經(jīng)管商博士最狂熱崇拜的計(jì)量書籍震撼出爐,17.推薦使用Python語言做因果推斷前沿方法的書籍,18.一些比較常見的因果推斷書籍25本匯總, 很多可以直接下載PDF,19.推薦一本專攻處理效應(yīng)分析的書籍, 包括主流政策評估計(jì)量方法下面這些短鏈接文章屬于合集,可以收藏起來閱讀,不然以后都找不到了。
5年,計(jì)量經(jīng)濟(jì)圈近1500篇不重類計(jì)量文章, 可直接在公眾號菜單欄搜索任何計(jì)量相關(guān)問題,
Econometrics Circle 計(jì)量經(jīng)濟(jì)圈組織了一個(gè)計(jì)量社群,有如下特征:熱情互助最多、前沿趨勢最多、社科資料最多、社科數(shù)據(jù)最多、科研牛人最多、海外名校最多。因此,建議積極進(jìn)取和有強(qiáng)烈研習(xí)激情的中青年學(xué)者到社群交流探討,始終堅(jiān)信優(yōu)秀是通過感染優(yōu)秀而互相成就彼此的。
|