導(dǎo)語2021年10月11日,Joshua D. Angrist和Guido W. Imbens因“對因果關(guān)系分析的方法學(xué)貢獻(xiàn)”而獲得2021年諾貝爾經(jīng)濟(jì)學(xué)獎。Angrist和Imbens最為知名的工作是其在20世紀(jì)90年代將工具變量引入了潛在結(jié)果框架,該框架也被稱為Rubin因果模型。本次因果科學(xué)第三季讀書會第一期邀請到了該框架的提出者,統(tǒng)計(jì)學(xué)家Donald B. Rubin教授來為我們介紹潛在結(jié)果框架,歡迎點(diǎn)擊文末了解詳情。 Donald B. Rubin教授,美國國家科學(xué)院院士,美國科學(xué)與藝術(shù)學(xué)院院士,曾任哈佛大學(xué)統(tǒng)計(jì)系John L. Loeb講席教授,現(xiàn)任清華大學(xué)丘成桐數(shù)學(xué)科學(xué)中心教授。他獲得過統(tǒng)計(jì)學(xué)領(lǐng)域幾乎所有著名獎項(xiàng),包括著名的 Wilks獎?wù)?、Parzen獎、Snedecor獎等,是當(dāng)今世界最具影響力的統(tǒng)計(jì)學(xué)泰斗。他對科學(xué)的貢獻(xiàn)已超出統(tǒng)計(jì)學(xué)范疇,其統(tǒng)計(jì)思想對生物醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、教育學(xué)、社會學(xué)及計(jì)算機(jī)科學(xué)等眾多領(lǐng)域產(chǎn)生了劃時(shí)代的影響,谷歌學(xué)術(shù)顯示其文章和著作引用量已超過35萬次。 一、20世紀(jì)70年代:潛在結(jié)果的提出盡管從最初級的統(tǒng)計(jì)課開始,我們就被反復(fù)教導(dǎo)“相關(guān)不意味著因果”,但在日常生活中,我們還是經(jīng)常使用“因果”的語言來描述我們的經(jīng)歷。例如:“我今天感冒好了是因?yàn)槲页粤税⒛髁帧?,“他考試沒及格是因?yàn)閺膩聿蛔鲎鳂I(yè)”,或者“美國的新冠病例數(shù)出現(xiàn)反彈是因?yàn)槌霈F(xiàn)了德爾塔變異株”。但是同時(shí),我們似乎也能區(qū)分相關(guān)性與因果性,比如沒有人會主張“太陽升起是因?yàn)殡u打鳴了”。 在日常生活中,我們依賴自己的經(jīng)驗(yàn)以及常識來判斷因果或相關(guān)關(guān)系。但是在科學(xué)研究中,人們面對的往往是未知的事物,經(jīng)驗(yàn)或者常識變得不再可靠。長期以來,科學(xué)家們依賴隨機(jī)對照實(shí)驗(yàn)來研究因果關(guān)系。譬如如果要研究某種藥物對治療疾病的影響,需要將病人隨機(jī)地分為兩組,分別給予藥物及安慰劑,并依此比較兩組間的結(jié)局差異。然而,在現(xiàn)實(shí)中,隨機(jī)對照實(shí)驗(yàn)并不總是可行的。例如,如果我們要研究吸煙與肺癌之間的關(guān)系,我們不可能將人群隨機(jī)分為兩組,一組讓其吸煙、一組讓其不吸,因?yàn)檫@不符合倫理。同樣,我們想研究接受大學(xué)教育對一個(gè)人收入的影響,也不能隨機(jī)地讓受試者上大學(xué)或不上大學(xué)?;陔S機(jī)對照實(shí)驗(yàn)所定義的因果關(guān)系在現(xiàn)實(shí)中有很大的局限性。我們需要一種形式化的因果的定義,使其可以盡可能廣泛地用于各種研究類型中,現(xiàn)如今在統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、流行病學(xué)以及其他自然及社會科學(xué)中被廣泛使用的潛在結(jié)果(potential outcome)框架,就是這樣的一種形式化的定義。 潛在結(jié)果最初的提出是在Neyman的論文[1]中,但是這篇文章只在隨機(jī)對照試驗(yàn)中使用了潛在結(jié)果的概念,且直到1990年翻譯成英文后才為人所知。Rubin在他1974年的論文中也提出了潛在結(jié)果的概念,并將這個(gè)概念推廣到了觀察性數(shù)據(jù)中[2],真正開啟了統(tǒng)計(jì)學(xué)界對因果推斷的廣泛研究。因此潛在結(jié)果框架有時(shí)也被稱為Rubin因果模型[3]。 何為潛在結(jié)果?又如何基于潛在結(jié)果定義因果?假設(shè)我們關(guān)心某個(gè)變量A(例如,在某個(gè)時(shí)間點(diǎn)是否服用阿莫西林,A=1是服用,A=0是沒有服用)對Y(服用后三小時(shí)的是否還感冒,Y=1表示感冒,Y=0表示沒有感冒)的因果關(guān)系。那么我們觀察到的某個(gè)個(gè)體就存在兩個(gè)“潛在”的狀態(tài):一個(gè)是如果他服藥,他三小時(shí)后是否感冒,不妨記作Y(1);另一個(gè)如果他沒有服藥,他三小時(shí)后是否感冒,不妨記作Y(0)。這里Y(1)和Y(0)就是潛在結(jié)果。(注意,在實(shí)際中,Y(1)和Y(0)這二者中只有一個(gè)可以被觀察到。另外,嚴(yán)格地說,此處實(shí)際上做了“個(gè)體處理值穩(wěn)定”即SUTVA的假設(shè))那么對這個(gè)人,就可能有以下四種情況: a) Y(0)=0, Y(1)=0。即不論吃不吃藥,這個(gè)人在三小時(shí)后均不會感冒。 b) Y(0)=1, Y(1)=1。即不論吃不吃藥,這個(gè)人在三小時(shí)后均會感冒。 c) Y(0)=1, Y(1)=0。即此人如果不吃藥,三小時(shí)后會感冒,但是如果吃藥,三小時(shí)后不會感冒。 d) Y(0)=0, Y(1)=1。即此人如果不吃藥,三小時(shí)后不會感冒,但是如果吃藥,三小時(shí)后會感冒。 在a和b兩種情況下,Y(1)=Y(0),即吃不吃藥不會影響三小時(shí)后是否感冒的狀態(tài),這種情況下我們說吃藥對三小時(shí)后是否感冒沒有因果作用,相反,在c和d兩種情況下,Y(1)≠Y(0),這種情況下我們說吃藥對三小時(shí)后是否感冒有因果作用。使用潛在結(jié)果,我們便可以方便地定義感興趣的因果作用,例如平均因果效應(yīng)E[Y(1)-Y(0)],這個(gè)量代表了在一個(gè)群體中,如果每一個(gè)人都采取某種處理和都不接受處理相比,這兩種情況下平均意義上的結(jié)果差值。 使用潛在結(jié)果我們或許可以理解為什么人們不會認(rèn)為“太陽升起是因?yàn)殡u打鳴”了,因?yàn)楦鶕?jù)我們的常識,如果某天雞不打鳴(或許是因?yàn)樯』騽诶郏?/span>,太陽仍然會照常升起。 二、20世紀(jì)80年代:傾向性評分的提出Rubin的另一重大的貢獻(xiàn)則是和Rosenbaum一起提出了傾向性評分的概念 [4]。他們的這篇文章是著名統(tǒng)計(jì)學(xué)期刊Biometrika引用量最高的文章之一。 隨機(jī)試驗(yàn)之所以被認(rèn)為是因果推斷的金標(biāo)準(zhǔn),很大程度上是因?yàn)槠涮幚硎请S機(jī)分配的,而不是由受試者自己選擇的。處理是隨機(jī)分配的假設(shè)可以形式化地表達(dá)為A⊥{Y(0),Y(1)}。在這條假設(shè)下,我們可以說明,基于觀察數(shù)據(jù)得到的相關(guān)關(guān)系實(shí)際就反映了因果關(guān)系: E[Y(1)-Y(0)] = E[Y(1)|A=1]-E[Y(0)|A=0] = E[Y|A=1]-E[Y|A=0] 其中,第二個(gè)等號成立是因?yàn)椤耙恢滦浴?,即在某種處理方案下觀察到的結(jié)果就等于這種處理方案對應(yīng)的潛在結(jié)果。 但是在現(xiàn)實(shí)中,處理是隨機(jī)分配的假設(shè)往往不成立。例如在分層隨機(jī)化實(shí)驗(yàn)中,我們先依據(jù)性別進(jìn)行分組,進(jìn)而在每個(gè)組內(nèi)進(jìn)行隨機(jī)化實(shí)驗(yàn),此時(shí),條件在性別這個(gè)變量上(記作X)后,處理的分配是隨機(jī)的,這個(gè)條件我們可以寫成如下形式(即可忽略性):A⊥{Y(0),Y(1)}|X。很多觀察性研究可以近似地看成是某種分層隨機(jī)試驗(yàn),盡管處理的分配不是隨機(jī)的,但是當(dāng)個(gè)體的某些特征都相同時(shí)(如性別、年齡、收入等),處理的分配可以看成是隨機(jī)的。 針對這種觀察性研究,Rubin最初的想法是“匹配”,即將協(xié)變量X相同的個(gè)體放在一起比較,算出處理組和對照組之間的差異。但是這種方法的問題是,當(dāng)X的維度很高時(shí),基于原始協(xié)變量的匹配就越來越不現(xiàn)實(shí)。Rosenbaum和Rubin提出的傾向性評分,相當(dāng)于對原始的協(xié)變量進(jìn)行降維。傾向性評分 (propensity score,記作e(X)) 的定義是:e(X)=P(A=1|X)。它實(shí)際描述的是處理的分配機(jī)制。在Rosenbaum和Rubin的文章中,他們證明了A⊥{Y(0),Y(1)}|e(X),于是可以基于傾向性評分進(jìn)行匹配。當(dāng)然,在現(xiàn)實(shí)中,傾向性評分往往是未知的,需要進(jìn)行估計(jì)?;趦A向性評分的因果效應(yīng)的估計(jì)方法也有很多,除了匹配的估計(jì),還有逆概率加權(quán)的估計(jì),回歸的估計(jì)等。本屆諾獎得主Imbens在傾向性評分方法方面也做出了許多工作,如提出廣義傾向評分等。 三、20世紀(jì)90年代:工具變量引入潛在結(jié)果框架Rubin對因果推斷的另一貢獻(xiàn)便是將工具變量引入了潛在結(jié)果的框架。為了確定因果效應(yīng),我們通常需要假設(shè)上述的可忽略性成立,這在觀察性研究中很難滿足,即存在某些觀察不到的混雜變量,同時(shí)影響處理分配和結(jié)局。在有未觀測混雜的情況下識別和估計(jì)因果作用一直是一個(gè)巨大的挑戰(zhàn)。這個(gè)問題長期以來一直受經(jīng)濟(jì)學(xué)家的關(guān)注,他們長期以來在線性結(jié)構(gòu)方程模型的框架下使用工具變量來處理“遺漏變量偏誤”的問題,但是線性結(jié)構(gòu)方程模型隱含了較強(qiáng)的同質(zhì)性因果效應(yīng)的假設(shè)。Angrist、Imbens、Rubin在1996年的《美國統(tǒng)計(jì)學(xué)會學(xué)刊(JASA)》上發(fā)表的文章首次將工具變量引入了因果推斷的框架。這也是首次在潛在結(jié)果的框架中,提出工具變量的三條關(guān)鍵假設(shè)(排他性、相關(guān)性、獨(dú)立性)。他們的文章還提出了依從者平均因果效應(yīng)的概念,這個(gè)概念也為主分層概念的提出埋下了伏筆。 在Angrist、Imbens、Rubin的文章里,他們使用了一個(gè)非常巧妙的例子。這篇文章里他們分析了參軍(veteran status in the Vietnam era,記作A)對健康結(jié)局(記作Y)的因果作用。在現(xiàn)實(shí)中,一個(gè)人是否參軍往往受多種因素影響,一般很難窮盡所有影響參軍和健康結(jié)局的共同因素。但是在這個(gè)研究中,有一個(gè)很巧妙的工具變量的設(shè)計(jì),因?yàn)楫?dāng)時(shí)入伍的優(yōu)先權(quán)是通過隨機(jī)分配的通過抽簽決定的(記作Z)。理論上說,抽中數(shù)字較小(Z=1)的人應(yīng)該服役(A=1),抽中數(shù)字大(Z=0)的人不應(yīng)該服役(A=1),但是在現(xiàn)實(shí)中,也會有不依從的現(xiàn)象出現(xiàn)。這里,Z就是一個(gè)較好的工具變量:首先,一個(gè)人抽中的數(shù)字的大小不會對健康有直接影響,只會通過影響服役(A)來影響健康,這滿足排他性假設(shè);其次,抽中數(shù)字的大小與潛在結(jié)果是無關(guān)的(因?yàn)槌楹炇请S機(jī)分配的),這滿足獨(dú)立性假設(shè);最后抽中數(shù)字小的人——盡管存在不依從的現(xiàn)象——參加兵役的可能性會更高,即相關(guān)性的假設(shè)成立。 但遺憾的是,即使上述三個(gè)條件均成立,工具變量依然不足以識別我們通常感興趣的因果參數(shù)(如平均因果效應(yīng))。注意到人群中存在四種人,我們一一列出如下(此處A寫成Z的潛在結(jié)果): a) A(0)=0, A(1)=0。即無論抽簽大小,均不服兵役。 b) A(0)=1, A(1)=1。即無論抽簽大小,均服兵役。 c) A(1)=1, A(0)=0。即如果抽簽抽中,(即抽簽的數(shù)字小,Z=1)就去服兵役,反之不服兵役。 d) A(0)=1, A(1)=0。即如果抽簽沒抽中,(即抽簽的數(shù)字小,Z=1)就去服兵役,反之不服兵役。 在Angrist、Imbens、Rubin的文章里,他們假設(shè)第四種人是不存在的,即“單調(diào)性”假設(shè),也就是說,人群中沒有這種看似非常奇怪的人,他們?nèi)绻麤]被抽中就回去服兵役,但是被抽中的就不去服兵役。在這個(gè)例子中,單調(diào)性似乎是一個(gè)很有道理的假設(shè)。 在以上的假設(shè)下,Angrist、Imbens、Rubin提出了依從者(即第c類人)的平均因果效應(yīng)是可以識別的,而且就等于如下的Wald估計(jì)量: E[Y(1)-Y(0)|A(1)=1,A(0)=0] = {E[Y|Z=1]-E[Y|Z=0]}/{E[A|Z=1]-E[A|Z=0]} 這個(gè)量被稱作局部平均因果作用(LATE),也被稱作依從者平均因果作用(CACE)。 同一般的在計(jì)量中被廣泛使用的“工具變量回歸”,Angrist、Imbens、Rubin的方法幾乎沒有任何的模型假設(shè)。此后,對于處理未觀測混雜的方法以及工具變量方法的研究變成了因果推斷中的一個(gè)重要領(lǐng)域。 四、新千年:主分層概念的提出前面提到,在從在非依從現(xiàn)象時(shí),我們能夠識別的只是依從者——也就是人群中的某一“層”——的平均因果作用。Frangakis和Rubin把這一觀察總結(jié)為主分層(principal stratification)的概念[6],即按照某種處理后的潛在結(jié)果對總體進(jìn)行分層,而真正關(guān)心的因果作用被局限在某一個(gè)主層內(nèi)。 考慮一項(xiàng)激勵試驗(yàn),醫(yī)生隨機(jī)地鼓勵或不鼓勵患者打疫苗。實(shí)際上,患者即使被鼓勵打疫苗了,他也有可能不打疫苗,而沒有被鼓勵的患者也可能自己去打疫苗了。用Z表示醫(yī)生是否鼓勵患者打疫苗(Z=1表示鼓勵,Z=0表示不鼓勵),用A表示患者實(shí)際上是否打了疫苗(A=1表示打疫苗了,A=0表示沒有打疫苗),用Y表示患者是否得了流感(Y=1表示得流感,Y=0表示沒有得流感)。注意到A可以表示為Z的潛在結(jié)果,記為A(z);Y可以表示為Z和A的潛在結(jié)果,記為Y(z,a)。我們可以根據(jù)A(z)把人群分為四層: a) A(0)=0, A(1)=0。即無論醫(yī)生是否鼓勵打疫苗,患者都不會打疫苗,稱這些人為拒不服藥者。 b) A(0)=1, A(1)=1。即無論醫(yī)生是否鼓勵打疫苗,患者都會打疫苗,稱這些人為永遠(yuǎn)服藥者。 c) A(1)=1, A(0)=0。即患者會按照醫(yī)生的建議打疫苗,稱這些人為依從者。 d) A(0)=1, A(1)=0。即患者會做出與醫(yī)生建議相反的決策,稱這些人為抵抗者。 假設(shè)排他性成立,即Y(0,a)=Y(1,a),一個(gè)人是否會得流感只依賴于他有沒有打疫苗,與醫(yī)生是否鼓勵他并不直接相關(guān)。稍加觀察我們就會發(fā)現(xiàn),第a組人和第b組人對于估計(jì)打疫苗的真正作用是沒有幫助的,因?yàn)樗麄兊昧鞲械臐撛诮Y(jié)果都相等,要么都是Y(0),要么都是Y(1)。只有第c組人和第d組人對于估計(jì)打疫苗的真正因故作用有幫助,因?yàn)閷τ谶@兩組人來說,每一組內(nèi)同時(shí)存在打疫苗的人和不打疫苗的人。 醫(yī)學(xué)上常用意向治療策略來描述激勵試驗(yàn),用E[Y|Z=1]-E[Y|Z=0]來描述鼓勵患者打疫苗帶來的作用。然而,這個(gè)量并沒有因果解釋,它并不能反映打疫苗的因果作用。利用主分層的框架,我們就能清楚地看到,只有在依從者或抵抗者這兩個(gè)人群上才能定義因果作用。如果再假設(shè)單調(diào)性,認(rèn)為抵抗者不存在,那么感興趣的因果量就只能在依從者中定義了,這個(gè)量也就是前面提到的依從者平均因果作用了。 當(dāng)然,主分層也能處理非依從以外的問題。假設(shè)我們想要知道某種治療方案對于患者生活質(zhì)量的改善情況,記Z為治療方案(Z=1為積極治療,Z=0為保守治療),記Y為治療兩年后生活質(zhì)量是否改善(Y=1為改善,Y=0為未改善),Y是Z的潛在結(jié)果,記為Y(z)。實(shí)際研究常遇到的一個(gè)問題是,患者可能再兩年內(nèi)死掉,導(dǎo)致收集不到結(jié)局變量。試想一下,如果一個(gè)人沒有活著,那談?wù)撍纳钯|(zhì)量還有意義嗎?所以,只有對存活個(gè)體,才能定義結(jié)局變量,這一問題被叫作死亡截?cái)鄦栴}。用S表示個(gè)體的存活狀態(tài)(S=1表示存活,S=0表示死亡),S其實(shí)是Z的潛在結(jié)果,記為S(z)。按照S(z)可以把人群分為四層: a) S(0)=0, S(1)=0。即無論采取何種治療方案,患者都會死亡。 b) S(0)=1, S(1)=1。即無論采取何種治療方案,患者都會存活。 c) S(1)=1, S(0)=0。即如果接受積極治療會存活,如果接受保守治療會死亡。 d) S(0)=1, S(1)=0。即如果接受積極治療會死亡,如果接受保守治療會存活。 對于第a、c、d這三組人群,至少有一個(gè)潛在結(jié)果Y(z)是無定義的,所以在這三層中我們無法給出良定義的因果參數(shù)。只有第b組人群的兩個(gè)潛在結(jié)果Y(z)都有定義,我們可以在這一層內(nèi)定義幸存者平均因果作用,即E[Y(1)-Y(0)|S(0)=1,S(1)=1]。 僅僅通過觀察數(shù)據(jù)無法判斷出一個(gè)個(gè)體屬于哪個(gè)主層,所以需要為所定義的因果量找到合理的解釋才有實(shí)際意義。值得一提的是,死亡截?cái)嗟膯栴}在其他領(lǐng)域中也會遇到。比如要研究給學(xué)生獎學(xué)金能否會提高學(xué)生成績,學(xué)生成績只有在其不輟學(xué)時(shí)才能定義;要研究疫苗對于病毒載量的影響,病毒載量只有當(dāng)一個(gè)人感染了才能定義。 五、隨機(jī)化真的是金標(biāo)準(zhǔn)嗎?——再隨機(jī)化長期以來,隨機(jī)化一直被當(dāng)成是評估因果作用的金標(biāo)準(zhǔn)。在隨機(jī)化試驗(yàn)中,每個(gè)個(gè)體被隨機(jī)分配到各個(gè)處理組,因此理論上各個(gè)處理組下的協(xié)變量X的分布相似。使用各個(gè)處理組下的觀察到的結(jié)局均值差異能對平均因果作用進(jìn)行無偏估計(jì)。然而,隨機(jī)實(shí)驗(yàn)的這些性質(zhì)只對大量重復(fù)實(shí)驗(yàn)平均而言成立,在實(shí)際只做一次實(shí)驗(yàn)的情形下,不同處理組下的協(xié)變量的分布可能有顯著差異,均值差異估計(jì)量可能離因果作用的真實(shí)值很遠(yuǎn)。舉一個(gè)簡單的例子,假設(shè)在某次隨機(jī)化臨床試驗(yàn)中,隨機(jī)分配一些個(gè)體接受治療或?qū)φ?,但治療組中恰巧大部分都是身體虛弱的個(gè)體,而對照組中恰巧大部分都是身體健壯的個(gè)體,這樣,兩組的觀測結(jié)局均值受到患者身體狀況這一不容忽視的混雜因素的影響。 如果協(xié)變量的個(gè)數(shù)很多,單個(gè)或多個(gè)協(xié)變量不平衡的現(xiàn)象就越有可能發(fā)生。即使增大樣本量,單次試驗(yàn)的因果作用估計(jì)偏差問題也得不到解決。這是因?yàn)?,雖然隨著樣本量n的增大,協(xié)變量以根號n的速度趨于平衡,但平均因果作用的估計(jì)量也以根號n的速度收斂,這導(dǎo)致協(xié)變量不平衡造成的偏差與因果作用的量級仍然處于同一尺度。 當(dāng)面臨不合適的隨機(jī)分配時(shí),F(xiàn)isher曾建議進(jìn)行再隨機(jī)化。Morgan和Rubin首次對再隨機(jī)化進(jìn)行了正規(guī)的數(shù)學(xué)描述[11],其基本思路是:預(yù)先指定某種衡量協(xié)變量在不同處理組之間分布是否平衡的準(zhǔn)則,不采納那些協(xié)變量不平衡的隨機(jī)分配,而是一直進(jìn)行隨機(jī)化,直到獲得協(xié)變量平衡的隨機(jī)分配為止。Morgan和Rubin建議使用處理組和對照組協(xié)變量均值的平方馬氏距離作為準(zhǔn)則,只接受平方馬氏距離小于某個(gè)閾值的隨機(jī)分配。他們還指出,通過再隨機(jī)化,可以實(shí)現(xiàn)平均因果作用估計(jì)的方差下降。 再隨機(jī)化實(shí)驗(yàn)的統(tǒng)計(jì)推斷比完全隨機(jī)化實(shí)驗(yàn)的統(tǒng)計(jì)推斷更加復(fù)雜。有一個(gè)處理組和一個(gè)對照組并使用平方馬氏距離準(zhǔn)則進(jìn)行再隨機(jī)化的情形下,Morgan和Rubin建議使用Fisher隨機(jī)化檢驗(yàn)進(jìn)行統(tǒng)計(jì)推斷。由于限制了處理組和對照組之間的協(xié)變量分布,所以處理組和對照組的平均結(jié)局差異并不再服從正態(tài)分布,而是服從一個(gè)正態(tài)分布和另一個(gè)截?cái)嗾龖B(tài)分布的線性組合。近些年來,再隨機(jī)化受到了越來越多的關(guān)注,例如協(xié)變量存在不同重要梯度時(shí)的再隨機(jī)化、序貫實(shí)驗(yàn)中的再隨機(jī)化。
|
|