文獻(xiàn)來(lái)源:Michael Baumgartner and Mathias Ambühl, “Causal modeling with multi-value and fuzzy-set Coincidence Analysis”. Political Science Research and Methods, 2020(8), pp. 571–579. 主要作者簡(jiǎn)介:Michael Baumgartner,卑爾根大學(xué)哲學(xué)系教授。 自上個(gè)世紀(jì)八十年代以來(lái),組態(tài)比較方法(CCM,configurational comparative methods)逐漸地被應(yīng)用于社會(huì)科學(xué)因果數(shù)據(jù)分析研究。作為回歸分析方法的補(bǔ)充,組態(tài)比較方法研究?jī)蓚€(gè)變量之間的充分與必要關(guān)系,通過(guò)將原因集中的元素放置在各種因果路徑上來(lái)對(duì)因果鏈進(jìn)行排序,以找出使結(jié)果最大可能出現(xiàn)的因果路徑,這是一種基于布爾代數(shù)邏輯的因果模型。 布爾代數(shù)形式的因果模型包含三個(gè)復(fù)雜的維度:串聯(lián)性(conjunctivity),即不同因素的狀態(tài)需要同時(shí)確定(或存在或不存在)才能產(chǎn)生因果效應(yīng);并立性(disjunctivity),即一個(gè)結(jié)果的產(chǎn)生可能存在不同的且相互獨(dú)立的因果路徑;序列性(sequentiality),即因果效應(yīng)會(huì)沿著因果鏈傳遞下去。 最為主流的組態(tài)比較方法就是定性比較分析(QCA, qualitative comparative analysis)。這一模型由Ragin提出,最初是清晰集定性比較分析(csQCA)的形式,這一模型僅限于對(duì)二值變量進(jìn)行建模。后來(lái)進(jìn)一步發(fā)展出多值QCA(mvQCA)和模糊集QCA(fsQCA)。作者認(rèn)為,既有的QCA方法都關(guān)注于聯(lián)合性和分離性,考察只包括一個(gè)內(nèi)生變量和多個(gè)外生變量的模型,卻忽略了體現(xiàn)第三個(gè)性質(zhì)的因果鏈模型。 Baumgartner(2009)基于這一考慮開(kāi)發(fā)出了一致分析(CNA,coincidence analysis)方法,此模型和QCA都是基于布爾代數(shù)邏輯,但是不同點(diǎn)在于,CNA可以分析存在多個(gè)結(jié)果的因果結(jié)構(gòu),可視作為上圖模型量身定制的方法。但是到目前為止,CNA方法僅有清晰集,因此作者將這一方法進(jìn)行拓展,開(kāi)發(fā)出適用于多值變量的mvCNA和連續(xù)變量的fsCNA。同時(shí),到目前為止的CNA方法都采取一種自上而下的路徑,即識(shí)別出完整的充要條件,再對(duì)變量進(jìn)行刪減。而作者使用一種自下而上的路徑,逐漸地納入那些充要條件,且刪減冗余條件。 CNA的理論背景 CNA方法基于因果規(guī)律理論(regularity theories)來(lái)探索因果路徑?,F(xiàn)代規(guī)律理論期望在固定的因果背景下制造布爾差異來(lái)定義因果。更確切地說(shuō),在某個(gè)背景條件下,當(dāng)外生變量發(fā)生變化時(shí),內(nèi)生變量同時(shí)產(chǎn)生變化,則二者在此條件下存在因果關(guān)系,否則因果關(guān)系不存在。上述討論中,變量可以是連續(xù)變量,可以是二值變量,也可以是多值類(lèi)別變量。 以下是基于模糊集邏輯的表示法: X*Y表示取X和Y中的最小可能值 X+Y表示取X和Y中的最大可能值 ?X表示取值1-X X→Y表示X的可能值小于或等于Y的可能值,也即X為Y的充分條件 XY表示X和Y等價(jià) 布爾因果模型以最小化理論(minimal theory)為基礎(chǔ)。布爾相關(guān)不具有因果關(guān)系,而只有那些從最小化理論中導(dǎo)出的布爾相關(guān)才具有因果屬性。以下面為例 上式表示,A和b的串聯(lián)是C的充分條件,a和B的串聯(lián)也是C的充分條件,二者可以相互替代(A和a是二值變量的一對(duì)取值,B和b同理)。C和f的串聯(lián)以及D都是E的充分條件。兩邊的變量存在直接因果關(guān)系,而+兩邊代表了不同且相互可替代的因果路徑。最后,A*b和a*B對(duì)E存在間接效應(yīng),C為中介變量。這就是對(duì)上述因果模型的詮釋。 布爾因果模型需要強(qiáng)調(diào)兩點(diǎn):其一,一般的布爾模型只能論證因果相關(guān)性,而不能說(shuō)明因果關(guān)系不存在。即上式中,假設(shè)存在G變量,即使式子中不存在G,但不能說(shuō)明G和C或E沒(méi)有因果關(guān)系;其二,布爾模型要根據(jù)既有的數(shù)據(jù)集來(lái)進(jìn)行解釋?zhuān)荒苷f(shuō)明數(shù)據(jù)中的變量以及其結(jié)構(gòu),并不能揭示所有的潛在因果結(jié)構(gòu)。推而廣之,如果由兩個(gè)不同的數(shù)據(jù)集衍生而出的兩個(gè)布爾模型存在子集關(guān)系,那么這兩個(gè)模型之間則不存在分歧。 組態(tài)比較方法分析m*k形式的矩陣數(shù)據(jù),m為觀測(cè)值數(shù),k為變量數(shù)。QCA方法一般將矩陣分為兩個(gè)部分,分別包括內(nèi)生變量和外生變量,而CNA方法不需如此。CNA方法首先進(jìn)行因果排序(causal ordering),排除不可能的外生變量,將不可排序的值都視作潛在內(nèi)生變量,據(jù)此探索數(shù)據(jù)中的因果結(jié)構(gòu)。 如果某些內(nèi)生變量沒(méi)有測(cè)量而導(dǎo)致噪音,那么嚴(yán)格的充分或必要條件關(guān)系往往不存在。 故Ragin為QCA提出了一致性(consistency)與覆蓋性(coverage)測(cè)量方法,該方法也適用于CNA的分析。一致性(取值0-1,下同)反映了結(jié)果的表現(xiàn)與模型或其中的充分或必要關(guān)系的符合程度;覆蓋性反映了模型或其中的充分或必要關(guān)系的解釋力。因此,如果con=1且cov=1無(wú)法滿足,那么CNA分析者應(yīng)當(dāng)選擇較小的閾值,但是降低時(shí)應(yīng)當(dāng)謹(jǐn)慎,避免過(guò)低的閾值造成錯(cuò)誤的因果推斷。在QCA中,往往設(shè)定0.75作為最低的限度,滿足這一條件的外生變量組合成為最小項(xiàng)(minterms)。但是CNA往往設(shè)定更高的閾值,原因有二:其一,CCM方法的充分條件并不是最小項(xiàng);其二,模型覆蓋率低意味著解釋力小,包含的變量不足,故模型可能忽略那些與內(nèi)生變量和外生變量都相關(guān)的因素或者是混雜因素,由此造成模型的可信度較低。 廣義CNA算法 有兩種策略可以建立最小化理論模型:自上而下和自下而上。前者首先納入所有充分條件以滿足一致性閾值,在此前提下再刪除冗余條件,然后并立那些充分條件以滿足覆蓋性閾值,最后進(jìn)一步刪除冗余條件。而后者一步步納入條件,檢測(cè)每次納入條件后模型是否滿足一致性閾值,如果沒(méi)有,則繼續(xù)納入新的充分條件,直到滿足以后,在通過(guò)并立的方式使模型滿足覆蓋性閾值。QCA方法和csCNA方法都采用了自上而下的方式,但作者開(kāi)發(fā)的廣義CNA方法使用自下而上的方式來(lái)構(gòu)建模型。 盡管看起來(lái)兩種方法似乎殊途同歸,但是對(duì)于某些數(shù)據(jù)集來(lái)說(shuō),兩種方法卻可能導(dǎo)致不一樣的結(jié)果。自上而下的方式有時(shí)候并不能刪除所有冗余變量,這是由于該方式假定一致性閾值在刪除變量過(guò)程中是單調(diào)遞減的,而事實(shí)并非完全滿足。例如考慮圖中刪減過(guò)程,ABC三個(gè)變量同時(shí)發(fā)生是D的充分條件,一致性為0.75,當(dāng)刪除C后,一致性變成了0.73,再刪除B后,一致性恢復(fù)0.75。如果按照自上而下的方式,BC兩變量無(wú)法刪除,但是按照自下而上的方式,既可以保證達(dá)到一致性閾值,也可以減少冗余變量的存在。 廣義CNA算法需要三個(gè)硬性條件:1、數(shù)據(jù)集;2、一致性閾值和覆蓋性閾值;3、原子化因果模型最大復(fù)雜性的上限。廣義CNA算法不需要像QCA一樣將數(shù)據(jù)變成真值表形式,而是可以直接進(jìn)行操作。CNA的數(shù)據(jù)處理分為四步: 第一步,在因果排序的基礎(chǔ)上建立潛在結(jié)果向量O與原因矩陣C; 第二步,對(duì)于每一個(gè)可能結(jié)果,建立最小化充分條件(MSC, minially sufficient conditions)集合并使其滿足一致性閾值; 第三步,對(duì)于每一個(gè)可能結(jié)果,在MSC集合的基礎(chǔ)上建立原子解公式(ASF, atomic solution formulas)集合并使其滿足覆蓋性閾值。 第四步,構(gòu)建一個(gè)復(fù)雜解公式(CSF,complex solution formulas)集合,這一集合和每個(gè)非空ASF集的交集如果有且僅有一個(gè)元素,那么該元素就是基于這一數(shù)據(jù)的潛在結(jié)果構(gòu)造的模型。 模型評(píng)估與比較 作者采用逆研究法(inverse searches)來(lái)進(jìn)行模型評(píng)估。R中cna包可以用來(lái)執(zhí)行CNA算法,QCApro包可以對(duì)QCA方法進(jìn)行很好的評(píng)估。這一過(guò)程包括如下步驟: 1. 使用randomDGS從變量集中產(chǎn)生一個(gè)數(shù)據(jù)結(jié)構(gòu); 2. 使用allCombs從變量集中產(chǎn)生包含所有可能邏輯結(jié)構(gòu)的空間集; 3. 使用makefuzzy將空間集變成模糊集(可選操作); 4. 使用selectCases從空間集中選擇案例組成案例集,并使其滿足一致性閾值和覆蓋性閾值; 5. 使用some或sample進(jìn)行隨機(jī)抽樣將數(shù)據(jù)碎片化(可選操作); 6. 刪除相關(guān)變量(可選操作); 7. 使用cna或eQMC來(lái)分析處理過(guò)的案例集 8. 檢查結(jié)果是否輸出正確 作者做了48組檢驗(yàn),每組檢驗(yàn)中隨機(jī)產(chǎn)生30-50份數(shù)據(jù),其中16份清晰集,16份模糊集,16份多值集。這些數(shù)據(jù)包括如下缺陷:超定(O)、欠定(U)、數(shù)據(jù)碎片化(F)和對(duì)一致性與覆蓋性的非完美解(I)。數(shù)據(jù)中包含3-4個(gè)外生變量和1個(gè)內(nèi)生變量。 上圖是CNA和QCA方法在不同類(lèi)型數(shù)據(jù)集中,擁有不同數(shù)據(jù)缺陷條件下的正確率。由圖可知,隨著數(shù)據(jù)缺陷增加,兩種方法的正確率整體呈降低趨勢(shì),但是相比而言CNA方法表現(xiàn)要比QCA方法更好。這是由于CNA方法強(qiáng)調(diào)一致性和覆蓋性閾值,因此在不滿足的情況下拒絕做出因果推斷,而QCA方法則沒(méi)有采用這種策略,因此會(huì)做出錯(cuò)誤的推斷。 為了進(jìn)一步做出評(píng)估,上圖反映了兩種方法在不同數(shù)據(jù)集中的完整性比率,即完整揭示數(shù)據(jù)結(jié)構(gòu)的試驗(yàn)數(shù)和整個(gè)試驗(yàn)數(shù)的比值。從上圖可以看出,當(dāng)數(shù)據(jù)存在缺陷時(shí),兩種方法的表現(xiàn)整體上都不佳,盡管CNA方法有時(shí)表現(xiàn)得比QCA方法更好。 結(jié)論 通過(guò)數(shù)據(jù)分析與模型比較,作者認(rèn)為CNA方法不僅僅能夠產(chǎn)生多結(jié)果模型,而且相比于QCA方法具有更好的擬合度和正確率。對(duì)一致性和覆蓋性閾值的強(qiáng)調(diào)以及自下而上方法的使用保證了CNA方法在實(shí)際操作過(guò)程中能夠有效地避免因果推斷的謬誤。因此,廣義CNA方法能夠很好地處理清晰集,模糊集和多值集數(shù)據(jù)。作為量身定制的組態(tài)比較方法,CNA也為布爾類(lèi)型數(shù)據(jù)集的處理提供了一個(gè)QCA的替代方案 編譯:劉天祥 審校:陸屹洲 編輯:郭靜遠(yuǎn) 【政文觀止Poliview】系頭條號(hào)簽約作者 你在看政觀么 |
|
來(lái)自: 政文觀止 > 《待分類(lèi)》