【原】方法論衡 | Baumgartner等：廣義一致分析：QCA的替代方案

政文觀止 2021-01-27

展開(kāi)全文

文獻(xiàn)來(lái)源：Michael Baumgartner and Mathias Ambühl, “Causal modeling with multi-value and fuzzy-set Coincidence Analysis”. Political Science Research and Methods, 2020(8), pp. 571–579.

主要作者簡(jiǎn)介：Michael Baumgartner，卑爾根大學(xué)哲學(xué)系教授。

自上個(gè)世紀(jì)八十年代以來(lái)，組態(tài)比較方法(CCM，configurational comparative methods)逐漸地被應(yīng)用于社會(huì)科學(xué)因果數(shù)據(jù)分析研究。作為回歸分析方法的補(bǔ)充，組態(tài)比較方法研究?jī)蓚€(gè)變量之間的充分與必要關(guān)系，通過(guò)將原因集中的元素放置在各種因果路徑上來(lái)對(duì)因果鏈進(jìn)行排序，以找出使結(jié)果最大可能出現(xiàn)的因果路徑，這是一種基于布爾代數(shù)邏輯的因果模型。

布爾代數(shù)形式的因果模型包含三個(gè)復(fù)雜的維度：串聯(lián)性(conjunctivity)，即不同因素的狀態(tài)需要同時(shí)確定（或存在或不存在）才能產(chǎn)生因果效應(yīng)；并立性(disjunctivity)，即一個(gè)結(jié)果的產(chǎn)生可能存在不同的且相互獨(dú)立的因果路徑；序列性(sequentiality),即因果效應(yīng)會(huì)沿著因果鏈傳遞下去。

圖1 序列性的表現(xiàn)

最為主流的組態(tài)比較方法就是定性比較分析(QCA, qualitative comparative analysis)。這一模型由Ragin提出，最初是清晰集定性比較分析(csQCA)的形式，這一模型僅限于對(duì)二值變量進(jìn)行建模。后來(lái)進(jìn)一步發(fā)展出多值QCA(mvQCA)和模糊集QCA(fsQCA)。作者認(rèn)為，既有的QCA方法都關(guān)注于聯(lián)合性和分離性，考察只包括一個(gè)內(nèi)生變量和多個(gè)外生變量的模型，卻忽略了體現(xiàn)第三個(gè)性質(zhì)的因果鏈模型。

Baumgartner(2009)基于這一考慮開(kāi)發(fā)出了一致分析(CNA，coincidence analysis)方法，此模型和QCA都是基于布爾代數(shù)邏輯，但是不同點(diǎn)在于，CNA可以分析存在多個(gè)結(jié)果的因果結(jié)構(gòu)，可視作為上圖模型量身定制的方法。但是到目前為止，CNA方法僅有清晰集，因此作者將這一方法進(jìn)行拓展，開(kāi)發(fā)出適用于多值變量的mvCNA和連續(xù)變量的fsCNA。同時(shí)，到目前為止的CNA方法都采取一種自上而下的路徑，即識(shí)別出完整的充要條件，再對(duì)變量進(jìn)行刪減。而作者使用一種自下而上的路徑，逐漸地納入那些充要條件，且刪減冗余條件。

CNA的理論背景

CNA方法基于因果規(guī)律理論(regularity theories)來(lái)探索因果路徑?，F(xiàn)代規(guī)律理論期望在固定的因果背景下制造布爾差異來(lái)定義因果。更確切地說(shuō)，在某個(gè)背景條件下，當(dāng)外生變量發(fā)生變化時(shí)，內(nèi)生變量同時(shí)產(chǎn)生變化，則二者在此條件下存在因果關(guān)系，否則因果關(guān)系不存在。上述討論中，變量可以是連續(xù)變量，可以是二值變量，也可以是多值類(lèi)別變量。

以下是基于模糊集邏輯的表示法：

X*Y表示取X和Y中的最小可能值

X+Y表示取X和Y中的最大可能值

?X表示取值1-X

X→Y表示X的可能值小于或等于Y的可能值，也即X為Y的充分條件

XY表示X和Y等價(jià)

布爾因果模型以最小化理論(minimal theory)為基礎(chǔ)。布爾相關(guān)不具有因果關(guān)系，而只有那些從最小化理論中導(dǎo)出的布爾相關(guān)才具有因果屬性。以下面為例

上式表示，A和b的串聯(lián)是C的充分條件，a和B的串聯(lián)也是C的充分條件，二者可以相互替代（A和a是二值變量的一對(duì)取值，B和b同理）。C和f的串聯(lián)以及D都是E的充分條件。兩邊的變量存在直接因果關(guān)系，而+兩邊代表了不同且相互可替代的因果路徑。最后，A*b和a*B對(duì)E存在間接效應(yīng)，C為中介變量。這就是對(duì)上述因果模型的詮釋。

布爾因果模型需要強(qiáng)調(diào)兩點(diǎn)：其一，一般的布爾模型只能論證因果相關(guān)性，而不能說(shuō)明因果關(guān)系不存在。即上式中，假設(shè)存在G變量，即使式子中不存在G，但不能說(shuō)明G和C或E沒(méi)有因果關(guān)系；其二，布爾模型要根據(jù)既有的數(shù)據(jù)集來(lái)進(jìn)行解釋?zhuān)荒苷f(shuō)明數(shù)據(jù)中的變量以及其結(jié)構(gòu)，并不能揭示所有的潛在因果結(jié)構(gòu)。推而廣之，如果由兩個(gè)不同的數(shù)據(jù)集衍生而出的兩個(gè)布爾模型存在子集關(guān)系，那么這兩個(gè)模型之間則不存在分歧。

組態(tài)比較方法分析m*k形式的矩陣數(shù)據(jù)，m為觀測(cè)值數(shù)，k為變量數(shù)。QCA方法一般將矩陣分為兩個(gè)部分，分別包括內(nèi)生變量和外生變量，而CNA方法不需如此。CNA方法首先進(jìn)行因果排序(causal ordering)，排除不可能的外生變量，將不可排序的值都視作潛在內(nèi)生變量，據(jù)此探索數(shù)據(jù)中的因果結(jié)構(gòu)。

如果某些內(nèi)生變量沒(méi)有測(cè)量而導(dǎo)致噪音，那么嚴(yán)格的充分或必要條件關(guān)系往往不存在。

故Ragin為QCA提出了一致性(consistency)與覆蓋性(coverage)測(cè)量方法，該方法也適用于CNA的分析。一致性（取值0-1，下同）反映了結(jié)果的表現(xiàn)與模型或其中的充分或必要關(guān)系的符合程度；覆蓋性反映了模型或其中的充分或必要關(guān)系的解釋力。因此，如果con=1且cov=1無(wú)法滿足，那么CNA分析者應(yīng)當(dāng)選擇較小的閾值，但是降低時(shí)應(yīng)當(dāng)謹(jǐn)慎，避免過(guò)低的閾值造成錯(cuò)誤的因果推斷。在QCA中，往往設(shè)定0.75作為最低的限度，滿足這一條件的外生變量組合成為最小項(xiàng)(minterms)。但是CNA往往設(shè)定更高的閾值，原因有二：其一，CCM方法的充分條件并不是最小項(xiàng)；其二，模型覆蓋率低意味著解釋力小，包含的變量不足，故模型可能忽略那些與內(nèi)生變量和外生變量都相關(guān)的因素或者是混雜因素，由此造成模型的可信度較低。

廣義CNA算法

有兩種策略可以建立最小化理論模型：自上而下和自下而上。前者首先納入所有充分條件以滿足一致性閾值，在此前提下再刪除冗余條件，然后并立那些充分條件以滿足覆蓋性閾值，最后進(jìn)一步刪除冗余條件。而后者一步步納入條件，檢測(cè)每次納入條件后模型是否滿足一致性閾值，如果沒(méi)有，則繼續(xù)納入新的充分條件，直到滿足以后，在通過(guò)并立的方式使模型滿足覆蓋性閾值。QCA方法和csCNA方法都采用了自上而下的方式，但作者開(kāi)發(fā)的廣義CNA方法使用自下而上的方式來(lái)構(gòu)建模型。

盡管看起來(lái)兩種方法似乎殊途同歸，但是對(duì)于某些數(shù)據(jù)集來(lái)說(shuō)，兩種方法卻可能導(dǎo)致不一樣的結(jié)果。自上而下的方式有時(shí)候并不能刪除所有冗余變量，這是由于該方式假定一致性閾值在刪除變量過(guò)程中是單調(diào)遞減的，而事實(shí)并非完全滿足。例如考慮圖中刪減過(guò)程，ABC三個(gè)變量同時(shí)發(fā)生是D的充分條件，一致性為0.75，當(dāng)刪除C后，一致性變成了0.73，再刪除B后，一致性恢復(fù)0.75。如果按照自上而下的方式，BC兩變量無(wú)法刪除，但是按照自下而上的方式，既可以保證達(dá)到一致性閾值，也可以減少冗余變量的存在。

廣義CNA算法需要三個(gè)硬性條件：1、數(shù)據(jù)集；2、一致性閾值和覆蓋性閾值；3、原子化因果模型最大復(fù)雜性的上限。廣義CNA算法不需要像QCA一樣將數(shù)據(jù)變成真值表形式，而是可以直接進(jìn)行操作。CNA的數(shù)據(jù)處理分為四步：

第一步，在因果排序的基礎(chǔ)上建立潛在結(jié)果向量O與原因矩陣C；

第二步，對(duì)于每一個(gè)可能結(jié)果，建立最小化充分條件(MSC, minially sufficient conditions)集合并使其滿足一致性閾值；

第三步，對(duì)于每一個(gè)可能結(jié)果，在MSC集合的基礎(chǔ)上建立原子解公式（ASF， atomic solution formulas）集合并使其滿足覆蓋性閾值。

第四步，構(gòu)建一個(gè)復(fù)雜解公式（CSF，complex solution formulas）集合，這一集合和每個(gè)非空ASF集的交集如果有且僅有一個(gè)元素，那么該元素就是基于這一數(shù)據(jù)的潛在結(jié)果構(gòu)造的模型。

模型評(píng)估與比較

作者采用逆研究法(inverse searches)來(lái)進(jìn)行模型評(píng)估。R中cna包可以用來(lái)執(zhí)行CNA算法，QCApro包可以對(duì)QCA方法進(jìn)行很好的評(píng)估。這一過(guò)程包括如下步驟：

1. 使用randomDGS從變量集中產(chǎn)生一個(gè)數(shù)據(jù)結(jié)構(gòu)；

2. 使用allCombs從變量集中產(chǎn)生包含所有可能邏輯結(jié)構(gòu)的空間集；

3. 使用makefuzzy將空間集變成模糊集（可選操作）；

4. 使用selectCases從空間集中選擇案例組成案例集，并使其滿足一致性閾值和覆蓋性閾值；

5. 使用some或sample進(jìn)行隨機(jī)抽樣將數(shù)據(jù)碎片化（可選操作）；

6. 刪除相關(guān)變量（可選操作）；

7. 使用cna或eQMC來(lái)分析處理過(guò)的案例集

8. 檢查結(jié)果是否輸出正確

作者做了48組檢驗(yàn)，每組檢驗(yàn)中隨機(jī)產(chǎn)生30-50份數(shù)據(jù)，其中16份清晰集，16份模糊集，16份多值集。這些數(shù)據(jù)包括如下缺陷：超定（O）、欠定（U）、數(shù)據(jù)碎片化（F）和對(duì)一致性與覆蓋性的非完美解（I）。數(shù)據(jù)中包含3-4個(gè)外生變量和1個(gè)內(nèi)生變量。

上圖是CNA和QCA方法在不同類(lèi)型數(shù)據(jù)集中，擁有不同數(shù)據(jù)缺陷條件下的正確率。由圖可知，隨著數(shù)據(jù)缺陷增加，兩種方法的正確率整體呈降低趨勢(shì)，但是相比而言CNA方法表現(xiàn)要比QCA方法更好。這是由于CNA方法強(qiáng)調(diào)一致性和覆蓋性閾值，因此在不滿足的情況下拒絕做出因果推斷，而QCA方法則沒(méi)有采用這種策略，因此會(huì)做出錯(cuò)誤的推斷。

為了進(jìn)一步做出評(píng)估，上圖反映了兩種方法在不同數(shù)據(jù)集中的完整性比率，即完整揭示數(shù)據(jù)結(jié)構(gòu)的試驗(yàn)數(shù)和整個(gè)試驗(yàn)數(shù)的比值。從上圖可以看出，當(dāng)數(shù)據(jù)存在缺陷時(shí)，兩種方法的表現(xiàn)整體上都不佳，盡管CNA方法有時(shí)表現(xiàn)得比QCA方法更好。

結(jié)論

通過(guò)數(shù)據(jù)分析與模型比較，作者認(rèn)為CNA方法不僅僅能夠產(chǎn)生多結(jié)果模型，而且相比于QCA方法具有更好的擬合度和正確率。對(duì)一致性和覆蓋性閾值的強(qiáng)調(diào)以及自下而上方法的使用保證了CNA方法在實(shí)際操作過(guò)程中能夠有效地避免因果推斷的謬誤。因此，廣義CNA方法能夠很好地處理清晰集，模糊集和多值集數(shù)據(jù)。作為量身定制的組態(tài)比較方法，CNA也為布爾類(lèi)型數(shù)據(jù)集的處理提供了一個(gè)QCA的替代方案

編譯：劉天祥審校：陸屹洲編輯：郭靜遠(yuǎn)

【政文觀止Poliview】系頭條號(hào)簽約作者

你在看政觀么