“如何分析真實(shí)世界研究”系列(12) 回歸診斷中,多重共線(xiàn)性問(wèn)題的識(shí)別與處理也是重要的內(nèi)容. 多重共線(xiàn)性(Multicollinearity)是指回歸模型中的解釋變量之間由于存在較精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確。完全共線(xiàn)性的情況并不多見(jiàn),一般出現(xiàn)的是在一定程度上的共線(xiàn)性,即近似共線(xiàn)性。 1.多重共線(xiàn)性現(xiàn)象 多重共線(xiàn)性的出現(xiàn),將會(huì)導(dǎo)致以下一些現(xiàn)象: 1)增加或者剔除一個(gè)自變量,或者是改變一個(gè)觀測(cè)值,回歸系數(shù)的估計(jì)值發(fā)生較大變化; 2)一些被認(rèn)為具有統(tǒng)計(jì)學(xué)意義自變量在回歸方程的假設(shè)檢驗(yàn)中未能通過(guò); 3)當(dāng)回歸方程中一些自變量的系數(shù)所帶的正負(fù)號(hào)與理論推斷的結(jié)果相違背; 4)當(dāng)一些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大; 5)線(xiàn)性回歸模型總體檢驗(yàn)具有統(tǒng)計(jì)學(xué)意義,但是沒(méi)有一個(gè)自變量具有統(tǒng)計(jì)學(xué)差異; 6)樣本量不小時(shí),許多自變量單因素回歸具有統(tǒng)計(jì)學(xué)意義,但多因素一個(gè)統(tǒng)計(jì)學(xué)意義也沒(méi)有 2.多重共線(xiàn)性診斷方法 1、相關(guān)性分析,相關(guān)系數(shù)高于0.8,表明存在多重共線(xiàn)性;但相關(guān)系數(shù)低,并不能表示不存在多重共線(xiàn)性。(線(xiàn)性回歸、logistic和COX回歸) 2、容忍度(tolerance)與方差擴(kuò)大因子(VIF)。某個(gè)自變量的容忍度等于1減去該自變量為因變量而其他自變量為預(yù)測(cè)變量時(shí)所得到的線(xiàn)性回歸模型的判定系數(shù)。容忍度越小,多重共線(xiàn)性越嚴(yán)重。通常認(rèn)為容忍度小于0.1時(shí),存在嚴(yán)重的多重共線(xiàn)性。方差擴(kuò)大因子等于容忍度的倒數(shù)。顯然,VIF越大,多重共線(xiàn)性越嚴(yán)重。一般認(rèn)為VIF大于10時(shí),存在嚴(yán)重的多重共線(xiàn)性。(線(xiàn)性回歸) 5.條件數(shù)與特征分析法:在自變量的觀測(cè)值構(gòu)成的設(shè)計(jì)矩陣X中,求出變量相關(guān)系數(shù)R的特征值,如果某個(gè)特征值很?。ㄈ缧∮?/span>0.05 ),或所有特征值的倒數(shù)之和為自變量數(shù)目的5倍以上,表明自變量間存在多重共線(xiàn)性關(guān)系。(線(xiàn)性回歸、logistic和COX回歸) 如何采用SPSS處理多重共線(xiàn)性,可以關(guān)注本公眾號(hào)的視頻 3.多重共線(xiàn)性常規(guī)處理方法; 總結(jié)起來(lái),很多文獻(xiàn)、教材、視頻處理多重共線(xiàn)性方法包括以下若干種方法: 1)增加樣本容量:多重共線(xiàn)性問(wèn)題的實(shí)質(zhì)是樣本信息的不充分而導(dǎo)致模型參數(shù)的不能精確估計(jì),因此追加樣本信息是解決該問(wèn)題的一條有效途徑。 2)如果要在模型中保留所有的自變量,那就應(yīng)該:避免根據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)β進(jìn)行檢驗(yàn);對(duì)因變量y值的推斷限定在自變量樣本值的范圍內(nèi)。 3)刪除一個(gè)或幾個(gè)共線(xiàn)變量:實(shí)際操作中常用逐步法作為自變量篩選方法。 4)嶺回歸法;嶺回歸法是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線(xiàn)性的方法。 5)主成分分析法。 但我認(rèn)為,這些方法都是瞎處理方法,其實(shí)都不嚴(yán)謹(jǐn)! 4.多重共線(xiàn)性正確處理姿勢(shì) 很多人研究和處理多重共線(xiàn)性回歸非常簡(jiǎn)單粗暴,采用的數(shù)據(jù)驅(qū)動(dòng)的多重共線(xiàn)性處理方法,這些方法也就是上文提到的多重共線(xiàn)性常規(guī)處理方法是流行于教材的主要方法。但我認(rèn)為上述的方法都屬于簡(jiǎn)單粗暴的方法。因?yàn)樯鲜龇椒ǘ贾豢紤]到了數(shù)據(jù)的相關(guān)性,而沒(méi)有真正考慮到相關(guān)性背后的原因。所有的方法都是基于統(tǒng)計(jì)學(xué)原理產(chǎn)生,而非針對(duì)流行病學(xué)病因關(guān)系形成的,但是回歸分析必須基于因果關(guān)系開(kāi)展,否則就沒(méi)有存在的意義了。 因此,這些方法都欠缺因果關(guān)系研究的靈魂 沒(méi)有無(wú)緣無(wú)故的愛(ài),也沒(méi)有無(wú)緣無(wú)故的相關(guān)性。處理多重共線(xiàn)性,要從流行病學(xué)病因上介紹,為什么有些變量會(huì)有相關(guān)性?采用主成分降維或者逐步回歸法減少自變量來(lái)強(qiáng)行消除相關(guān)性是否合適? 自變量為什么會(huì)相關(guān)?這是多重共線(xiàn)性必須要考慮的問(wèn)題? 諸位不妨來(lái)看看早期的論文所介紹的相關(guān)的主要形式(真實(shí)世界數(shù)據(jù)分析(3):基于DAG方法進(jìn)行自變量的篩選) 總結(jié)來(lái)說(shuō),自變量相關(guān)主要三種可能: 1)因?yàn)橛行┳兞渴腔祀s因素,是自變量的原因變量 2)因?yàn)橛行┳兞渴侵薪樽兞浚亲宰兞康慕Y(jié)局變量 3)也有可能有些變量自是純粹的相關(guān)關(guān)系 我在之前的論文也說(shuō)過(guò),自變量回歸,混雜因素必須納入模型,而中介變量一定不能納入模型(真實(shí)世界研究(4):簡(jiǎn)單案例分析中介變量的影響)。 因此,如果數(shù)據(jù)采用逐步回歸分析方法,情況就太粗暴。它只考慮模型構(gòu)建的總體評(píng)價(jià)指標(biāo)(R平方,-2Ln,AIC,BIC),它不管自變量誰(shuí)重要、誰(shuí)沒(méi)有價(jià)值,不考慮病因研究中的各個(gè)自變量的角色。它可能混雜因素提早踢出局,或者把中介變量留到最后。無(wú)論哪種方式,都不能得到好的一個(gè)結(jié)果。 如果你看到這里還明白我講的意思,那么就很清楚接下來(lái)怎么做了? 當(dāng)存在多重共線(xiàn)性時(shí),應(yīng)該認(rèn)真分析研究變量與變量的關(guān)系及關(guān)系密切程度,根據(jù)DAG理論,手動(dòng)剔除不重要、或者會(huì)干擾結(jié)果的自變量,再構(gòu)建線(xiàn)性回歸方程,至于是否采取逐步回歸法已經(jīng)不重要了。 也就說(shuō),多重共線(xiàn)性的處理,必須遵從理論驅(qū)動(dòng)的方法,而非數(shù)據(jù)驅(qū)動(dòng)的方法。 5.什么時(shí)候不需要考慮多重共線(xiàn)性問(wèn)題? 1) 多重共線(xiàn)性是普遍存在的,輕微的多重共線(xiàn)性問(wèn)題可不采取措施; 2) 如果模型僅用于預(yù)測(cè),則只要擬合程度好,可不處理多重共線(xiàn)性問(wèn)題,存在多重共線(xiàn)性的模型用于預(yù)測(cè)時(shí),往往不影響預(yù)測(cè)結(jié)。 |
|