轉(zhuǎn)自個(gè)人微信公眾號(hào)【Memo_Cleon】的統(tǒng)計(jì)學(xué)習(xí)筆記:加權(quán)線性回歸(加權(quán)最小二乘法回歸)。 殘差恒定是線性回歸建模的一個(gè)前提條件,《線性回歸中的方差齊性探察》一文曾介紹過(guò)各種線性回歸的方差齊性的檢驗(yàn)方法。如果出現(xiàn)了異方差,數(shù)據(jù)變換、方差穩(wěn)健估計(jì)(使用三明治方差估計(jì)量)、加權(quán)最小二乘法回歸、非參數(shù)回歸都是可以考慮的方法。此次筆記介紹加權(quán)最小二乘法(weighted least square,WLS)回歸。 SPSS中至少有兩個(gè)過(guò)程可以實(shí)現(xiàn)加權(quán)線性回歸,一是直接在線性回歸中直接指明權(quán)重(WLS weight),該方法需要先確定權(quán)重;二是權(quán)重估計(jì)(Weight Estimation),用于獲取最優(yōu)的權(quán)重并以這個(gè)權(quán)重進(jìn)行WLS回歸。一般來(lái)說(shuō),在線性回歸中的WLS權(quán)重以取樣本的頻數(shù)、方差的倒數(shù)多見(jiàn)。頻數(shù)好理解,比如在你想看下血液中某些指標(biāo)間的關(guān)系,如果同一個(gè)受試者的血液接受了不同次數(shù)的檢測(cè),在進(jìn)行回歸時(shí)用的是各個(gè)受試者的平均值,很顯然同一個(gè)患者檢測(cè)次數(shù)越多,其結(jié)果越穩(wěn)定,在進(jìn)行分析時(shí)可以直接將檢測(cè)的次數(shù)作為權(quán)重。方差的倒數(shù)則有多種實(shí)現(xiàn)形式,而且結(jié)果也略有差異:①最直接的方法就是直接計(jì)算。先將某解釋變量分成一定數(shù)量的組,求得每個(gè)組的響應(yīng)變量的方差,擬合方差與該解釋變量分組值的線性關(guān)系獲得回歸方程,然后再將該解釋變量的原始值代入回歸方程求得解釋變量每個(gè)具體值對(duì)應(yīng)的方差估計(jì)值,取其倒數(shù)作為權(quán)重;②先采用普通最小二乘法(Ordinary least-squares,OLS)擬合回歸模型求得殘差,以殘差平方(或殘差絕對(duì)值)對(duì)合適的解釋變量進(jìn)行回歸,獲得回歸方程,再這個(gè)回歸方程獲得擬合值,權(quán)重為擬合值(或擬合值平方)的倒數(shù)。②中方法的邏輯是殘差平方的期望值是方差。與OLS相比,WLS估計(jì)的回歸系數(shù)標(biāo)準(zhǔn)誤更?。ǜ€(wěn)定、變異更小),回歸系數(shù)差別不大,如果差別過(guò)大則需要WLS的殘差再次進(jìn)行權(quán)重回歸(迭代再加權(quán)最小二乘)不斷獲得修正的權(quán)重。SPSS中的權(quán)重估計(jì)(Weight Estimation)則相對(duì)比較簡(jiǎn)單,只需要設(shè)定權(quán)重變量和冪范圍就可以了,軟件會(huì)自動(dòng)計(jì)算冪范圍內(nèi)的各個(gè)權(quán)重,權(quán)重為權(quán)重變量取冪后的倒數(shù)【1/(weight variable)**power】,并使用最佳的權(quán)重進(jìn)行加權(quán)回歸。本次筆記演示權(quán)重估計(jì)的SPSS操作步驟。 示例:272例兒童年齡與白細(xì)胞值得關(guān)系。數(shù)據(jù)來(lái)源:白話統(tǒng)計(jì).電子工業(yè)出版社,2018.這實(shí)際上并不是一個(gè)十分恰當(dāng)?shù)睦樱湔龖B(tài)分布也不滿足要求,在《Box-Cox變換:非正態(tài)數(shù)據(jù)的處理》有過(guò)演示。因此本文不考慮線性、正態(tài)性,只是單純演示方差不齊下采用加權(quán)最小二乘法的SPSS操作步驟。 【2】方差齊性考察:檢驗(yàn)方法有很多,可參見(jiàn)《線性回歸中的方差齊性探察》。Analyze>>Regression>>Linear… Dependent(因變量):選入WC; Independent(自變量):選入age; Plot…:X選入標(biāo)準(zhǔn)化預(yù)測(cè)值(ZPRED),Y選入標(biāo)準(zhǔn)化殘差(ZRESID); Save…:選中殘差部分的[未標(biāo)準(zhǔn)化殘差]。 Graphs>>Chart Builder; Gallery: Scatter/Dot>>Simple Scatter,將age拖入橫坐標(biāo),剛生成的未標(biāo)準(zhǔn)化殘差拖入縱坐標(biāo)。 結(jié)果顯示隨著年齡的增長(zhǎng),殘差呈逐漸減少的趨勢(shì),方差不齊。 【3】權(quán)重估計(jì):Analyze>>Regression>>Weight Estimation… Dependent(響應(yīng)變量):選入WC;Weight Variable(權(quán)重變量):選入age。權(quán)重估計(jì)過(guò)程以此變量取冪后的倒數(shù)對(duì)數(shù)據(jù)進(jìn)行加權(quán)。Power Range (冪范圍):默認(rèn)-2~2,步長(zhǎng)0.5。與權(quán)重變量結(jié)合使用計(jì)算權(quán)重,-6.5≤冪范圍取值≤7.5,冪的值范圍為從低值到高值,增量由指定的步長(zhǎng)值(by)確定,冪范圍中值的總數(shù)不能超過(guò)150。權(quán)重估計(jì)過(guò)程將利用冪范圍的每個(gè)冪值擬合多個(gè)回歸方程,使對(duì)數(shù)似然函數(shù)最大的冪對(duì)應(yīng)的回歸方程為最佳模型。Option…:選中將最優(yōu)權(quán)重另存為新變量。結(jié)果會(huì)首先給出冪總結(jié)表,顯示冪值等于-1.5時(shí),對(duì)數(shù)似然值最大(-739.097),同時(shí)會(huì)給出權(quán)重weight=age^-1.5時(shí)的回歸結(jié)果,數(shù)據(jù)表中會(huì)增加一列名稱(chēng)為[WGT_1]的數(shù)據(jù)表示權(quán)重(Weight for WC from WLS, MOD_2 AGE** 1.5)。但由于我們?cè)O(shè)置的步長(zhǎng)為0.5,最佳冪值在-1.5左右,-2~-1之間,為獲得更為精確的冪值,我們可以將冪范圍和步長(zhǎng)做進(jìn)一步精確: Power range:-2 through -1 by:0.1調(diào)整后結(jié)果同未調(diào)整的結(jié)果,冪值等于-1.5時(shí),對(duì)數(shù)似然值最大。在此冪值計(jì)算的權(quán)重下,進(jìn)行加權(quán)線性回歸結(jié)果。在冪總結(jié)表之后是最佳模型(冪值為-1.5時(shí))的統(tǒng)計(jì)結(jié)果:加權(quán)最小二乘法(WLS)的參數(shù)估計(jì)結(jié)果同普通最小二乘法(OLS)的參數(shù)估計(jì)結(jié)果差別并不是太大,方差不齊對(duì)參數(shù)估計(jì)準(zhǔn)確性影響不大,影響的是參數(shù)估計(jì)值的精確度,也就是說(shuō)WLS估計(jì)的解釋變量回歸系數(shù)標(biāo)準(zhǔn)誤更小(更穩(wěn)定、變異更小)。本例OLS估計(jì)的系數(shù)標(biāo)準(zhǔn)誤0.076,而WLS為0.072。
還有一點(diǎn)需要說(shuō)明,WLS結(jié)果的復(fù)相關(guān)系數(shù)比OLS要大,這是因?yàn)榧词乖赪LS相關(guān)系數(shù)的計(jì)算還是按照OLS法進(jìn)行計(jì)算的,因此加權(quán)后的回歸方程相關(guān)系數(shù)必然小于OLS,也就是說(shuō)此時(shí)不能用相關(guān)系數(shù)來(lái)判斷模型的優(yōu)劣。 權(quán)重估計(jì)中給出了模型的一些基本信息,如果想得到更多的信息,可以運(yùn)行線性回歸,將權(quán)重估計(jì)成的變量WGT_1選入WLS weight框即可,具體操作和結(jié)果解讀可參見(jiàn)《多重線性回歸分析》。Analyze>>Regression>>Linear…
|