第8章 利用SPSS進(jìn)行Logistic回歸分析 現(xiàn)實(shí)中的很多現(xiàn)象可以劃分為兩種可能,或者歸結(jié)為兩種狀態(tài),這兩種狀態(tài)分別用0和1表示。如果我們采用多個(gè)因素對(duì)0-1表示的某種現(xiàn)象進(jìn)行因果關(guān)系解釋,就可能應(yīng)用到logistic回歸。Logistic回歸分為二值logistic回歸和多值logistic回歸兩類。首先用實(shí)例講述二值logistic回歸,然后進(jìn)一步說明多值logistic回歸。在閱讀這部分內(nèi)容之前,最好先看看有關(guān)SPSS軟件操作技術(shù)的教科書。 §8.1 二值logistic回歸 8.1.1 數(shù)據(jù)準(zhǔn)備和選項(xiàng)設(shè)置 我們研究2005年影響中國各地區(qū)城市化水平的經(jīng)濟(jì)地理因素。城市化水平用城鎮(zhèn)人口比重表征,影響因素包括人均GDP、第二產(chǎn)業(yè)產(chǎn)值比重、第三產(chǎn)業(yè)產(chǎn)值比重以及地理位置。地理位置為名義變量,中國各地區(qū)被分別劃分到三大地帶:東部地帶、中部地帶和西部地帶。我們用各地區(qū)的地帶分類代表地理位置。 第一步:整理原始數(shù)據(jù)。這些數(shù)據(jù)不妨錄入Excel中。數(shù)據(jù)整理內(nèi)容包括兩個(gè)方面:一是對(duì)各地區(qū)按照三大地帶的分類結(jié)果賦值,用0、1表示,二是將城鎮(zhèn)人口比重轉(zhuǎn)換邏輯值,變量名稱為“城市化”。以各地區(qū)2005年城鎮(zhèn)人口比重的平均值45.41%為臨界值,凡是城鎮(zhèn)人口比重大于等于45.41%的地區(qū),邏輯值用Yes表示,否則用No表示(圖8-1-1)。 圖8-1-1 原始數(shù)據(jù)(Excel中,局部) 將數(shù)據(jù)拷貝或者導(dǎo)入SPSS的數(shù)據(jù)窗口(Data View)中(圖8-1-2)。 圖8-1-2 中國31個(gè)地區(qū)的數(shù)據(jù)(SPSS中,局部) 第二步:打開“聚類分析”對(duì)話框。 沿著主菜單的“Analyze→Regression→Binary LogisticK”的路徑(圖8-1-3)打開二值Logistic回歸分析選項(xiàng)框(圖8-1-4)。 圖8-1-3 打開二值Logistic回歸分析對(duì)話框的路徑 對(duì)數(shù)據(jù)進(jìn)行多次擬合試驗(yàn),結(jié)果表明,像二產(chǎn)比重、三產(chǎn)比重等對(duì)城市化水平影響不顯 著。至于反映地區(qū)位置的分類變量,不宜一次性的全部引入,至多引入兩個(gè),比方說東部和中部。通過嘗試,發(fā)現(xiàn)引入中部地帶為變量比較合適。因此,為了實(shí)例的典型性,我們采用兩個(gè)變量作為自變量:一是數(shù)值變量人均GDP,二是分類變量中部地帶。 圖8-1-4 Logistic回歸分析選項(xiàng)框 第三步:選項(xiàng)設(shè)置。 首先,在源變量框中選中需要進(jìn)行分析的變量,點(diǎn)擊右邊的箭頭符號(hào),將需要的變量調(diào)入Dependent(因變量)和Covariates(協(xié)變量)列表框中(圖8-1-5)。在本例中,將名義變量“城市化”調(diào)入Dependent(因變量)列表框,將“人均GDP”和“中部”調(diào)入Covariates(協(xié)變量)列表框中。 在Method(方法)一欄有七個(gè)選項(xiàng)。采用第一種方法,即系統(tǒng)默認(rèn)的強(qiáng)迫回歸方法(Enter)。 圖8-1-5 Logistic回歸分析的初步設(shè)置 接下來進(jìn)行如下4項(xiàng)設(shè)置: ⒈ 設(shè)置Categorical(分類)選項(xiàng):定義分類變量(圖8-1-6)。 將中部調(diào)入Categorical Covariates(分類協(xié)變量)列表框,其余選項(xiàng)取默認(rèn)值即可。完成后,點(diǎn)擊Continue繼續(xù)。 圖8-1-6 定義分類變量選項(xiàng) ⒉ 設(shè)置Save(保存)選項(xiàng):決定保存到Data View的計(jì)算結(jié)果(圖8-1-7)。 選中Leverage values、DfBeta(s)、Standardized和Deviance四項(xiàng)。完成后,點(diǎn)擊Continue繼續(xù)。 圖8-1-7 Logistic回歸分析的存儲(chǔ)選項(xiàng) ⒊ 設(shè)置Options:有三個(gè)選項(xiàng)區(qū)(圖8-1-5)。 第一個(gè)是Statistics and Plots(統(tǒng)計(jì)和畫圖)選項(xiàng),包括六種可以兼容的選擇(復(fù)選項(xiàng))。選中Classification plots、Hosmer-Lemeshow goodness-of-fit和CI for exp(B)三個(gè)選項(xiàng)。 第二個(gè)是Display(顯示)選項(xiàng),選擇At last step(最后一步),這樣,輸出結(jié)果將僅僅給出最終結(jié)果,而省略每一步的計(jì)算過程。 由于我們采用強(qiáng)迫回歸,Probability for Stepwise(逐步回歸概率)選項(xiàng)可以不管。 圖8-1-9 樣品處理摘要 2. Dependent Variable Encoding(因變量編碼)。這是很重要的信息,告訴我們對(duì)不同城市化水平地區(qū)的分類編碼結(jié)果(圖8-1-10)。我們開始根據(jù)全國各地區(qū)的平均結(jié)果45.41分為兩類:大于等于45.41的地區(qū)用Yes表示,否則用No表示?,F(xiàn)在,圖8-1-10顯示,Yes用0表示,No用1表示。也就是說,在這次SPSS分析過程中,0代表城市化水平高于平均值的狀態(tài),1代表城市化水平低于平均值的狀態(tài)。記住這個(gè)分類。 圖8-1-10 因變量編碼 3. Categorical Variables Codings(分類變量編碼)。我們的自變量中涉及到代表不同地域類型的名義變量(圖8-1-11)。在我們開始的分類中,屬于中部用1表示,否則用0表示。但是,SPSS改變了這種編碼,原來的0改用1表示,原來的1改用0表示。也就是說,在這次SPSS分析過程中,0代表屬于中部的地區(qū),1代表不屬于中部的地區(qū)。記住這個(gè)分類對(duì)后面開展預(yù)測分析非常重要。 圖8-1-11 分類變量編碼 4. Classification Table(初始分類表)。Logistic建模如同其他很多種建模方式一樣,首先對(duì)模型參數(shù)賦予初始值,然后借助迭代計(jì)算尋找最佳值。以誤差最小為原則,或者以最大似然為原則,促使迭代過程收斂。當(dāng)參數(shù)收斂到穩(wěn)定值之后,就給出了我們需要的比較理想的參數(shù)值。下面是用初始值給出的預(yù)測和分類結(jié)果(圖8-1-12)。這個(gè)結(jié)果主要用于對(duì)比,比較模型參數(shù)收斂前后的效果。 圖8-1-12 初始預(yù)測分類表 5.Variable in the Equation(初始方程中的變量)。從這個(gè)表中可以看到系統(tǒng)對(duì)模型的最初賦值方式(圖8-1-13)。最開始僅僅對(duì)常數(shù)項(xiàng)賦值,結(jié)果為B=0.598(復(fù)制到Excel可以看來,更精確的數(shù)值為0.597837),標(biāo)準(zhǔn)誤差為S.E.=0.375(復(fù)制到Excel可以看來,更精確的數(shù)值為0.375379),于是Wald值為 B??0.597837? Wald=??=??=2.536. SE..0.375379???? 后面的df為自由度,即df=1;Sig.為P值,Sig.=0.111。注意Sig.值越低越好,一般要求小 于0.05。當(dāng)然,對(duì)于Sig.值,我們關(guān)注的是最終模型的顯示結(jié)果。Exp(E)是B還原之后數(shù)值,顯然 22 Exp(B)=eB=e0.597837=1.818. 在Excel里,利用指數(shù)函數(shù)exp很容易對(duì)B值進(jìn)行還原。 圖8-1-13 初始方程中的變量 6. Variable not in the Equation(不在初始方程中的變量)。人均GDP和代表地理位置的中部地帶的系數(shù)初始值設(shè)為0,這相當(dāng)于,在初始模型中不考慮這兩個(gè)變量(圖8-1-14)。表中給出了Score檢驗(yàn)值及其對(duì)應(yīng)的自由度df和P值,即Sig.值。Score檢驗(yàn)是一種初始檢驗(yàn),在建模之初根據(jù)變量之間的結(jié)構(gòu)關(guān)系判斷自變量與因變量之間的密切程度。Score檢驗(yàn)值的計(jì)算公式為 [ Scorej= ∑x(y ii=1 n n i ]2 . i 1?∑(x i=1 因變量為0、1值,根據(jù)圖8-1-10所示的編碼原則,令所有的Yes為0,所有的No為1,容易算出 (1?)=0.645161(1?0.645161)=0.228928. 人均GDP已知,中部的編碼法則已知,于是不難算出 ∑(GDP?GDP) i i=131 31 2 =3595636978.103, ∑(中部 i=131 i 中部)2=6.387097, [ ∑GDP(y i i=1 i )]2=12747397078.835, [ ∑中部(y i i=1 31 i ]2=0.037461. 將上面的結(jié)果代入Score檢驗(yàn)值計(jì)算公式,立即得到 ScoreGDP=15.486,Score中部=0.026. 可以看到,人均GDP的Score檢驗(yàn)值滿足一般的要求,而中部地帶這個(gè)變量的數(shù)值偏低。 圖8-1-14不在初始方程中的變量 7. Omnibus Tests of Model Coefficients(模型系數(shù)的混合檢驗(yàn))。主要是針對(duì)步驟、模塊和模型開展模型系數(shù)的綜合性檢驗(yàn)(圖8-1-15)。表中給出卡方值及其相應(yīng)的自由度、P值即Sig.值。取顯著性水平0.05,考慮到自由度數(shù)目df=2,在Excel中的任意單元格輸入公式“=CHIINV(0.05,2)”,回車,就可以查出卡方臨界值5.991。我們計(jì)算的卡方值31.187,大于臨界值,并且相應(yīng)的Sig.值小于0.05,因此在顯著性水平為0.05的情況下,這些檢驗(yàn)都不成問題。 圖8-1-15 模型系數(shù)的綜合檢驗(yàn) 圖8-1-15 分類數(shù)目統(tǒng)計(jì) 8. Model Summary(模型摘要)。模型摘要中給出最大似然平方的對(duì)數(shù)、Cox-Snell擬合優(yōu)度以及Nagelkerke擬合優(yōu)度值(圖8-1-16a)。 最大似然平方的對(duì)數(shù)值(-2loglikelihood=9.137)用于檢驗(yàn)?zāi)P偷恼w性擬合效果,該值在理論上服從卡方分布,上面給出的卡方臨界值5.991,因此,最大似然對(duì)數(shù)值檢驗(yàn)通過。 a 以人均GDP和中部為自變量的回歸模型摘要 b 以常數(shù)項(xiàng)(數(shù)值為1)為自變量的回歸模型摘要 圖8-1-16 數(shù)據(jù)窗口的輸出結(jié)果 為了便于理解,有必要解釋一下Cox-Snell擬合優(yōu)度以及Nagelkerke擬合優(yōu)度值與最大似然平方對(duì)數(shù)值的關(guān)系。為此,我們需要開展一次特殊的logistic回歸。在圖8-1-5所示的選項(xiàng)中,從協(xié)變量(covariates)列表框中剔除人均GDP和中部兩個(gè)選項(xiàng),選中并引入常數(shù)項(xiàng)——對(duì)應(yīng)于常系數(shù)、所有數(shù)值均為1的變量(參加圖8-1-1)。以常數(shù)項(xiàng)為唯一的自變量,其他選項(xiàng)不變,開展logistic回歸,結(jié)果將會(huì)給出特別的模型摘要(圖8-1-16b),其-2loglikelihood=40.324為未引入任何真正自變量的最大似然對(duì)數(shù)平方值。然后,我們采用下式計(jì)算Cox-Snell擬合優(yōu)度 2RCS =1? 2 L(B)?lnL(0)]ne =1? 1 χ(B)2?χ(0)2]ne. 容易算出 2 RCS =1? 1 9.137?40.324)e31 =0.634. 更精確的數(shù)值為0.634332。至于Nagelkerke擬合優(yōu)度,相當(dāng)于校正后的Cox-Snell擬合優(yōu)度,計(jì)算公式為 2RN = 2RCS2Rmax =1? 2RCS2 lnL(0)en =1? 2RCS1 χ(0)2en . 因此 2RN= 0.6343321? 1 40.324e31 =0.872. 因此,校正后的模型擬合優(yōu)度可以視為0.872。 9. Hosmer and Lemeshow Test(Hosmer和Lemeshow檢驗(yàn))。似然比函數(shù)的自然對(duì)數(shù)值對(duì)樣品數(shù)目很敏感,作為補(bǔ)充和參照,我們需要Hosmer-Lemeshow檢驗(yàn)(圖8-1-17)。該檢驗(yàn)依然以卡方分布為標(biāo)準(zhǔn),但檢驗(yàn)的方向與常規(guī)檢驗(yàn)不同:我們要求其卡方值低于臨界值而不是高于臨界值。取顯著性水平0.05,考慮到自由度數(shù)目df=8,在Excel中的任意單元格輸入函數(shù)“=CHIINV(0.05,8)”,回車,理解得到卡方臨界值15.507。作為Hosmer-Lemeshow檢驗(yàn)的卡方值4.730<15.507,檢驗(yàn)通過。后面的Sig.值0.786大于0.05,據(jù)此也可以判知Hosmer-Lemeshow檢驗(yàn)可以通過。 圖8-1-17 Hosmer-Lemeshow檢驗(yàn) 10. Contingency Table for Hosmer and Lemeshow Test(對(duì)應(yīng)于Hosmer-Lemeshow檢驗(yàn)的列聯(lián)表)。因變量有兩類數(shù)值,即0和1。在正常情況下,我們要求觀測值(observed)與期望值(expected)逐漸趨于接近(圖8-1-18)。我們的計(jì)算結(jié)果表明,相應(yīng)于“城市化=Yes”,期望值逐漸減少到0,與觀測值趨于接近;相應(yīng)于“城市化=No”,期望值逐漸增加到4,與觀測值也趨于接近。這種結(jié)果是比較理想的,否則,模型的Hosmer-Lemeshow檢驗(yàn)就不太理想,從而模型的整體擬合效果不是很好。 圖8-1-18 對(duì)應(yīng)于Hosmer-Lemeshow檢驗(yàn)的列聯(lián)表 11. Classification Table(最終預(yù)測分類表)。經(jīng)過迭代運(yùn)算,模型參數(shù)逐漸收斂到穩(wěn)定值,于是我們得到最終模型參數(shù)。利用最終的logistic模型,可以對(duì)因變量進(jìn)行預(yù)測,預(yù)測結(jié)果分類列入下表(圖8-1-19)??梢钥闯?,觀測值Yes有11個(gè)(Yes=0),相應(yīng)的預(yù)測值全部是Yes=0,預(yù)測正確率為11/11*100%=100%;觀測值No有20個(gè)(No=1),相應(yīng)的預(yù)測值有19個(gè)No=1,一個(gè)Yes=0,也就是說,預(yù)測失敗1例,預(yù)測正確率為19/(1+19)*100% =95%??偟念A(yù)測正確率為 11+1930 預(yù)測正確率=*100%=*100%=96.8%. 11+0+1+1931 全部31個(gè)樣品有30個(gè)預(yù)測正確,一個(gè)預(yù)測失敗,模型效果良好。 p(y)= 得到 1, ?z1+e 1 1+e?(16.364888+6.917073*中部-0.001251*人均GDP). 1=1+0.00000007813e?16.364888*中部+0.001251*人均GDP 有了上面的式子,就可以對(duì)因變量的發(fā)生概率進(jìn)行預(yù)測。 需要再次強(qiáng)調(diào)的是,對(duì)于名義變量中部,我們用1代表“是”,0代表“非”,而SPSS改為0代表“是”,1代表“非”。對(duì)于因變量城市人口比重,我們用Yes代表1(城市化水平高于平均值),用No代表0(城市化水平低于平均值),而SPSS改為相反的表示。明確了SPSS的重新編碼過程及其含義,就可以檢驗(yàn)上述模型的預(yù)測效果。 首先,在Excel中,將因變量中的名義變量轉(zhuǎn)換為0、1數(shù)值。根據(jù)SPSS的編碼原則(圖8-1-10),所有的Yes表示為0,所有的No表示為1。一個(gè)快捷的處理方式是利用if函數(shù)。在與因變量并列的第二個(gè)單元格中,即H2中,輸入函數(shù)“=IF(G2="Yes",0,1)”,回車立即得到0;將鼠標(biāo)指向H2單元格的右下角,待其變成細(xì)小黑十字,雙擊或者下拉,得到全部轉(zhuǎn)換結(jié)果(圖8-1-21)。 p(y)= 圖8-1-21 用于預(yù)測的數(shù)據(jù)的整理與轉(zhuǎn)換結(jié)果(部分) 數(shù)據(jù)整理完成以后,將圖8-1-20所示的表格從SPSS中復(fù)制到Excel中,放在將要開展預(yù)測的單元格旁邊(圖8-1-22)。 圖8-1-22 將SPSS給出的模型參數(shù)估計(jì)值復(fù)制到Excel中(局部) 根據(jù)數(shù)據(jù)分布的位置,在I2單元格中輸入如下公式(圖8-1-23): “=1/(1+EXP(-($K$5+$K$4*(1-C2)+$K$3*E2)))”, 回車,立即得到0。將鼠標(biāo)指向H2單元格的右下角,待其變成細(xì)小填充柄,雙擊或者下拉,得到全部預(yù)測結(jié)果(圖8-1-24);將這些數(shù)值四舍五入,所有的預(yù)測值都變成0或者1。 圖8-1-23 預(yù)測公式的表達(dá)形式 注意上面的計(jì)算公式中有一個(gè)細(xì)節(jié),對(duì)應(yīng)于中部變量的單元格為C2,公式中不是用系數(shù)6.917073(在單元格K4中)直接乘以C2,而是乘以(1-C2)。這樣處理的原因如前所述,SPSS改變了我們的編碼,我們用1表示“是(中部)”,用0表示“非(中部)”。而SPSS將我們的1改編為0,0改編為1(圖8-1-11)。我們用1-C2代替C2,相當(dāng)于將中部變量的0、1互換,使之與SPSS的編碼一致。 圖8-1-24 預(yù)測值的計(jì)算結(jié)果(局部) 圖8-1-25 四舍五入之后的全部預(yù)測結(jié)果 比較H列(城市化)和I列(預(yù)測值)可以看到,觀測值為Yes=0的,預(yù)測值全部是0,這樣的數(shù)值共有11個(gè);觀測值為No=1的,預(yù)測值只有一個(gè)錯(cuò)誤判別為0,其余19個(gè)全部是0,與觀測值一致。預(yù)測分類結(jié)果與圖8-1-19所示的預(yù)測分類結(jié)果完全一樣。 §8.2 多值logistic回歸 §8.3 小結(jié) 轉(zhuǎn)載請(qǐng)保留出處,http://www./doc/b52c62ccda38376baf1fae48.html |
|