掌握多元logistic回歸分析，看這篇就夠了

金陵帶博士7997 2020-03-28

展開全文

01. 概念

多元 logistics 回歸(multinomial logistics regression)又稱多分類 logistics 回歸。醫(yī)學研究、社會科學領域中，存在因變量是多項的情況，其中又分為無序（口味：苦、甜、酸、辣；科目：數(shù)學、自然、語文、英語）和有序（辣度：微辣、中辣、重辣）兩類。對于這類數(shù)據(jù)需要用多元 logistics 回歸。

多元 logistics 回歸實際就是多個二元 logistics 回歸模型描述各類與參考分類相比各因素的作用。如，對于一個三分類的因變量（口味：酸、甜、辣），可建立兩個二元logistics回歸模型，分別描述酸味與甜味相比及辣味與酸味相比，各口味的作用。但在估計這些模型參數(shù)時，所有對象是一起估計的，其他參數(shù)的意義及模型的篩選等與二元logistics類似。

02.條件

因變量：三個及以上分類變量
自變量：分類或連續(xù)變量
協(xié)變量：分類變量

03.案例及操作

【例】為了研究飲食口味偏好的影響因素，分析年齡、婚姻情況、生活態(tài)度在飲食口味類型偏好（1=酸、2=甜、3=辣）中的作用，共挑選被試30人，結(jié)果見下表，試進行多元logistics回歸。

說明：本案例數(shù)據(jù)純屬編造，結(jié)論不具有參考性和科學性，僅供操作訓練使用。

⑴ 建立數(shù)據(jù)文件口味偏好,sav，見下圖

每個被試有一個口味偏好因變量taste和3個自變量age、married、inactive。

⑵對口味偏好 taste 加權

單擊【數(shù)據(jù)】→【加權個案】，打開加權個案對話框，加權口味偏好，見下圖

(3)選擇【分析】→【回歸】→【多項logistics】，打開多項 logistics回歸主對話框，見圖。

? 【因變量】：分類變量，本例選擇“taste”
? 【因子】：可選擇多個變量作為因子，本例選擇“age”、 “married”、“inactive”
? 【協(xié)變量】：可選擇多個變量作為協(xié)變量，本例未選擇

(4)單擊【參考類別】按鈕，打開參考類別對話框，見圖

? 【參考類別】：可選擇【第一類別】、【最后類別】或【定制】，本例選擇【最后類別】
? 【類別順序】：可選擇【升序】或【降序】

(5)單擊【模型】按鈕，打開模型對話框，見下圖：

本例主要考察自變量age、married、inactive的主效應，暫不考察它們之間的交互作用，然后點擊【繼續(xù)】；

(6)單擊【statistics】按鈕，打開統(tǒng)計對話框，見圖：

設置模型的統(tǒng)計量。主要【偽R方】【模型擬合信息】【分類表】【擬合優(yōu)度】這幾項必選，其他可以默認不勾選。這些參數(shù)主要用于說明建模的質(zhì)量。

(7)單擊【條件】按鈕，打開收斂性準則對話框，見下圖，默認選項，

(8) 單擊【選項】按鈕，打開選項對話框，默認選項，見下圖，

(9)單擊【保存】按鈕，打開保存對話框，勾選【估算響應概率】，估算每個個案三類口味偏好的概率。

(10)單擊【確定】按鈕，得到以下主要結(jié)果。

04.結(jié)果解釋

結(jié)果 1 【個案處理摘要表】

列出因變量和自變量的分類水平及對應的個案百分比。建議在此表主要讀取變量分類水平的順序，比如自變量“年齡段”，第一個分類是“0~20 歲”，第二個分類是“21~25”，第三個分類是“26~30”，尤其是看清楚最后一個分類，因為前面參數(shù)設置時要求是以最后一個分類最為對比參照組的。

結(jié)果 2 【模型擬合信息表】

讀取最后一列，顯著性值小于 0.05，說明模型有統(tǒng)計意義，模型通過檢驗。

結(jié)果 3 【擬合優(yōu)度表】

原假設模型不能很好地擬合原始數(shù)據(jù)，最后一列皮爾遜卡方顯著性值 0.343，概率較小，原假設不成立，說明模型對原始數(shù)據(jù)的擬合沒有通過檢驗。

結(jié)果 4【偽 R 方表】

依次列出的 3 個偽 R 方值（類似于決定系數(shù)）均偏低，最高 0.836，說明模型對原始變量變異的解釋程度較好，只有一小部分信息無法解釋，擬合程度比較優(yōu)秀。

結(jié)果 5【模型似然比檢驗表】

最終進入模型的效應包括截距、年齡、婚姻狀況、生活態(tài)度，而且最后一列顯著性值表明，只有生活態(tài)度對模型構(gòu)成有顯著貢獻。

結(jié)果 6【參數(shù)估計表】

列出自變量不同分類水平對口味偏好的影響檢驗，是多項 logistic 回歸非常重要的結(jié)果。第二列 B 值，即各自變量不同分類水平在模型中的系數(shù)，正負符號表明它們與早餐選擇是正比還是反比關系。第六列是瓦爾德檢驗顯著性值，此值小于 0.05 說明對應自變量的系數(shù)具有統(tǒng)計意義，對因變量不同分類水平的變化有顯著影響。比如，酸和辣相比，21~25歲的年輕人更偏向于選擇在酸，這種可能性是 26~30 歲以上人的 3.8 倍；甜和辣相比，結(jié)婚與否對口味偏好沒有差別。

05.多項 logistic 回歸模型

經(jīng)過對該口味偏好調(diào)查數(shù)據(jù)進行多項 logistic 回歸分析，由參數(shù)估計表，我們可以得到模型如下：

G1=LOG[P(酸)/P(辣)]=17.915-56.406age1 1.348age2 19.333married0-19.801inactive0

G2=LOG[P(甜)/P(辣)]=18.609-19.954age1-0.039age2-0.446married0-.022inactive0

G3=0 （對照組）

根據(jù)這個模型，我們首先計算某個受訪者 G1、G2、G3 的值，然后帶入如下公式，最終可得到三個早餐相應的概率。

P1=exp(G1)/[exp(G1) exp(G2) exp(G3)]
P2=exp(G2)/[exp(G1) exp(G2) exp(G3)]
P3=exp(G3)/[exp(G1) exp(G2) exp(G3)]

原始數(shù)據(jù)最右側(cè)新增3個變量，依次為EST1_1、EST2_1、EST3_1，分別對應因變量“口味偏好”的三個分類水平（酸、甜、辣）的響應概率。比如第一個個案，他選擇酸的概率為0.67，在三種選擇中數(shù)值最大，因此，模型會判定他選擇酸，這和原始記錄的真值一致，說明模型判斷準確。

結(jié)果 7【分類】

模型在預測辣味偏好傾向上準確率最高，達到100%，其他兩個口味偏好的預測略低，模型總體預測準確率為83.9%，表現(xiàn)比較好。前面?zhèn)?R 方數(shù)據(jù)顯示，模型對總體變異的解釋能力尚可，這和總體預測準確率結(jié)論也一致。

以上就是本節(jié)的全部內(nèi)容，請大家多多練習~