01. 概念 多元 logistics 回歸(multinomial logistics regression)又稱多分類 logistics 回歸。醫(yī)學研究、社會科學領域中, 存在因變量是多項的情況, 其中又分為無序(口味:苦、 甜、 酸、 辣;科目:數(shù)學、 自然、 語文、 英語) 和有序(辣度:微辣、 中辣、 重辣) 兩類。對于這類數(shù)據(jù)需要用多元 logistics 回歸。 多元 logistics 回歸實際就是多個二元 logistics 回歸模型描述各類與參考分類相比各因素的作用。如, 對于一個三分類的因變量(口味:酸、甜、辣),可建立兩個二元logistics回歸模型,分別描述酸味與甜味相比及辣味與酸味相比,各口味的作用。但在估計這些模型參數(shù)時,所有對象是一起估計的,其他參數(shù)的意義及模型的篩選等與二元logistics類似。 02.條件 因變量:三個及以上分類變量 03.案例及操作 【例】為了研究飲食口味偏好的影響因素,分析年齡、婚姻情況、生活態(tài)度在飲食口味類型偏好(1=酸、2=甜、3=辣) 中的作用,共挑選被試30人,結(jié)果見下表,試進行多元logistics回歸。
⑴ 建立數(shù)據(jù)文件口味偏好,sav, 見下圖 每個被試有一個口味偏好因變量taste和3個自變量age、married、inactive。 ⑵對口味偏好 taste 加權 單擊【數(shù)據(jù)】→【加權個案】,打開加權個案對話框, 加權口味偏好,見下圖 (3)選擇【分析】→【回歸】→【多項logistics】,打開多項 logistics回歸主對話框,見圖。 ? 【因變量】:分類變量,本例選擇“taste” (4)單擊【參考類別】按鈕,打開參考類別對話框,見圖 ? 【參考類別】:可選擇【第一類別】、【最后類別】或【定制】,本例選擇【最后類別】 (5)單擊【模型】按鈕,打開模型對話框,見下圖: 本例主要考察自變量age、married、inactive的主效應, 暫不考察它們之間的交互作用,然后點擊【繼續(xù)】; (6)單擊【statistics】按鈕,打開統(tǒng)計對話框,見圖: 設置模型的統(tǒng)計量。主要【偽R方】【模型擬合信息】【分類表】【擬合優(yōu)度】這幾項必選,其他可以默認不勾選。這些參數(shù)主要用于說明建模的質(zhì)量。 (7)單擊【條件】按鈕,打開收斂性準則對話框,見下圖,默認選項, (8) 單擊【選項】 按鈕, 打開選項對話框, 默認選項, 見下圖, (9)單擊【保存】按鈕,打開保存對話框,勾選【估算響應概率】,估算每個個案三類口味偏好的概率。 (10)單擊【確定】 按鈕, 得到以下主要結(jié)果。 04.結(jié)果解釋 結(jié)果 1 【個案處理摘要表】 列出因變量和自變量的分類水平及對應的個案百分比。建議在此表主要讀取變量分類水平的順序,比如自變量“年齡段”,第一個分類是“0~20 歲”,第二個分類是“21~25”,第三個分類是“26~30”,尤其是看清楚最后一個分類,因為前面參數(shù)設置時要求是以最后一個分類最為對比參照組的。 結(jié)果 2 【模型擬合信息表】 讀取最后一列,顯著性值小于 0.05,說明模型有統(tǒng)計意義,模型通過檢驗。 結(jié)果 3 【擬合優(yōu)度表】 原假設模型不能很好地擬合原始數(shù)據(jù),最后一列皮爾遜卡方顯著性值 0.343,概率較小,原假設不成立,說明模型對原始數(shù)據(jù)的擬合沒有通過檢驗。 結(jié)果 4【偽 R 方表】 依次列出的 3 個偽 R 方值(類似于決定系數(shù))均偏低,最高 0.836,說明模型對原始變量變異的解釋程度較好,只有一小部分信息無法解釋,擬合程度比較優(yōu)秀。 結(jié)果 5【模型似然比檢驗表】 最終進入模型的效應包括截距、年齡、婚姻狀況、生活態(tài)度,而且最后一列顯著性值表明,只有生活態(tài)度對模型構(gòu)成有顯著貢獻。 結(jié)果 6【參數(shù)估計表】 列出自變量不同分類水平對口味偏好的影響檢驗,是多項 logistic 回歸非常重要的結(jié)果。第二列 B 值,即各自變量不同分類水平在模型中的系數(shù),正負符號表明它們與早餐選擇是正比還是反比關系。第六列是瓦爾德檢驗顯著性值,此值小于 0.05 說明對應自變量的系數(shù)具有統(tǒng)計意義,對因變量不同分類水平的變化有顯著影響。比如,酸和辣相比,21~25歲的年輕人更偏向于選擇在酸,這種可能性是 26~30 歲以上人的 3.8 倍;甜和辣相比,結(jié)婚與否對口味偏好沒有差別。 05.多項 logistic 回歸模型 經(jīng)過對該口味偏好調(diào)查數(shù)據(jù)進行多項 logistic 回歸分析, 由參數(shù)估計表,我們可以得到模型如下: G1=LOG[P(酸)/P(辣)]=17.915-56.406age1 1.348age2 19.333married0-19.801inactive0
根據(jù)這個模型,我們首先計算某個受訪者 G1、G2、G3 的值,然后帶入如下公式,最終可得到三個早餐相應的概率。
原始數(shù)據(jù)最右側(cè)新增3個變量,依次為EST1_1、EST2_1、EST3_1,分別對應因變量“口味偏好”的三個分類水平(酸、 甜、 辣)的響應概率。比如第一個個案,他選擇酸的概率為0.67,在三種選擇中數(shù)值最大,因此,模型會判定他選擇酸,這和原始記錄的真值一致,說明模型判斷準確。 結(jié)果 7【分類】 模型在預測辣味偏好傾向上準確率最高,達到100%,其他兩個口味偏好的預測略低,模型總體預測準確率為83.9%,表現(xiàn)比較好。前面?zhèn)?R 方數(shù)據(jù)顯示,模型對總體變異的解釋能力尚可,這和總體預測準確率結(jié)論也一致。 以上就是本節(jié)的全部內(nèi)容,請大家多多練習~ |
|