引言:簡(jiǎn)單線性回歸用于探究一個(gè)應(yīng)變量與一個(gè)自變量的關(guān)系(如身高與體重的關(guān)系),而多元線性回歸則用于探究一個(gè)應(yīng)變量與多個(gè)自變量的關(guān)系(如身高與體重、性別、年齡等)。 一、直線回歸的應(yīng)用場(chǎng)景
二、直線回歸詳解 1.簡(jiǎn)單線性回歸:在進(jìn)行體重與年齡的簡(jiǎn)單線性回歸分析時(shí),將年齡稱為自變量(independent varible),用X表示;體重稱為應(yīng)變量(dependent varible),用Y表示。擬合成直線回歸方程表示如下: a和b分別對(duì)應(yīng)總體α和β的樣本估計(jì)值,a稱為常數(shù)項(xiàng)(constant term),是回歸直線在y軸的截距(intercept),其統(tǒng)計(jì)學(xué)意義是當(dāng)X取值為0時(shí)對(duì)應(yīng)的Y的均值估計(jì)值;b稱為回歸系數(shù)(coefficient of regression),是直線的斜率(slope),其統(tǒng)計(jì)學(xué)意義是當(dāng)X變化1個(gè)單位時(shí)Y的平均值改變的估計(jì)值。
2.多元線性回歸:在進(jìn)行糖尿病患者空腹血糖水平與胰島素水平、糖化血紅蛋白、血清膽固醇等因素的多元線性相關(guān)時(shí),糖尿病患者的空腹血糖為應(yīng)變量,用Y表示;而其他因素為自變量,分別用X1、X2、X3等表示。根據(jù)樣本數(shù)據(jù)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì)得到的多元線性回歸方程如下: 同簡(jiǎn)單直線回歸的參數(shù)相似,其中b1、b2、b3…bm是β1、β2、β3…βm的估計(jì)值;一組自變量X1、X2、X3…Xm對(duì)應(yīng)的Y的平均值為估計(jì)值。 3.直線回歸原理 :最小二乘法(least sum of squares ,LS) 基于最小二乘法,計(jì)算機(jī)軟件可以幫我們計(jì)算出簡(jiǎn)單直線回歸和多元線性回歸中樣本參數(shù)。 4.回歸方程的意義:在下文實(shí)例中詳解。 三、直線回歸實(shí)例分析 現(xiàn)有27名糖尿病患者的血清膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白和空腹血糖的測(cè)量值列于表1中,試建立血糖與胰島素的簡(jiǎn)單線性回歸方程以及血糖和其他幾項(xiàng)指標(biāo)的多元線性回歸方程。 1)探究空腹血糖與胰島素水平的直線回歸: ① 由原始數(shù)據(jù)繪制散點(diǎn)圖:通過(guò)散點(diǎn)圖,我們可以看出兩變量間呈現(xiàn)出負(fù)的直線相關(guān)關(guān)系。 ②回歸分析:將空腹血糖水平設(shè)置為應(yīng)變量,胰島素水平設(shè)置為自變量。 根據(jù)SPSS輸出結(jié)果可以得到空腹血糖與胰島素水平的簡(jiǎn)單線性相關(guān)關(guān)系為: 通過(guò)該回歸方程,可知胰島素水平每升高1個(gè)單位,空腹血糖水平降低0.407mmol/L。 ③回歸方程的假設(shè)檢驗(yàn):
查看SPSS輸出結(jié)果,F(xiàn)=8.794,p=0.007<0.05,可以得出來(lái)自總體的空腹血糖水平和胰島素水平存在相關(guān)性。
查看SPSS的輸出結(jié)果, t=-2.965,p=0.007,故拒絕H0,接受H1,說(shuō)明兩者之間成負(fù)的直線相關(guān)。注意,t檢驗(yàn)和方差分析的結(jié)果等價(jià),t2=F,兩種方法最終得出的顯著性水平是一致的。
R2表示的為模型所解釋?xiě)?yīng)變量總變異的百分比。故R2越大,說(shuō)明我們擬合的模型越能解釋?xiě)?yīng)變量的變異,說(shuō)明我們擬合的模型越好。結(jié)合本案例,擬合的簡(jiǎn)單線性回歸模型所能解釋的應(yīng)變量的變異為0.260。擬合的模型并不能非常好的解釋?xiě)?yīng)變量空腹血糖值得變異水平,說(shuō)明除胰島素水平外有多種因素對(duì)空腹血糖水平產(chǎn)生影響。 2)探究空腹血糖水平與其他指標(biāo)的多元線性回歸 ①同簡(jiǎn)單線性回歸模型的結(jié)果相似:多元線性回歸方程為: 該回歸方程的意義:多元線性回歸模型有助于控制其他m-1個(gè)變量時(shí)(保持其他m-1個(gè)變量不變),探究某1個(gè)變量與應(yīng)變量之間的關(guān)系,具體原理如下: 例如當(dāng)其他因素不變時(shí),探究胰島素水平對(duì)空腹血糖的影響: 故可得出結(jié)論,當(dāng)控制其他因素不變時(shí),每增加1個(gè)單位胰島素水平,空腹血糖水平降低0.271mmol/L。當(dāng)控制其他因素不變時(shí),每增加1個(gè)單位糖化血紅蛋白水平,空腹血糖的水平增加0.638mmol/L。 ②多元回歸模型的假設(shè)檢驗(yàn):
③標(biāo)準(zhǔn)化回歸系數(shù)(standardized coefficients beta): 用于比較不同自變量對(duì)應(yīng)變量的影響:將回歸系數(shù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變化后,可得到標(biāo)準(zhǔn)化后的回歸系數(shù)β,通常在有統(tǒng)計(jì)學(xué)意義的前提下,標(biāo)準(zhǔn)化回歸系數(shù)越大,說(shuō)明相應(yīng)的自變量對(duì)Y的作用越大。如在此案例中,滿足統(tǒng)計(jì)學(xué)意義的前提下,對(duì)血糖影響大小的順序依次是糖化血紅蛋白(X4)和胰島素(X3)水平。 ④多元回歸方程自變量的選擇:
以下展示逐步回歸法中變量納入過(guò)程:α入=0.10,α出=0.15 模型解釋:SPSS在stepwise過(guò)程中總共建立了5個(gè)模型,在變量進(jìn)入模型的同時(shí)剔除不滿足統(tǒng)計(jì)學(xué)顯著性的已納入變量,如在模型4納入甘油三酯后,總膽固醇變量被剔除。最后,模型中保留糖化血紅蛋白、胰島素和甘油三酯3個(gè)變量。 四、直線回歸的注意事項(xiàng) 1.指標(biāo)的數(shù)量化:納入自變量的數(shù)據(jù)可以是計(jì)量資料、分類變量和(或有序變量)。
2.樣本含量: 如果樣本含量較少,建立的回歸模型會(huì)很不穩(wěn)定,常常有較大的R2,容易造成假象。故需要根據(jù)自變量個(gè)數(shù)調(diào)整樣本容量。 3.多重共線性問(wèn)題: 所謂多重共線性是指一些自變量之間存在較強(qiáng)的線性關(guān)系,如研究高血壓與年齡、吸煙年限、飲白酒年限等因素的關(guān)系,這些自變量通常是相關(guān)的,如果這種相關(guān)程度非常高,使用最小二乘法建立回歸方程就有可能失效,引起下列一些不良后果,使得回顧方程的結(jié)果不穩(wěn)定、甚至偏離實(shí)際結(jié)果。 五、小結(jié) 在回歸分析中將應(yīng)變量的變異進(jìn)行分解,并用自變量解釋它,這是直線回歸與方差分析的聯(lián)系。方差分析與回歸的主要差別通常與分析變量類型有關(guān),方差分析的自變量是分類變量,而回歸的自變量是連續(xù)變量。在下一小節(jié)中我們繼續(xù)學(xué)習(xí)總體率的檢驗(yàn)——卡方檢驗(yàn),拜拜~~~ |
|
來(lái)自: 鐘山紫竹林 > 《統(tǒng)計(jì)》