小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

白話統(tǒng)計(jì)學(xué)13—簡(jiǎn)單線性回歸和多元線性回歸

 鐘山紫竹林 2020-01-16

引言:簡(jiǎn)單線性回歸用于探究一個(gè)應(yīng)變量與一個(gè)自變量的關(guān)系(如身高與體重的關(guān)系),而多元線性回歸則用于探究一個(gè)應(yīng)變量與多個(gè)自變量的關(guān)系(如身高與體重、性別、年齡等)。

一、直線回歸的應(yīng)用場(chǎng)景


如上圖所示,常用回歸分析的使用條件有所不同。今天小編主要和大家學(xué)習(xí)前面兩種,簡(jiǎn)單線性回歸和多元線性回歸,其實(shí)多元線性回歸就是簡(jiǎn)單線性回歸到升級(jí)版本。
  • 簡(jiǎn)單線性回歸應(yīng)用舉例:如體重與年齡、身高與年齡等等。

  • 多元線性回歸應(yīng)用舉例:除了想要探討體重與年齡的關(guān)系外,我們還想要探討體重與性別、身高等的關(guān)系,即探討一個(gè)應(yīng)變量與多個(gè)自變量的關(guān)系時(shí),應(yīng)該考慮使用多元線性回歸。醫(yī)學(xué)研究中許多疾病都有多種病因,預(yù)后也是多種因素決定的,如糖尿病患者的血糖變化可能受胰島素水平、糖化血紅蛋白、血清總膽固醇、甘油三酯等多種指標(biāo)的影響等,探討糖尿病患者血糖的影響因素時(shí)可以使用多元線性回歸。

二、直線回歸詳解

1.簡(jiǎn)單線性回歸:在進(jìn)行體重與年齡的簡(jiǎn)單線性回歸分析時(shí),將年齡稱為自變量(independent varible),用X表示;體重稱為應(yīng)變量(dependent varible),用Y表示。擬合成直線回歸方程表示如下:

a和b分別對(duì)應(yīng)總體α和β的樣本估計(jì)值,a稱為常數(shù)項(xiàng)(constant term),是回歸直線在y軸的截距(intercept),其統(tǒng)計(jì)學(xué)意義是當(dāng)X取值為0時(shí)對(duì)應(yīng)的Y的均值估計(jì)值;b稱為回歸系數(shù)(coefficient of regression),是直線的斜率(slope),其統(tǒng)計(jì)學(xué)意義是當(dāng)X變化1個(gè)單位時(shí)Y的平均值改變的估計(jì)值。

  • 當(dāng)b>0時(shí),Y隨X的增大而增大;

  • 當(dāng)b<0時(shí),Y隨X的增大而減?。?/strong>

  • 當(dāng)b=0時(shí),Y與X無(wú)直線關(guān)系。

2.多元線性回歸:在進(jìn)行糖尿病患者空腹血糖水平與胰島素水平、糖化血紅蛋白、血清膽固醇等因素的多元線性相關(guān)時(shí),糖尿病患者的空腹血糖為應(yīng)變量,用Y表示;而其他因素為自變量,分別用X1、X2、X3等表示。根據(jù)樣本數(shù)據(jù)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì)得到的多元線性回歸方程如下:

同簡(jiǎn)單直線回歸的參數(shù)相似,其中b1、b2、b3…bm是β1、β2、β3…βm的估計(jì)值;一組自變量X1、X2、X3…Xm對(duì)應(yīng)的Y的平均值為估計(jì)值。

3.直線回歸原理 :最小二乘法(least sum of squares ,LS)

基于最小二乘法,計(jì)算機(jī)軟件可以幫我們計(jì)算出簡(jiǎn)單直線回歸和多元線性回歸中樣本參數(shù)。

4.回歸方程的意義:在下文實(shí)例中詳解。

三、直線回歸實(shí)例分析

現(xiàn)有27名糖尿病患者的血清膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白和空腹血糖的測(cè)量值列于表1中,試建立血糖與胰島素的簡(jiǎn)單線性回歸方程以及血糖和其他幾項(xiàng)指標(biāo)的多元線性回歸方程。

1)探究空腹血糖與胰島素水平的直線回歸:

① 由原始數(shù)據(jù)繪制散點(diǎn)圖:通過(guò)散點(diǎn)圖,我們可以看出兩變量間呈現(xiàn)出負(fù)的直線相關(guān)關(guān)系。

②回歸分析:將空腹血糖水平設(shè)置為應(yīng)變量,胰島素水平設(shè)置為自變量。

根據(jù)SPSS輸出結(jié)果可以得到空腹血糖與胰島素水平的簡(jiǎn)單線性相關(guān)關(guān)系為:

通過(guò)該回歸方程,可知胰島素水平每升高1個(gè)單位,空腹血糖水平降低0.407mmol/L。

③回歸方程的假設(shè)檢驗(yàn):

  • 方差分析對(duì)模型整體進(jìn)行假設(shè)檢驗(yàn):將Y的總變異分解為回歸方程所能解釋的部分和回歸方程未能解釋的部分(即殘差解釋的分布)。

查看SPSS輸出結(jié)果,F(xiàn)=8.794,p=0.007<0.05,可以得出來(lái)自總體的空腹血糖水平和胰島素水平存在相關(guān)性。

  • t檢驗(yàn)對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn):

    H0:來(lái)自總體的空腹血糖水平與胰島素水平直線相關(guān)的斜率β=0;

    H1: 來(lái)自總體的空腹血糖水平與胰島素水平直線相關(guān)的斜率β≠0;

    α=0.05

查看SPSS的輸出結(jié)果, t=-2.965,p=0.007,故拒絕H0,接受H1,說(shuō)明兩者之間成負(fù)的直線相關(guān)。注意,t檢驗(yàn)和方差分析的結(jié)果等價(jià),t2=F,兩種方法最終得出的顯著性水平是一致的。

  • R2為決定系數(shù)(coefficient of determination),定義為回歸平方和與總平方和之比,計(jì)算公式為:

R2表示的為模型所解釋?xiě)?yīng)變量總變異的百分比。故R2越大,說(shuō)明我們擬合的模型越能解釋?xiě)?yīng)變量的變異,說(shuō)明我們擬合的模型越好。結(jié)合本案例,擬合的簡(jiǎn)單線性回歸模型所能解釋的應(yīng)變量的變異為0.260。擬合的模型并不能非常好的解釋?xiě)?yīng)變量空腹血糖值得變異水平,說(shuō)明除胰島素水平外有多種因素對(duì)空腹血糖水平產(chǎn)生影響。

2)探究空腹血糖水平與其他指標(biāo)的多元線性回歸

將空腹血糖水平設(shè)置為應(yīng)變量,其他指標(biāo)設(shè)置為自變量,選擇自變量進(jìn)入的方法為Enter(關(guān)于自變量選擇的方法將在后面談及)得到的結(jié)果如下:

①同簡(jiǎn)單線性回歸模型的結(jié)果相似:多元線性回歸方程為:

該回歸方程的意義:多元線性回歸模型有助于控制其他m-1個(gè)變量時(shí)(保持其他m-1個(gè)變量不變),探究某1個(gè)變量與應(yīng)變量之間的關(guān)系,具體原理如下:

例如當(dāng)其他因素不變時(shí),探究胰島素水平對(duì)空腹血糖的影響:

故可得出結(jié)論,當(dāng)控制其他因素不變時(shí),每增加1個(gè)單位胰島素水平,空腹血糖水平降低0.271mmol/L。當(dāng)控制其他因素不變時(shí),每增加1個(gè)單位糖化血紅蛋白水平,空腹血糖的水平增加0.638mmol/L。

②多元回歸模型的假設(shè)檢驗(yàn):

  • 對(duì)模型整體的方差分析檢驗(yàn):p<0.001,說(shuō)明該模型中至少有一個(gè)自變量與應(yīng)變量相關(guān)(即至少有一個(gè)β值不等于零)。

  • 對(duì)每個(gè)協(xié)變量系數(shù)的t檢驗(yàn):僅有胰島素水平和糖化血紅蛋白與空腹血糖水平具有直線相關(guān)性,其中胰島素水平與空腹血糖水平呈負(fù)相關(guān),而糖化血紅蛋白與空腹血糖水平呈正相關(guān)。

  • 擬合模型的R2=0.601:說(shuō)明該模型所能解釋的變異占應(yīng)變量總變異的0.601,與簡(jiǎn)單線性回歸模型相比,納入更多的自變量后的模型能更好的預(yù)測(cè)空腹血糖的水平。

③標(biāo)準(zhǔn)化回歸系數(shù)(standardized coefficients beta):

用于比較不同自變量對(duì)應(yīng)變量的影響:將回歸系數(shù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變化后,可得到標(biāo)準(zhǔn)化后的回歸系數(shù)β,通常在有統(tǒng)計(jì)學(xué)意義的前提下,標(biāo)準(zhǔn)化回歸系數(shù)越大,說(shuō)明相應(yīng)的自變量對(duì)Y的作用越大。如在此案例中,滿足統(tǒng)計(jì)學(xué)意義的前提下,對(duì)血糖影響大小的順序依次是糖化血紅蛋白(X4)和胰島素(X3)水平。

④多元回歸方程自變量的選擇:

  1. Enter:根據(jù)研究者自己的意愿選擇那些自變量進(jìn)入模型,如前面的實(shí)例中,我們將4個(gè)自變量均納入回歸模型中。盡管通過(guò)t檢驗(yàn),僅有2個(gè)自變量與應(yīng)變量有相關(guān)性,其他2個(gè)無(wú)關(guān)的變量仍保留在了模型中。

  2. Forward:前進(jìn)法,回歸方程中的自變量從無(wú)到有、由少到多逐個(gè)引入回歸方程中,根據(jù)F檢驗(yàn)逐個(gè)引入回歸平方和最大(有統(tǒng)計(jì)學(xué)意義的變量),直到?jīng)]有可引入的自變量為止。

  3. Backward: 后退法,與前進(jìn)法相反,它是先將所有的自變量納入模型中,根據(jù)F檢驗(yàn)逐一剔除偏回歸平方和最小的變量(無(wú)統(tǒng)計(jì)學(xué)意義的變量),直到所有的變量不能被剔除為止。

  4. Stepwise: 逐步回歸法,但其本質(zhì)上是前進(jìn)法。其在納入新的變量之前,對(duì)模型中的變量進(jìn)行F檢驗(yàn),剔除統(tǒng)計(jì)學(xué)不顯著的自變量。為了保證進(jìn)入模型的自變量不被剔除,一般設(shè)置α≤α,如α=0.10,α=0.15。

以下展示逐步回歸法中變量納入過(guò)程:α入=0.10,α出=0.15

模型解釋:SPSS在stepwise過(guò)程中總共建立了5個(gè)模型,在變量進(jìn)入模型的同時(shí)剔除不滿足統(tǒng)計(jì)學(xué)顯著性的已納入變量,如在模型4納入甘油三酯后,總膽固醇變量被剔除。最后,模型中保留糖化血紅蛋白、胰島素和甘油三酯3個(gè)變量。

四、直線回歸的注意事項(xiàng)

1.指標(biāo)的數(shù)量化:納入自變量的數(shù)據(jù)可以是計(jì)量資料、分類變量和(或有序變量)。

  • 當(dāng)自變量為二分類變量時(shí),如患者的性別、治療方式等可能為影響疾病預(yù)后的自變量,為了將它們引入回歸方程中,必須對(duì)其進(jìn)行數(shù)量化處理,將性別變量賦值為(男=0,女=1)。

  • 當(dāng)自變量是多分類指標(biāo)時(shí),需要采用啞變量完整的表達(dá)這些類別,如血型A、B、O、AB型,可將其轉(zhuǎn)換成如下,可分別用于探究A、B、AB型相對(duì)于O型血對(duì)應(yīng)變量的影響。

  • 當(dāng)樣本為有序變量時(shí),如輕、中、重,可根據(jù)情況將其處理成連續(xù)型變量(1、2、3)或者2個(gè)啞變量。


2.樣本含量: 如果樣本含量較少,建立的回歸模型會(huì)很不穩(wěn)定,常常有較大的R2,容易造成假象。故需要根據(jù)自變量個(gè)數(shù)調(diào)整樣本容量。

3.多重共線性問(wèn)題:  所謂多重共線性是指一些自變量之間存在較強(qiáng)的線性關(guān)系,如研究高血壓與年齡、吸煙年限、飲白酒年限等因素的關(guān)系,這些自變量通常是相關(guān)的,如果這種相關(guān)程度非常高,使用最小二乘法建立回歸方程就有可能失效,引起下列一些不良后果,使得回顧方程的結(jié)果不穩(wěn)定、甚至偏離實(shí)際結(jié)果。

五、小結(jié)

在回歸分析中將應(yīng)變量的變異進(jìn)行分解,并用自變量解釋它,這是直線回歸與方差分析的聯(lián)系。方差分析與回歸的主要差別通常與分析變量類型有關(guān),方差分析的自變量是分類變量,而回歸的自變量是連續(xù)變量。在下一小節(jié)中我們繼續(xù)學(xué)習(xí)總體率的檢驗(yàn)——卡方檢驗(yàn),拜拜~~~

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多