30天學(xué)會(huì)醫(yī)學(xué)統(tǒng)計(jì)與SPSS本課程是高校醫(yī)學(xué)統(tǒng)計(jì)學(xué)教授的公益、免費(fèi)公開課!如假包換!我將每天推送視頻和文字教程,講授基于醫(yī)學(xué)數(shù)據(jù)的各種統(tǒng)計(jì)分析策略。如果你能跟得上節(jié)奏,我相信在一個(gè)月后,您將會(huì)掌握醫(yī)學(xué)數(shù)據(jù)分析方法。2. 課程所需的SPSS全套視頻、數(shù)據(jù)庫、講義下載3.“高校公益免費(fèi)課程新一期” 詳細(xì)介紹:如果您真的能夠堅(jiān)持,發(fā)送關(guān)鍵詞“打卡”,加入微信學(xué)習(xí)群吧。騙人?不存在的。你們能夠?qū)W會(huì)醫(yī)學(xué)統(tǒng)計(jì)學(xué),我將視為這是一種成就。此外面向醫(yī)務(wù)工作者,我們也開設(shè)“統(tǒng)計(jì)跟學(xué)課程”【學(xué)不會(huì)全額退款】:隸屬第五章:病例對(duì)照研究與隊(duì)列研究統(tǒng)計(jì)策略 本日學(xué)習(xí)任務(wù) 4. SPSS logistic回歸實(shí)操與群內(nèi)討論歡迎加入高校公益免費(fèi)群全面學(xué)習(xí)醫(yī)學(xué)統(tǒng)計(jì)學(xué)與SPSS應(yīng)用(發(fā)送關(guān)鍵詞“打卡”到公眾號(hào))在醫(yī)學(xué)科研、特別是觀察性研究領(lǐng)域,無論是現(xiàn)況調(diào)查、病例對(duì)照研究、還是隊(duì)列研究,經(jīng)常遇到分類的健康結(jié)局,包括二分類(如:生存與死亡、陽性與陰性、發(fā)病與未發(fā)?。┗蛘叨喾诸愖兞浚ㄈ纾杭膊∞D(zhuǎn)歸,治愈、無效、死亡;根據(jù)損傷程度分級(jí)的結(jié)局指標(biāo),如結(jié)核性胸腔積液胸膜粘連程度、視網(wǎng)膜出血程度、早產(chǎn)兒腦室缺血程度)以及一些可進(jìn)行分類的生理生化、免疫指標(biāo)等(如血壓值、血鎂值、血脂和膽固醇等)。當(dāng)研究的健康終點(diǎn)是二分類變量時(shí),線性回歸分析往往無法進(jìn)行(線性回歸分析要求殘差服從線性、正態(tài)性、獨(dú)立性、方差齊性),此時(shí)可以考慮Logistic回歸模型。 尤其是病例對(duì)照研究,它的結(jié)局全部為分類結(jié)局,很對(duì)Logistic胃口,同時(shí)病例對(duì)照研究往往要求計(jì)算的評(píng)價(jià)暴露因素影響程度的OR值(優(yōu)勢(shì)比),這一指標(biāo)Logistic也能夠計(jì)算得到。因此,病例對(duì)照研究設(shè)計(jì)與Logistic回歸分析乃是天作之合。因此,本系列緊跟病例對(duì)照研究方法篇,介紹Logistic回歸分析。 例1:某醫(yī)師基于某醫(yī)院開展病例對(duì)照研究,探討冠心病發(fā)病有關(guān)的影響因素,收集新發(fā)冠心病患者作為病例組,收集同期醫(yī)院非循環(huán)系統(tǒng)疾病患者作為對(duì)照組,研究的暴露因素是病人的年齡age、性別sex、心電圖檢驗(yàn)是否異常ecg、高血壓hyper、糖尿病diabetes。數(shù)據(jù)見casecontrol.sav。 線性回歸常見包括線性回歸、Logistic回歸、Cox比例風(fēng)險(xiǎn)模型,三者分別用于定量數(shù)據(jù)、分類數(shù)據(jù)、帶有結(jié)局的生存時(shí)間資料。回歸分析的主要功能是研究影響因素、開展預(yù)測(cè)。線性回歸分析是通過構(gòu)建線性函數(shù),探討影響與預(yù)測(cè)定量數(shù)據(jù)結(jié)局大小的因素。如果結(jié)局是分類變量,回歸分析主要分析影響陽性事件發(fā)生的因素,預(yù)測(cè)陽性事件的發(fā)生。在本文案例中,冠心病的發(fā)生是需要探討的陽性事件。影響與預(yù)測(cè)陽性事件發(fā)生,可以用概率P來表示。P值越大,陽性事件發(fā)生的可能越大。如果一個(gè)因素可以導(dǎo)致概率P增大,說明該因素是重要的影響因素或者預(yù)測(cè)因素。借鑒線性回歸的原理,我們希望建立起一個(gè)關(guān)于P的線性函數(shù):遺憾的是,P與x的關(guān)系并不符合線性回歸分析所要求的線性關(guān)系前提條件(它們的關(guān)系是S型曲線的關(guān)系),因此方程無法成立。之前推文介紹過,線性回歸若線性條件不符合,可以對(duì)Y或者X進(jìn)行轉(zhuǎn)換,以滿足線性回歸的要求。因此,統(tǒng)計(jì)研究者對(duì)P進(jìn)行了轉(zhuǎn)換,稱之為logit轉(zhuǎn)換,或者logit(P):于是,我們就建立了關(guān)于P與結(jié)局的轉(zhuǎn)換線性關(guān)系,這一回歸模型被稱之為廣義線性模型,其中l(wèi)ogit(P)的轉(zhuǎn)換模型叫做Logistic回歸。 只從數(shù)據(jù)本身考慮的話,Logistic回歸模型都是包括一個(gè)分類因變量及若干自變量(可以是分類變量,也可以是連續(xù)變量),反映了m個(gè)自變量對(duì)因變量的線性影響。無論對(duì)于病例對(duì)照研究還是隊(duì)列研究,這種形式都是不變的。基于上述公式,我們可基于多個(gè)自變量預(yù)測(cè)結(jié)局Y。上述公式可以轉(zhuǎn)為以下關(guān)于P的更直接的公式:比如有一名患者,女性、年齡57歲、心電圖ST段重度異常、同時(shí)患有高血壓和糖尿病,則可計(jì)算得到她患冠心病的概率為0.961。相反,如果另一名患者為女性、年齡49歲、心電圖ST段輕度異常、同時(shí)糖尿病而無高血壓,則她患冠心病的概率是0.262。這一概率就是回歸分析的預(yù)測(cè)值,預(yù)測(cè)值顯然與實(shí)際值有差異。比如第一名患者實(shí)際值是1(發(fā)生冠心?。鎸?shí)值與實(shí)際值之間的差異是0.039,這一差異便是前文介紹過的殘差。同樣,第二名患者實(shí)際值是0(未發(fā)生),殘差是-0.262。好的模型,殘差越小越好,殘差均方越小越好。因此,logistic回歸模型中,殘差也是非常重要的評(píng)價(jià)指標(biāo)。Logistic回歸核心的功能之一是研究影響因素,它用于評(píng)價(jià)暴露因素影響程度的指標(biāo)是OR值。關(guān)于OR值,我在前文有詳細(xì)的介紹(病例對(duì)照研究的基本統(tǒng)計(jì)分析策略)。觀察性研究無論是橫截面調(diào)查、病例對(duì)照研究或者隊(duì)列研究,經(jīng)常需要借助OR值暴露因素效應(yīng)值,實(shí)際上實(shí)驗(yàn)性研究也經(jīng)常使用該指標(biāo)來評(píng)價(jià)干預(yù)措施的療效。OR值指的是,優(yōu)勢(shì)比/比數(shù)比(odds ratio,OR)。優(yōu)勢(shì)(odds)是指二分類事件中一類事件相對(duì)于其對(duì)立事件的優(yōu)勢(shì)。病例組中優(yōu)勢(shì)是暴露者數(shù)/非暴露數(shù),對(duì)照組中暴露數(shù)/非暴露數(shù)。Logistic回歸分析,實(shí)際上也是關(guān)于優(yōu)勢(shì)的回歸模型。諸位稍微思考思考可以放發(fā)現(xiàn)a/(a+c)、b/(b+d)便是P,c/(a+c), d/(b+d)是1-P。a/(a+c) 除以c/(a+c) 即P/1-P,即陽性事件的優(yōu)勢(shì)。因此,可以得到以下的公式: 現(xiàn)在如果要探討性別的影響,男性與女性的差異,可以從兩個(gè)角度來分析討:第一,計(jì)算回歸系數(shù)β1,說明性別變量X對(duì)Y的影響;第二,計(jì)算OR值,兩者是等同的,男性(P1)相對(duì)女性(P0)的影響回歸系數(shù)b值等于ln(OR)值。OR值大于1,提示暴露促進(jìn)陽性事件的發(fā)生;OR值小于1,提示暴露阻礙陽性事件的發(fā)生;OR值等于1,提示暴露與陽性事件發(fā)生無關(guān)。相對(duì)來說,OR值比b值在解釋對(duì)結(jié)局的影響上更有意義,它能夠說明結(jié)局Y風(fēng)險(xiǎn)增加的程度。比如OR=2,大致可以說明暴露因素增加發(fā)生陽性結(jié)局1倍的概率(千萬注意,此處只能說大致、或者左右,原因后續(xù)再論) 醫(yī)學(xué)研究中,風(fēng)險(xiǎn)大小估計(jì)是重要的內(nèi)容。由于能夠巧妙地計(jì)算OR值,Logistic回歸在醫(yī)學(xué)領(lǐng)域大受歡迎,特別是病例對(duì)照研究。依據(jù)研究設(shè)計(jì)不同,可分為非條件Logistic回歸模型和條件Llogistic回歸模型。非條件Logistic回歸用于成組設(shè)計(jì)的觀察性研究,而條件Logistic 回歸一般用于匹配設(shè)計(jì)研究。依據(jù)因變量類型(水平數(shù)量),又可分為二分類Logistic回歸模型和多分類Logistic回歸模型;二分類Logistic回歸也稱二元Logistic回歸(SPSS軟件的叫法)此外,根據(jù)多分類因變量是否有序,又可以分為多分類有序logistic回歸模型和多分類無序logistic回歸模型。Logistic回歸模型分類(本圖來源于“醫(yī)學(xué)統(tǒng)計(jì)分析學(xué)習(xí)”公眾號(hào))本研究是基礎(chǔ)教程,多分類、配對(duì)Logistic回歸不再學(xué)習(xí)范圍之內(nèi),我就介紹最基本的二分類非Logistic回歸分析。本例所采用的方法便是多因素非條件Logistic回歸分析。②協(xié)變量:即自變量,放入年齡、性別、心電圖表現(xiàn)、糖尿病、高血壓③保存:可分別計(jì)算除預(yù)測(cè)值(即P值)和殘差,殘差包括原始?xì)埐詈蜆?biāo)準(zhǔn)化殘差。④選項(xiàng):可計(jì)算霍斯黙-萊梅肖擬合優(yōu)度(Hosmer-Lemesho,H-L檢驗(yàn))(①)、OR值的95%CI置信區(qū)間(②)Logistic回歸得到諸多結(jié)果,初學(xué)者僅需要重點(diǎn)關(guān)注以下幾個(gè)表格。首先提供的是Omnibus Tests of model Coefficients :指的是對(duì)模型的總的全局檢驗(yàn),為似然比檢驗(yàn)。結(jié)果里面的三行分別指的是:步驟(step)統(tǒng)計(jì)量是每一步與前一步的似然比檢驗(yàn)結(jié)果,塊(block)是指將block n與block n-1 相比的似然比檢驗(yàn)結(jié)果,模型(model) 一行輸出了Logistic回歸模型中所有參數(shù)是否均為0的似然比檢驗(yàn)結(jié)果,這是總體評(píng)價(jià)的關(guān)鍵檢驗(yàn)。P<0.05表示本次擬合的模型中,納入的變量中,至少有一個(gè)變量的OR值有統(tǒng)計(jì)學(xué)意義,即模型總體有意義。其次,Logistic 回歸提供模型擬合優(yōu)度(Goodness of Fit)評(píng)價(jià)。所謂擬合優(yōu)度,指的是模型構(gòu)建的效果如何,與真實(shí)情況或者理想情況相比,差距有多大。線性回歸分析一般采用R^2來反映擬合優(yōu)度的效果。logistic回歸擬合優(yōu)度包括兩類:從量評(píng)價(jià)擬合優(yōu)度和從質(zhì)提供擬合優(yōu)度效果量化評(píng)價(jià)擬合優(yōu)度效果。Logistic回歸分析提供類似于R^2的,考克斯-斯奈爾R方(Cox & Snell R^2)和內(nèi)戈?duì)柨芌方(Nagelkerke R^2)。不過,這兩種R^2有時(shí)被稱為偽R^2,在Logistic回歸中意義不大(與線性回歸中的不同),可以不予關(guān)注。-2對(duì)似然值(-2 log likelihood,-2LL))是模型評(píng)價(jià)重要的指標(biāo),該值越小越好,可以用于不同模型評(píng)價(jià)效果。質(zhì)性評(píng)價(jià)擬合優(yōu)度效果。霍斯黙-萊梅肖擬合優(yōu)度檢驗(yàn)(Hosmer-Lemesho,H-L檢驗(yàn))可以用于評(píng)價(jià)模型是否充分利用了現(xiàn)有的信息最大化地?cái)M合了模型、解釋了模型的變異。該研究若P>0.05,則可說明模型擬合優(yōu)度效果較好,若P<0.05,則說明可以模型構(gòu)建效果欠佳。本例P=0.485,說明模型擬合優(yōu)度情況良好。最后為核心分析的結(jié)果:Logistic回歸分析分別回歸系數(shù)b值、b值的標(biāo)準(zhǔn)誤、Wald 卡方值(瓦爾德)、自由度、P值(顯著性)、OR值(Exp B)及其置信區(qū)間。其中,Wald 卡方值(瓦爾德)和P值是對(duì)回歸系數(shù)b值的假設(shè)檢驗(yàn)。P<0.05, 說明該變量對(duì)結(jié)局的影響具有統(tǒng)計(jì)學(xué)意義;本例,性別、年齡、心電圖表現(xiàn)、有無高血壓變量對(duì)結(jié)果具有統(tǒng)計(jì)學(xué)意義。Exp B即OR值,與回歸系數(shù)的關(guān)系是e^b值。OR值置信區(qū)間與P值的關(guān)系是:當(dāng)P<0.05,則置信區(qū)間不包括1;當(dāng)P>0.05,則置信區(qū)間包括1。特別要提醒諸位的是:OR值大于1,是否就是危險(xiǎn)因素?OR值小于1是否就是保護(hù)因素呢?這種說法是非常的武斷。首先,對(duì)OR值不能再采用危險(xiǎn)還是保護(hù)的說法,危險(xiǎn)、保護(hù)做法往往針對(duì)不良的陽性事件結(jié)局,用詞傾向性太嚴(yán)重。在臨床上或者更多領(lǐng)域,更中性、更容易理解的是用促進(jìn)或者阻礙的說法來反映。OR值大于1,提示暴露因素是陽性事件發(fā)生的促進(jìn)因素;OR值小于1,提示暴露因素是陽性事件發(fā)生的阻礙因素;OR值等于1,提示暴露因素對(duì)陽性事件的發(fā)生無影響。其次,要理解OR值必須得非常清晰地明確,暴露因素的對(duì)照組是誰?陽性事件又是誰。SPSS統(tǒng)計(jì)結(jié)果表給不了太多信息。比如性別,它只告訴我們性別對(duì)陽性事件發(fā)生有影響。但是到底男性風(fēng)險(xiǎn)大還是女性風(fēng)險(xiǎn)大?OR=6.24到底針對(duì)誰呢? 要讀懂統(tǒng)計(jì)結(jié)果表,讀懂OR值,必須明確:(1)何為陽性事件,我們可能想當(dāng)然認(rèn)為陽性事件必然是冠心病發(fā)生;然而在SPSS分析中,陽性事件指的是數(shù)據(jù)庫結(jié)局變量賦值較大的結(jié)局。在本例中,若是否有冠心?。╟a)變量,如果(冠心病是0,未發(fā)生冠心病是1),那么未發(fā)生冠心病的是陽性事件。是不是聽起來特別別扭?我想要研究的是發(fā)生冠心病的風(fēng)險(xiǎn)呀!怎么辦? 那就請(qǐng)諸位在構(gòu)建數(shù)據(jù)庫時(shí),將所指認(rèn)的陽性事件給予更高的賦值,高于陰性事件。對(duì)于二分類的結(jié)局,最好用0、1表示(0代表陰性事件,1代表陽性事件),保證你理念中的陽性事件與SPSS的陽性事件定義的統(tǒng)一,不容易出錯(cuò)。對(duì)于定量數(shù)據(jù),比如年齡,b值代表x每增加一個(gè)單位,結(jié)局改變的量;OR值更有意義,OR代表,x增加一個(gè)單位,比如年齡增加一歲,陽性事件出現(xiàn)的概率將大約增加(OR-1)倍;對(duì)于年齡,比如年齡增加一歲,平均風(fēng)險(xiǎn)將增加0.091倍,這意味著,年齡越大,冠心病風(fēng)險(xiǎn)越高。 對(duì)于二分類定性數(shù)據(jù),OR值也代表x增加一個(gè)單位,結(jié)局改變的量。比如性別,x增加一個(gè)單位,風(fēng)險(xiǎn)增加大約5.24倍。那么,如何理解此處“增加一個(gè)單位”的意思呢? 實(shí)際上指的是數(shù)據(jù)庫性別變量賦值增加一個(gè)單位嗎(性別變量從0增加1),風(fēng)險(xiǎn)增加大約5.24倍(不過不像年齡,性別變量x只能增加1次)。很多時(shí)候,如此解釋還別扭,我們更傾向?qū)ふ覍?duì)照作為支點(diǎn),進(jìn)行比較分析。性別從0到1,那就是性別變量賦值為1和賦值為0的相比,風(fēng)險(xiǎn)增加5.24。0是什么?0是女性,而1是男性,那意味著是男性與女性相比,風(fēng)險(xiǎn)大概增加5.24倍。SPSS統(tǒng)計(jì)分析在二分類自變量的影響時(shí),默認(rèn)是以自變量賦值較低作為對(duì)照,探討賦值較大者能否相對(duì)能否增加陽性事件概率。 對(duì)于等級(jí)資料,其解釋與定量數(shù)據(jù)無異,也就是X每加一個(gè)等級(jí),比如年齡增加一歲,陽性事件出現(xiàn)的概率將增加(OR-1)倍左右;比如對(duì)于心電圖異常情況變量,意味著心電圖異常情況平均每增加一個(gè)等級(jí),冠心病的風(fēng)險(xiǎn)將增加2.406倍左右。此外,高血壓變量在數(shù)據(jù)庫中賦值為0=無高血壓,1=有高血壓,意味著對(duì)照組是無高血壓,有高血壓的病人與之相比,風(fēng)險(xiǎn)增加9.814倍左右。糖尿病無統(tǒng)計(jì)學(xué)意義。 總之,OR值是探討SPSS數(shù)據(jù)庫中自變量賦值較大者,對(duì)SPSS數(shù)據(jù)庫中陽性事件的影響。如果不注意這一點(diǎn),只看OR值就論是否危險(xiǎn)因素,可能會(huì)得到了相反的結(jié)論。 最后,由于在本文SPSS操作中,勾選了計(jì)算預(yù)測(cè)值和殘差,數(shù)據(jù)庫給出了兩個(gè)新的變量,分別是PRE_1(預(yù)測(cè)值)和RES_1(殘差) ,兩組相加,剛好是ca“冠心病”。規(guī)范文字1:納入年齡、心電圖和性別等構(gòu)建多因素Logistic回歸方程。結(jié)果發(fā)現(xiàn):心電圖異常對(duì)冠心病的影響具有統(tǒng)計(jì)學(xué)意義(OR=3.40,95%CI 1.81-6.37, P<0.001);年齡對(duì)冠心病的影響具有統(tǒng)計(jì)學(xué)意義(OR=1.09, 95%CI 1.03-1.15, P=0.001);性別對(duì)冠心病的影響具有統(tǒng)計(jì)學(xué)意義(OR=6.24,95%CI 2.50-15.56, P<0.001);高血壓狀況對(duì)對(duì)冠心病的影響具有統(tǒng)計(jì)學(xué)意義(OR=10.81,95%CI 4.15-28.20, P<0.001)。規(guī)范文字2:納入年齡、心電圖和性別等構(gòu)建多因素Logistic回歸方程。結(jié)果發(fā)現(xiàn):心電圖異常等級(jí)增加將增加冠心病的風(fēng)險(xiǎn),具有統(tǒng)計(jì)學(xué)意義(OR=3.40,95%CI 1.81-6.37, P<0.001);年齡越大冠心病風(fēng)險(xiǎn)越高,具有統(tǒng)計(jì)學(xué)意義(OR=1.09, 95%CI 1.03-1.15, P=0.001);相對(duì)女性,男性增加冠心病發(fā)生的風(fēng)險(xiǎn),差異具有統(tǒng)計(jì)學(xué)意義(OR=6.24,95%CI 2.50-15.56, P<0.001);高血壓增加冠心病的風(fēng)險(xiǎn),差異具有統(tǒng)計(jì)學(xué)意義(OR=10.81,95%CI 4.15-28.20, P<0.001)。特別提醒:Logistic回歸OR值不能代表風(fēng)險(xiǎn)增加的準(zhǔn)確倍數(shù),因此文字描述,切勿說相對(duì)女性,男性增加冠心病風(fēng)險(xiǎn)5.24倍的說法。最后提醒:要學(xué)習(xí)本推文的完全對(duì)應(yīng)的課程視頻,請(qǐng)發(fā)送關(guān)鍵詞“打卡”入群高校公益免費(fèi)課程群來學(xué)習(xí)吧。-本講結(jié)束- 本公眾號(hào)作為醫(yī)學(xué)數(shù)據(jù)分析公眾號(hào),提供一些免費(fèi)醫(yī)學(xué)統(tǒng)計(jì)學(xué)學(xué)習(xí)資源下載,歡迎點(diǎn)擊下載。2021年,我們召集了一批富有經(jīng)驗(yàn)的高校專業(yè)隊(duì)伍,著手舉行短期統(tǒng)計(jì)課程培訓(xùn)班。如果您有需求,不妨點(diǎn)擊查看:
|