在前期推送的內(nèi)容《想將連續(xù)變量轉(zhuǎn)化為啞變量納入回歸模型,咋分組?》中,我們向大家介紹了在回歸模型中引入連續(xù)型變量時,除了以其原始變量的形式納入到模型中外,有時還需要考慮到實際的分析需求,將其按照一定的分組切點轉(zhuǎn)換為啞變量,例如二分類分組、等分位分組、等距分組、臨床界值分組,或者按照自己的“Free Style”進(jìn)行分組等多種轉(zhuǎn)換形式。 但是在介紹以上的轉(zhuǎn)換形式時,我們主要針對的是將連續(xù)型變量轉(zhuǎn)化為分類變量,以啞變量的形式引入模型。 而作為連續(xù)型變量,本身就自帶七十二變的屬性,因此本期內(nèi)容我們繼續(xù)來向大家介紹一下,在構(gòu)建回歸模型時,連續(xù)型變量還有哪些其他神奇的變化形式。 1、正態(tài)轉(zhuǎn)換 首先要提到的就是較為常見的正態(tài)轉(zhuǎn)換形式。我們都知道,在構(gòu)建線性回歸時,需要滿足一定的前提條件,其中有一項即要求變量需服從正態(tài)分布或者近似正態(tài)分布,如果不滿足正態(tài)分布的條件,往往會導(dǎo)致構(gòu)建的回歸模型產(chǎn)生一定的偏倚,因此對于連續(xù)型變量在事前進(jìn)行正態(tài)性檢驗是十分必要的。 我們在前期推送的文章《判斷數(shù)據(jù)正態(tài)分布的超多方法》中,介紹了多種正態(tài)性檢驗的方法,包括利用數(shù)據(jù)分布的參數(shù)(偏度值、峰度值)進(jìn)行判斷,利用數(shù)據(jù)分布的圖形(直方圖,P-P圖,Q-Q圖)進(jìn)行判斷,或者借助非參數(shù)檢驗的方法(Shapiro-Wilk檢驗,Kolmogorov-Smirnov檢驗)來幫助判斷。需要復(fù)習(xí)的同學(xué)可以戳上文連接。 那么,當(dāng)我們的數(shù)據(jù)資料分布呈現(xiàn)非正態(tài)時,需要怎么辦呢?此時,我們可以將原始的連續(xù)型變量作某種函數(shù)的轉(zhuǎn)換,使偏態(tài)資料正態(tài)化,從而滿足回歸模型構(gòu)建的需要。 根據(jù)數(shù)據(jù)本身分布形態(tài)的不同,我們可以采用不同的正態(tài)轉(zhuǎn)換函數(shù),例如對原始連續(xù)型變量開平方取根號值(Square Root)、取自然對數(shù)(Ln X)、取以10為底的對數(shù)(Log10 X)、取倒數(shù)(1 / X)等等,具體的操作方法詳見前期推送的文章《正態(tài)轉(zhuǎn)換的多種方法》。 當(dāng)然,需要注意的是,如果對變量進(jìn)行了正態(tài)轉(zhuǎn)換,在結(jié)果中對回歸模型參數(shù)進(jìn)行解釋時,應(yīng)按照轉(zhuǎn)換后的變量給予解釋,或者可以根據(jù)轉(zhuǎn)換時使用的函數(shù)關(guān)系,倒推原始自變量對原始因變量的效應(yīng)大小。 例如JACC期刊2016年發(fā)表的一篇文章[1],作者在統(tǒng)計分析時首先對數(shù)據(jù)進(jìn)行了正態(tài)性檢驗(原文表述:Normality of continuous variables was assessed by the Kolmogorov-Smirnov test)。 結(jié)果顯示troponin I、NT-proBNP、corin等因素呈現(xiàn)偏態(tài)分布的特征,因此在描述研究對象基線信息時作者也采用了中位數(shù)(上四分位數(shù),下四分位數(shù))的表達(dá)形式,例如Troponin I的中位水平為4.5(1.8,12.6)ng/ml。 隨后作者采用多重線性回歸的方法,來分析影響corin水平的因素(原文描述: Multiple linear regression analysis was applied to determine factors influencing corin levels. Levels of troponin I, NT-proBNP, and corin were normalized by log10 transformation) 即研究人員首先對troponin I、NT-proBNP、corin等因素取log10轉(zhuǎn)化為正態(tài)分布,然后再帶入到多重線性回歸中進(jìn)行分析。(結(jié)果作者未在文中呈現(xiàn)) 隨后作者又進(jìn)行了Cox回歸模型分析,雖然Cox回歸對自變量的類型沒有特殊的要求,但是為了與多重線性回歸中變量引入的形式保持一致,故作者對于troponin I、NT-proBNP、corin等因素依然采用log10轉(zhuǎn)化后的形式納入模型,結(jié)果見下表所示。 2、每變化固定增量的轉(zhuǎn)換形式 在前期內(nèi)容《想將連續(xù)變量轉(zhuǎn)化為啞變量納入回歸模型,咋分組?》中,我們介紹到若直接將原始的連續(xù)型變量引入模型,回歸參數(shù)被解釋為每變化一個單位水平所引起的因變量的變化效應(yīng),但有時這種變化效應(yīng)可能是很微弱的。 因此,我們可以將連續(xù)型自變量以一個設(shè)定好的固定間距,采用等距分組的方式,將其轉(zhuǎn)換為啞變量,然后再引入到模型中進(jìn)行分析。這樣分組的好處在于,分析結(jié)果在實際的臨床應(yīng)用中易于患者理解和應(yīng)用。 例如我們納入的研究人群年齡為31-80歲,我們可以按照年齡每10歲一組進(jìn)行劃分,分為31-40、41-50、51-60、61-70、71-80共5個亞組,設(shè)定4個啞變量納入模型進(jìn)行分析。 但是如果某一因素的變異范圍很大,此時按照上述方法進(jìn)行分組時,就可能會被分為很多亞組,需要設(shè)定很多個啞變量納入模型,從而使得模型顯得“臃腫”;又或者數(shù)據(jù)的變異范圍很小,無法再進(jìn)行更小單位的分組,此時就不再適合將其轉(zhuǎn)化為啞變量的形式。 那么,如果遇到這種情況,應(yīng)該對連續(xù)型變量進(jìn)行怎樣的處理呢?我們再來看一篇JACC期刊2016年發(fā)表的一篇文章[2]。 該研究Cox回歸結(jié)果如下表所示,我們發(fā)現(xiàn)模型中的多數(shù)變量,作者都使用到了“per”這樣一個詞,例如per 5% change、per 0.1 U、per 100 ml/min,等等,這里的“per + 變化間距 + 單位”的形式,表示的即為我們要介紹的,將連續(xù)型變量按照每變化固定增量的形式進(jìn)行轉(zhuǎn)換。
具體舉其中2個因素為例來進(jìn)行說明。例如Oxygen uptake efficiency slope,在研究人群中的平均水平為1655 U,5%-95%人群的變化范圍為846-2800 U,由此可見數(shù)據(jù)的變化范圍是非常大的。此時如果帶入原始連續(xù)型變量,每增加1U,回歸模型的HR值可能就會很小,無法體現(xiàn)實際的臨床意義;如果轉(zhuǎn)換為啞變量,又可能會被劃分成很多組。 因此,作者將該變量以每增加100 U的形式帶入到模型中,評價的是Oxygen uptake efficiency slope每增加100 U時,研究人群的死亡風(fēng)險會下降9%(HR=0.91,95% CI:0.89-0.93)。 再例如Peak RER這個因素,研究人群的平均水平為1.08 U,5%-95%人群的變化范圍為0.91-1.27 U,數(shù)據(jù)波動又非常小。此時如果帶入原始連續(xù)型變量,每增加1U,回歸模型的HR值可能就會很大,而且在臨床意義的解釋上,由于人群中的數(shù)值范圍很小,直接變化1U的個體情況并不常見,無法在臨床大部分病人中得到廣泛應(yīng)用。如果轉(zhuǎn)換為啞變量,可能也無法再進(jìn)行細(xì)分。 因此,作者將該變量以每增加0.1 U的形式帶入到模型中,考察的是Peak RER每增加0.1U時,研究人群的死亡風(fēng)險會下降6%(HR=0.94,95% CI:0.86-1.04),但無統(tǒng)計學(xué)顯著性。 理解了這種變化形式的意義,那么在實際的統(tǒng)計分析中,如何實現(xiàn)這種形式的轉(zhuǎn)換呢?其實很簡單,假如,如果我們想要把該因素由每增加1個單位變?yōu)槊吭黾?00個單位(變化幅度增大100倍),只需要將該原始變量除以100代入模型即可;同樣,如果我們想要把該因素由每增加1個單位變?yōu)槊吭黾?.1個單位(變化幅度縮小10倍),只需要將該原始變量乘以10即可。 3、每變化一個標(biāo)準(zhǔn)差的轉(zhuǎn)換形式 上面我們介紹了每變化固定增量的轉(zhuǎn)換形式,例如每變化0.1、10或100個單位,但是我們常常在閱讀文獻(xiàn)時,還會見到另外一種變化形式,即自變量每變化一個標(biāo)準(zhǔn)差(per SD increase)的形式。那么這種變化形式又是什么從哪里冒出來的呢? 我們再來看一篇JACC期刊2016年發(fā)表的一篇文章[3](好吧,原諒小咖獨寵JACC,下次努力爭取做到雨露均沾),Cox回歸結(jié)果如下表所示。 我們發(fā)現(xiàn),對于年齡和收縮壓,作者都采用了每增加1個標(biāo)準(zhǔn)差的形式納入到回歸模型中,即年齡每增加1個標(biāo)準(zhǔn)差,動脈粥樣硬化性心臟病(ASCVD)的發(fā)病風(fēng)險增加70%(HR=1.70,95% CI:1.32-2.19);收縮壓每增加1個標(biāo)準(zhǔn)差,ASCVD的發(fā)病風(fēng)險增加25%(HR=1.25,95% CI:1.05-1.49)。 這里將連續(xù)型變量轉(zhuǎn)換為per SD increase的形式帶入模型中,又有什么特殊的意義么?
我們都知道,標(biāo)準(zhǔn)差是描述一個變量的所有觀察值與均數(shù)的平均離散程度的指標(biāo),對于計量單位相同的變量,標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離散程度就越大。在臨床實踐中,我們常用標(biāo)準(zhǔn)差來計算醫(yī)學(xué)參考值的范圍。 假定測定的指標(biāo)服從正態(tài)分布,根據(jù)正態(tài)分布曲線下面積可知,均值 ± SD區(qū)間內(nèi)的面積為68.27%,均值 ± 1.96 SD區(qū)間內(nèi)的面積為95%,均值 ± 2.58 SD區(qū)間內(nèi)的面積為99%,也就是說在大約4個標(biāo)準(zhǔn)差的范圍內(nèi),數(shù)據(jù)已經(jīng)基本覆蓋了95% 的樣本。 因此,特別是對于罕見的非常規(guī)新指標(biāo),每增加1個單位時的臨床意義并不是很明確的情況下,可以將其轉(zhuǎn)換為每增加1個SD的形式納入回歸模型中,由此可以指導(dǎo)患者根據(jù)自身實際的測量結(jié)果,看看自己是處于人群分布水平的幾個標(biāo)準(zhǔn)差范圍內(nèi),進(jìn)而來評估其對應(yīng)的風(fēng)險會改變多少。 同樣,實現(xiàn)這種形式的轉(zhuǎn)換也非常簡單,可以通過以下兩種方式: 1、在構(gòu)建回歸模型之前,將原始的連續(xù)型變量進(jìn)行標(biāo)準(zhǔn)化處理,再將標(biāo)準(zhǔn)化后的自變量帶入到回歸模型中,所得到的回歸系數(shù)即為自變量每增加1個SD時對因變量的影響(注意這里只對自變量進(jìn)行標(biāo)準(zhǔn)化處理)。 2、如果未對原始變量進(jìn)行標(biāo)準(zhǔn)化處理,也可以直接把原始變量帶入到模型中,得出未標(biāo)化的回歸系數(shù)(Unstandardized Coefficients),然后再乘以該自變量的標(biāo)準(zhǔn)差,此時即為自變量每增加1個SD時對因變量的影響。 不過細(xì)心的同學(xué)會發(fā)現(xiàn),SPSS在輸出未標(biāo)化的回歸系數(shù)(Unstandardized Coefficients)的同時也會輸出標(biāo)準(zhǔn)化回歸系數(shù)(Standardized Coefficients),那么這個標(biāo)準(zhǔn)化回歸系數(shù)又是什么鬼,它與上述未標(biāo)化的回歸系數(shù),以及每增加1個SD的回歸系數(shù)又有什么區(qū)別呢,我們將在以后的內(nèi)容中向大家進(jìn)行介紹,敬請期待! 參考文獻(xiàn): [1] J Am Coll Cardiol. 2016 May 3;67(17):2008-14 [2] J Am Coll Cardiol. 2016 Feb 23;67(7):780-9 [3] J Am Coll Cardiol. 2016 May 31;67(21):2480-7 |
|