回歸模型中引入連續(xù)變量，還有哪些玩法？

醫(yī)學(xué)院的石頭 2018-01-16

展開全文

在前期推送的內(nèi)容《想將連續(xù)變量轉(zhuǎn)化為啞變量納入回歸模型，咋分組？》中，我們向大家介紹了在回歸模型中引入連續(xù)型變量時，除了以其原始變量的形式納入到模型中外，有時還需要考慮到實際的分析需求，將其按照一定的分組切點轉(zhuǎn)換為啞變量，例如二分類分組、等分位分組、等距分組、臨床界值分組，或者按照自己的“Free Style”進(jìn)行分組等多種轉(zhuǎn)換形式。

但是在介紹以上的轉(zhuǎn)換形式時，我們主要針對的是將連續(xù)型變量轉(zhuǎn)化為分類變量，以啞變量的形式引入模型。

而作為連續(xù)型變量，本身就自帶七十二變的屬性，因此本期內(nèi)容我們繼續(xù)來向大家介紹一下，在構(gòu)建回歸模型時，連續(xù)型變量還有哪些其他神奇的變化形式。

1、正態(tài)轉(zhuǎn)換

首先要提到的就是較為常見的正態(tài)轉(zhuǎn)換形式。我們都知道，在構(gòu)建線性回歸時，需要滿足一定的前提條件，其中有一項即要求變量需服從正態(tài)分布或者近似正態(tài)分布，如果不滿足正態(tài)分布的條件，往往會導(dǎo)致構(gòu)建的回歸模型產(chǎn)生一定的偏倚，因此對于連續(xù)型變量在事前進(jìn)行正態(tài)性檢驗是十分必要的。

我們在前期推送的文章《判斷數(shù)據(jù)正態(tài)分布的超多方法》中，介紹了多種正態(tài)性檢驗的方法，包括利用數(shù)據(jù)分布的參數(shù)（偏度值、峰度值）進(jìn)行判斷，利用數(shù)據(jù)分布的圖形（直方圖，P-P圖，Q-Q圖）進(jìn)行判斷，或者借助非參數(shù)檢驗的方法（Shapiro-Wilk檢驗，Kolmogorov-Smirnov檢驗）來幫助判斷。需要復(fù)習(xí)的同學(xué)可以戳上文連接。

那么，當(dāng)我們的數(shù)據(jù)資料分布呈現(xiàn)非正態(tài)時，需要怎么辦呢？此時，我們可以將原始的連續(xù)型變量作某種函數(shù)的轉(zhuǎn)換，使偏態(tài)資料正態(tài)化，從而滿足回歸模型構(gòu)建的需要。

根據(jù)數(shù)據(jù)本身分布形態(tài)的不同，我們可以采用不同的正態(tài)轉(zhuǎn)換函數(shù)，例如對原始連續(xù)型變量開平方取根號值（Square Root）、取自然對數(shù)（Ln X）、取以10為底的對數(shù)（Log10 X）、取倒數(shù)（1 / X）等等，具體的操作方法詳見前期推送的文章《正態(tài)轉(zhuǎn)換的多種方法》。

當(dāng)然，需要注意的是，如果對變量進(jìn)行了正態(tài)轉(zhuǎn)換，在結(jié)果中對回歸模型參數(shù)進(jìn)行解釋時，應(yīng)按照轉(zhuǎn)換后的變量給予解釋，或者可以根據(jù)轉(zhuǎn)換時使用的函數(shù)關(guān)系，倒推原始自變量對原始因變量的效應(yīng)大小。

例如JACC期刊2016年發(fā)表的一篇文章^[1]，作者在統(tǒng)計分析時首先對數(shù)據(jù)進(jìn)行了正態(tài)性檢驗（原文表述：Normality of continuous variables was assessed by the Kolmogorov-Smirnov test）。

結(jié)果顯示troponin I、NT-proBNP、corin等因素呈現(xiàn)偏態(tài)分布的特征，因此在描述研究對象基線信息時作者也采用了中位數(shù)（上四分位數(shù)，下四分位數(shù)）的表達(dá)形式，例如Troponin I的中位水平為4.5（1.8，12.6）ng/ml。

隨后作者采用多重線性回歸的方法，來分析影響corin水平的因素（原文描述： Multiple linear regression analysis was applied to determine factors influencing corin levels. Levels of troponin I, NT-proBNP, and corin were normalized by log10 transformation）

即研究人員首先對troponin I、NT-proBNP、corin等因素取log10轉(zhuǎn)化為正態(tài)分布，然后再帶入到多重線性回歸中進(jìn)行分析。（結(jié)果作者未在文中呈現(xiàn)）

隨后作者又進(jìn)行了Cox回歸模型分析，雖然Cox回歸對自變量的類型沒有特殊的要求，但是為了與多重線性回歸中變量引入的形式保持一致，故作者對于troponin I、NT-proBNP、corin等因素依然采用log10轉(zhuǎn)化后的形式納入模型，結(jié)果見下表所示。

2、每變化固定增量的轉(zhuǎn)換形式

在前期內(nèi)容《想將連續(xù)變量轉(zhuǎn)化為啞變量納入回歸模型，咋分組？》中，我們介紹到若直接將原始的連續(xù)型變量引入模型，回歸參數(shù)被解釋為每變化一個單位水平所引起的因變量的變化效應(yīng)，但有時這種變化效應(yīng)可能是很微弱的。

因此，我們可以將連續(xù)型自變量以一個設(shè)定好的固定間距，采用等距分組的方式，將其轉(zhuǎn)換為啞變量，然后再引入到模型中進(jìn)行分析。這樣分組的好處在于，分析結(jié)果在實際的臨床應(yīng)用中易于患者理解和應(yīng)用。

例如我們納入的研究人群年齡為31-80歲，我們可以按照年齡每10歲一組進(jìn)行劃分，分為31-40、41-50、51-60、61-70、71-80共5個亞組，設(shè)定4個啞變量納入模型進(jìn)行分析。

但是如果某一因素的變異范圍很大，此時按照上述方法進(jìn)行分組時，就可能會被分為很多亞組，需要設(shè)定很多個啞變量納入模型，從而使得模型顯得“臃腫”；又或者數(shù)據(jù)的變異范圍很小，無法再進(jìn)行更小單位的分組，此時就不再適合將其轉(zhuǎn)化為啞變量的形式。

那么，如果遇到這種情況，應(yīng)該對連續(xù)型變量進(jìn)行怎樣的處理呢？我們再來看一篇JACC期刊2016年發(fā)表的一篇文章^[2]。

該研究Cox回歸結(jié)果如下表所示，我們發(fā)現(xiàn)模型中的多數(shù)變量，作者都使用到了“per”這樣一個詞，例如per 5% change、per 0.1 U、per 100 ml/min，等等，這里的“per + 變化間距 + 單位”的形式，表示的即為我們要介紹的，將連續(xù)型變量按照每變化固定增量的形式進(jìn)行轉(zhuǎn)換。

具體舉其中2個因素為例來進(jìn)行說明。例如Oxygen uptake efficiency slope，在研究人群中的平均水平為1655 U，5%-95%人群的變化范圍為846-2800 U，由此可見數(shù)據(jù)的變化范圍是非常大的。此時如果帶入原始連續(xù)型變量，每增加1U，回歸模型的HR值可能就會很小，無法體現(xiàn)實際的臨床意義；如果轉(zhuǎn)換為啞變量，又可能會被劃分成很多組。

因此，作者將該變量以每增加100 U的形式帶入到模型中，評價的是Oxygen uptake efficiency slope每增加100 U時，研究人群的死亡風(fēng)險會下降9%（HR=0.91，95% CI：0.89-0.93）。

再例如Peak RER這個因素，研究人群的平均水平為1.08 U，5%-95%人群的變化范圍為0.91-1.27 U，數(shù)據(jù)波動又非常小。此時如果帶入原始連續(xù)型變量，每增加1U，回歸模型的HR值可能就會很大，而且在臨床意義的解釋上，由于人群中的數(shù)值范圍很小，直接變化1U的個體情況并不常見，無法在臨床大部分病人中得到廣泛應(yīng)用。如果轉(zhuǎn)換為啞變量，可能也無法再進(jìn)行細(xì)分。

因此，作者將該變量以每增加0.1 U的形式帶入到模型中，考察的是Peak RER每增加0.1U時，研究人群的死亡風(fēng)險會下降6%（HR=0.94，95% CI：0.86-1.04），但無統(tǒng)計學(xué)顯著性。

理解了這種變化形式的意義，那么在實際的統(tǒng)計分析中，如何實現(xiàn)這種形式的轉(zhuǎn)換呢？其實很簡單，假如，如果我們想要把該因素由每增加1個單位變?yōu)槊吭黾?00個單位（變化幅度增大100倍），只需要將該原始變量除以100代入模型即可；同樣，如果我們想要把該因素由每增加1個單位變?yōu)槊吭黾?.1個單位（變化幅度縮小10倍），只需要將該原始變量乘以10即可。

3、每變化一個標(biāo)準(zhǔn)差的轉(zhuǎn)換形式

上面我們介紹了每變化固定增量的轉(zhuǎn)換形式，例如每變化0.1、10或100個單位，但是我們常常在閱讀文獻(xiàn)時，還會見到另外一種變化形式，即自變量每變化一個標(biāo)準(zhǔn)差（per SD increase）的形式。那么這種變化形式又是什么從哪里冒出來的呢？

我們再來看一篇JACC期刊2016年發(fā)表的一篇文章^[3]（好吧，原諒小咖獨寵JACC，下次努力爭取做到雨露均沾），Cox回歸結(jié)果如下表所示。

我們發(fā)現(xiàn)，對于年齡和收縮壓，作者都采用了每增加1個標(biāo)準(zhǔn)差的形式納入到回歸模型中，即年齡每增加1個標(biāo)準(zhǔn)差，動脈粥樣硬化性心臟病（ASCVD）的發(fā)病風(fēng)險增加70%（HR=1.70，95% CI：1.32-2.19）；收縮壓每增加1個標(biāo)準(zhǔn)差，ASCVD的發(fā)病風(fēng)險增加25%（HR=1.25，95% CI：1.05-1.49）。

這里將連續(xù)型變量轉(zhuǎn)換為per SD increase的形式帶入模型中，又有什么特殊的意義么？

我們都知道，標(biāo)準(zhǔn)差是描述一個變量的所有觀察值與均數(shù)的平均離散程度的指標(biāo)，對于計量單位相同的變量，標(biāo)準(zhǔn)差越大，數(shù)據(jù)的離散程度就越大。在臨床實踐中，我們常用標(biāo)準(zhǔn)差來計算醫(yī)學(xué)參考值的范圍。

假定測定的指標(biāo)服從正態(tài)分布，根據(jù)正態(tài)分布曲線下面積可知，均值 ± SD區(qū)間內(nèi)的面積為68.27%，均值 ± 1.96 SD區(qū)間內(nèi)的面積為95%，均值 ± 2.58 SD區(qū)間內(nèi)的面積為99%，也就是說在大約4個標(biāo)準(zhǔn)差的范圍內(nèi)，數(shù)據(jù)已經(jīng)基本覆蓋了95% 的樣本。

因此，特別是對于罕見的非常規(guī)新指標(biāo)，每增加1個單位時的臨床意義并不是很明確的情況下，可以將其轉(zhuǎn)換為每增加1個SD的形式納入回歸模型中，由此可以指導(dǎo)患者根據(jù)自身實際的測量結(jié)果，看看自己是處于人群分布水平的幾個標(biāo)準(zhǔn)差范圍內(nèi)，進(jìn)而來評估其對應(yīng)的風(fēng)險會改變多少。

同樣，實現(xiàn)這種形式的轉(zhuǎn)換也非常簡單，可以通過以下兩種方式：

1、在構(gòu)建回歸模型之前，將原始的連續(xù)型變量進(jìn)行標(biāo)準(zhǔn)化處理，再將標(biāo)準(zhǔn)化后的自變量帶入到回歸模型中，所得到的回歸系數(shù)即為自變量每增加1個SD時對因變量的影響（注意這里只對自變量進(jìn)行標(biāo)準(zhǔn)化處理）。

2、如果未對原始變量進(jìn)行標(biāo)準(zhǔn)化處理，也可以直接把原始變量帶入到模型中，得出未標(biāo)化的回歸系數(shù)（Unstandardized Coefficients），然后再乘以該自變量的標(biāo)準(zhǔn)差，此時即為自變量每增加1個SD時對因變量的影響。

不過細(xì)心的同學(xué)會發(fā)現(xiàn)，SPSS在輸出未標(biāo)化的回歸系數(shù)（Unstandardized Coefficients）的同時也會輸出標(biāo)準(zhǔn)化回歸系數(shù)（Standardized Coefficients），那么這個標(biāo)準(zhǔn)化回歸系數(shù)又是什么鬼，它與上述未標(biāo)化的回歸系數(shù)，以及每增加1個SD的回歸系數(shù)又有什么區(qū)別呢，我們將在以后的內(nèi)容中向大家進(jìn)行介紹，敬請期待！

參考文獻(xiàn)：

[1] J Am Coll Cardiol. 2016 May 3;67(17):2008-14

[2] J Am Coll Cardiol. 2016 Feb 23;67(7):780-9

[3] J Am Coll Cardiol. 2016 May 31;67(21):2480-7