【浙中大鄭老師撰寫的”統(tǒng)計(jì)雜談“系列文章】 現(xiàn)在對(duì)醫(yī)學(xué)研究缺失數(shù)據(jù)填補(bǔ)的問(wèn)題,很多人都有了一定的思考,有缺失,還是要填補(bǔ),無(wú)論是臨床試驗(yàn)、調(diào)查研究,無(wú)論是前瞻性還是回顧性。 但我們都知道缺失數(shù)據(jù)填補(bǔ)不能隨便填,一個(gè)變量,過(guò)高比例的缺失,填回去也沒(méi)有價(jià)值。 如果這個(gè)變量的信息缺失比例高于多少,就不適合填補(bǔ)呢?10%、20%、30%??? 這個(gè)星期,非常有意思,我看到了幾篇文章,居然有 多種種寫法,分別真的就是10、20、30%,甚至還有50%。 我們先簡(jiǎn)單看看原文是怎么描述的: √文章一:剔除缺失數(shù)據(jù)超過(guò)10%的指標(biāo) √文章二:缺失數(shù)據(jù)超過(guò)20%的變量被排除 √文章三:僅分析缺失比例小于30%的協(xié)變量 更有甚者,樣本中缺失值超過(guò) 50% 的特征被舍棄。 我認(rèn)為的合適處理方法 缺失值的存在不可避免,不同研究團(tuán)隊(duì)對(duì)此的處理略有不同。但是,如何正確處理缺失值至今沒(méi)有標(biāo)準(zhǔn),老鄭今天就簡(jiǎn)單說(shuō)一下自己的看法,主要談?wù)劶僭O(shè),數(shù)據(jù)是隨機(jī)缺失的機(jī)制下。 習(xí)慣上是說(shuō)20%以內(nèi)的缺失現(xiàn)象,可以填補(bǔ),但這個(gè)事情又得分幾種情況。 (1)如果是開(kāi)展因果推斷研究,分析原因變量與結(jié)局變量的因果關(guān)聯(lián)性,則我覺(jué)得過(guò)高的缺失是不合適的,20%以內(nèi)合適。
(2)如果是開(kāi)展構(gòu)建預(yù)測(cè)模型的研究,無(wú)論是線性法還是非線性的機(jī)器學(xué)習(xí)方法,則對(duì)于缺失現(xiàn)象的容忍度要高,因?yàn)樗非蟮牟辉偈且蚬茢?,而是?gòu)建一個(gè)具有內(nèi)、外一致性的預(yù)測(cè)模型。
我認(rèn)為,預(yù)測(cè)模型,缺失比例在30%的以內(nèi)變量都可以保留,都可以填補(bǔ),建議進(jìn)行外部驗(yàn)證,如果沒(méi)有,就拿完整病例數(shù)據(jù)作為外部驗(yàn)證分析。 當(dāng)然,你全部模擬產(chǎn)生、或者缺失比例過(guò)高而填補(bǔ)的數(shù)據(jù),容易失真。這樣是通不過(guò)驗(yàn)證性分析這關(guān)了。 個(gè)人觀點(diǎn),僅供參考。 |
|
來(lái)自: 妙趣橫生統(tǒng)計(jì)學(xué) > 《待分類》