小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

困擾很多人的一個(gè)問(wèn)題,數(shù)據(jù)缺失多少比例以內(nèi),方可填補(bǔ)?

 妙趣橫生統(tǒng)計(jì)學(xué) 2024-12-27 發(fā)布于江蘇

【浙中大鄭老師撰寫的”統(tǒng)計(jì)雜談“系列文章】

現(xiàn)在對(duì)醫(yī)學(xué)研究缺失數(shù)據(jù)填補(bǔ)的問(wèn)題,很多人都有了一定的思考,有缺失,還是要填補(bǔ),無(wú)論是臨床試驗(yàn)、調(diào)查研究,無(wú)論是前瞻性還是回顧性。

但我們都知道缺失數(shù)據(jù)填補(bǔ)不能隨便填,一個(gè)變量,過(guò)高比例的缺失,填回去也沒(méi)有價(jià)值。

如果這個(gè)變量的信息缺失比例高于多少,就不適合填補(bǔ)呢?10%、20%、30%???

這個(gè)星期,非常有意思,我看到了幾篇文章,居然有 多種種寫法,分別真的就是10、20、30%,甚至還有50%。

我們先簡(jiǎn)單看看原文是怎么描述的:

√文章一:剔除缺失數(shù)據(jù)超過(guò)10%的指標(biāo)

√文章二:缺失數(shù)據(jù)超過(guò)20%的變量被排除

√文章三:僅分析缺失比例小于30%的協(xié)變量

更有甚者,樣本中缺失值超過(guò) 50% 的特征被舍棄。

我認(rèn)為的合適處理方法

缺失值的存在不可避免,不同研究團(tuán)隊(duì)對(duì)此的處理略有不同。但是,如何正確處理缺失值至今沒(méi)有標(biāo)準(zhǔn),老鄭今天就簡(jiǎn)單說(shuō)一下自己的看法,主要談?wù)劶僭O(shè),數(shù)據(jù)是隨機(jī)缺失的機(jī)制下。

習(xí)慣上是說(shuō)20%以內(nèi)的缺失現(xiàn)象,可以填補(bǔ),但這個(gè)事情又得分幾種情況。

(1)如果是開(kāi)展因果推斷研究,分析原因變量與結(jié)局變量的因果關(guān)聯(lián)性,則我覺(jué)得過(guò)高的缺失是不合適的,20%以內(nèi)合適。

這里又分為兩種情況,
  • 如果你是采用傳統(tǒng)機(jī)械填補(bǔ)缺失,比如均值法、中位數(shù)法、末次或者基線隨訪轉(zhuǎn)結(jié)法,則20%都高了,我認(rèn)為10%以內(nèi)才行。
  • 如果是利用數(shù)據(jù)間關(guān)聯(lián)性填補(bǔ)的策略,比如多重填補(bǔ)法,則20%以內(nèi)或者附近,都可以。

(2)如果是開(kāi)展構(gòu)建預(yù)測(cè)模型的研究,無(wú)論是線性法還是非線性的機(jī)器學(xué)習(xí)方法,則對(duì)于缺失現(xiàn)象的容忍度要高,因?yàn)樗非蟮牟辉偈且蚬茢?,而是?gòu)建一個(gè)具有內(nèi)、外一致性的預(yù)測(cè)模型。

哪怕你缺失比例高于20%,你進(jìn)行填補(bǔ),只要建立的預(yù)測(cè)模型,在后續(xù)的外部驗(yàn)證分析中,能夠取得較高的一致性或者結(jié)果的穩(wěn)健性,那你的填補(bǔ)就是合理的。
  • 其實(shí),如果你的模型能夠有外部一致性,哪怕你建模的數(shù)據(jù)是全部是模擬產(chǎn)生的,直接造的,都行。
  • 所以缺失比例取決于你能否用合適的方法進(jìn)行填補(bǔ),并獲得可靠的模型。

我認(rèn)為,預(yù)測(cè)模型,缺失比例在30%的以內(nèi)變量都可以保留,都可以填補(bǔ),建議進(jìn)行外部驗(yàn)證,如果沒(méi)有,就拿完整病例數(shù)據(jù)作為外部驗(yàn)證分析。

當(dāng)然,你全部模擬產(chǎn)生、或者缺失比例過(guò)高而填補(bǔ)的數(shù)據(jù),容易失真。這樣是通不過(guò)驗(yàn)證性分析這關(guān)了。

個(gè)人觀點(diǎn),僅供參考。


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多