凝聚多方力量，利用臨床預(yù)測模型促進(jìn)科學(xué)發(fā)展

阮朝陽的圖書館 2020-11-16

展開全文

最近ATM刊登了一篇標(biāo)題為In-depth mining of clinical data: the construction of clinical prediction model with R的特別報(bào)告。這篇報(bào)告是由一系列構(gòu)建臨床預(yù)測模型的方法學(xué)文章組成的。我們饒有興致地閱讀了這篇由臨床醫(yī)生團(tuán)隊(duì)所寫的，長達(dá)96頁的報(bào)告。我們欣喜地看到，臨床醫(yī)生對統(tǒng)計(jì)和預(yù)測模型的關(guān)注，以及他們在臨床預(yù)測模型的開發(fā)和驗(yàn)證方面所具備的良好專業(yè)知識。

正如作者在文章中所述，如今研究人員可以接觸到大量數(shù)據(jù)，數(shù)據(jù)的可得性已不再是臨床研究領(lǐng)域的限制因素。但與此同時(shí)，大量數(shù)據(jù)亟需得到合理的分析和利用，統(tǒng)計(jì)分析能力的不足會導(dǎo)致多項(xiàng)研究無法按時(shí)完成，甚至無法進(jìn)行。如果臨床醫(yī)生能夠自己對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，研究效率將大大提高——至少從論文發(fā)表數(shù)量上來說，是這樣的。

為實(shí)現(xiàn)這一目標(biāo)，一篇對于臨床醫(yī)生來講通俗易通，且包含分析案例和實(shí)現(xiàn)方法（R語言代碼）的方法學(xué)文章的發(fā)表，正當(dāng)其時(shí)。這也是原文章的重要價(jià)值所在。作者特意從實(shí)用性的角度撰寫了這篇論文，使讀者可以快速獲得使用R語言的上手經(jīng)驗(yàn)，以及如何用它完成預(yù)測模型類論文中幾乎所有必要的分析。原文亦可作為初學(xué)者的入門指南，引導(dǎo)讀者了解臨床預(yù)測模型的開發(fā)和評估的完整過程。

統(tǒng)計(jì)學(xué)家總是對方法學(xué)論文極具批判性精神。我們建議，原文至少應(yīng)在以下幾個(gè)方面進(jìn)行改進(jìn)：

（1）第14頁的圖2展示了作者建議的研究流程。實(shí)際上，更具邏輯性的思考方式應(yīng)該是首先確定結(jié)局變量，然后根據(jù)結(jié)局變量尋找潛在的預(yù)測變量，而不應(yīng)顛倒順序。

（2）在第31頁和第63頁中，對有效的成對比較數(shù)的解釋是不準(zhǔn)確的。據(jù)我們所知，衡量生存結(jié)局的C統(tǒng)計(jì)量需要考慮數(shù)據(jù)的刪失情況（2-4）。另外，也無需在同一篇論文中重復(fù)完全相同的段落。在第27頁和第30頁中，作者引入判別能力的概念時(shí)，也出現(xiàn)了不必要的重復(fù)。

（3）報(bào)告中還缺少了一些很重要的內(nèi)容。例如，為什么在模型開發(fā)過程中需要進(jìn)行內(nèi)部驗(yàn)證，以及如何使用R語言進(jìn)行內(nèi)部驗(yàn)證。

（4）報(bào)告中使用的某些術(shù)語在臨床預(yù)測模型領(lǐng)域中并不常用，這可能導(dǎo)致在與其他科研人員（尤其是統(tǒng)計(jì)學(xué)家）交流時(shí)造成障礙。

（5）由于英語并非論文作者母語，論文中出現(xiàn)不流暢的語句也是情有可原的。但如能在發(fā)表前請專業(yè)人士進(jìn)行審閱，論文的質(zhì)量則會有很大程度的提高。

對于具有數(shù)據(jù)分析經(jīng)驗(yàn)或統(tǒng)計(jì)學(xué)背景的讀者而言，本文或許無法為他們提供足夠豐富的信息。如果讀者想對臨床預(yù)測模型領(lǐng)域有更深入的了解，我們推薦以下兩本經(jīng)典教材：Frank Harrell編著的《Regression Modeling Strategies: With Applications to Linear Models, Logistic Regression, and Survival Analysis》（5），以及另外一本與臨床預(yù)測模型更為相關(guān)的書，由Ewout Steyerberg編著的《Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating》（6）。

從報(bào)告的字里行間中，我感覺到，大多數(shù)臨床醫(yī)生認(rèn)為統(tǒng)計(jì)學(xué)家總是在說“等等，這個(gè)分析看起來有點(diǎn)問題”，但是，至于什么是正確的，統(tǒng)計(jì)學(xué)家從來沒有給出過明確的答案。這或許是因?yàn)?，統(tǒng)計(jì)學(xué)家擅長否定原假設(shè)，但卻無法證明原假設(shè)是正確的。當(dāng)然，這只是玩笑話。統(tǒng)計(jì)學(xué)家一直以來都在努力地防止統(tǒng)計(jì)方法的誤用和對分析結(jié)果的錯(cuò)誤闡釋。隨著對臨床預(yù)測模型需求的日益增長，這對統(tǒng)計(jì)學(xué)家來說無疑是新的機(jī)遇，也是新的挑戰(zhàn)。

我在加拿大魁北克市參加Cochrane年度會議的時(shí)候，當(dāng)一位資深科研人員得知我是統(tǒng)計(jì)學(xué)家時(shí)，他對我說：“你就是這個(gè)房間里的搖滾明星?！辈贿^以我的經(jīng)驗(yàn)，我卻不這樣認(rèn)為。我們更像是樂隊(duì)中的鼓手：每個(gè)人都能聽到鼓點(diǎn)（就如每個(gè)讀者都會閱讀論文中由統(tǒng)計(jì)學(xué)家提供的方法，表格，圖示，分析和結(jié)果），但是大多數(shù)時(shí)候觀眾是看不到鼓手的（統(tǒng)計(jì)學(xué)家是否獲得了與他們工作成果相符的榮譽(yù)？他們的姓名被列在了作者列表中的哪個(gè)位置？）。

統(tǒng)計(jì)學(xué)家可能不會致力于追求樂隊(duì)主唱的角色，但是他們確實(shí)想為臨床預(yù)測模型對方法學(xué)帶來的新挑戰(zhàn)發(fā)出自己的聲音。由統(tǒng)計(jì)學(xué)家和方法學(xué)家組成的課題組，在提高臨床預(yù)測模型的研究質(zhì)量方面做出了許多努力。他們包括但不限于PROGnosis RESearch Strategy (PROGRESS) 合作組（7-10），Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis Or Diagnosis (TRIPOD) statements工作組(11)，以及STRATOS (STRengthening Analytical Thinking for Observational Studies) 發(fā)起者們 (12)。他們的貢獻(xiàn)都應(yīng)該得到認(rèn)可和贊賞。

對于很多臨床醫(yī)生而言，預(yù)測模型被看作是高級的臨床研究，因?yàn)榇祟愌芯啃枰玫礁鼜?fù)雜的統(tǒng)計(jì)方法和大量數(shù)據(jù)分析。但是，從統(tǒng)計(jì)學(xué)角度來說，事實(shí)或許并非如此。

最近，Bradley Efron，一位真正的“統(tǒng)計(jì)學(xué)搖滾明星”（13）在萊頓大學(xué)統(tǒng)計(jì)科學(xué)中心的成立儀式上做了一次演講，主題是他對于“預(yù)測易于估計(jì)，估計(jì)易于歸因”的洞見（14）。即使是一個(gè)弱分類器（weak learner）預(yù)測模型，也可以得到一個(gè)可接受的，甚至是良好的預(yù)測表現(xiàn)。作為聽眾之一的臨床預(yù)測模型領(lǐng)域的知名專家Ewout Steyerberg，對本次演講評論道：“新的預(yù)測算法影響了公眾對可預(yù)測性的認(rèn)知，而不是對科學(xué)的認(rèn)知。”

很多臨床預(yù)測模型是根據(jù)如下的配方生產(chǎn)的：
1個(gè)數(shù)據(jù)集+ 1個(gè)算法= 1個(gè)新的預(yù)測模型

有些稍好的研究使用2個(gè)數(shù)據(jù)集（1個(gè)用于模型開發(fā)，1個(gè)用于模型驗(yàn)證）和N個(gè)算法（事實(shí)上我并不認(rèn)為后者必然會使研究變得更好）。由于新的臨床預(yù)測模型的不斷涌現(xiàn)，舊的模型似乎只能有很短的保質(zhì)期，但事實(shí)卻是新的臨床預(yù)測模型可能永遠(yuǎn)都沒有上架的機(jī)會。

我們是在生產(chǎn)學(xué)術(shù)垃圾嗎？我們該如何做才能提高臨床預(yù)測模型的研究質(zhì)量呢？

與其他領(lǐng)域的領(lǐng)先實(shí)踐相比，臨床預(yù)測模型對質(zhì)量的要求并不是最嚴(yán)格的。預(yù)測模型早已廣泛應(yīng)用于銀行，保險(xiǎn)公司，以及政府經(jīng)濟(jì)研究機(jī)構(gòu)。在這些領(lǐng)域中，預(yù)測模型會受到模型驗(yàn)證師，模型風(fēng)險(xiǎn)審核師，以及監(jiān)管者的嚴(yán)格監(jiān)督。如果上述領(lǐng)域的模型開發(fā)人員按照當(dāng)前臨床預(yù)測模型的慣用方法來構(gòu)建他們的模型并投入實(shí)際應(yīng)用，模型的質(zhì)量甚至都不能滿足公司的內(nèi)部標(biāo)準(zhǔn)和合規(guī)性要求，更不用說將它們作為高級研究成果發(fā)表在頂級期刊上了。

高質(zhì)量的臨床預(yù)測模型研究不僅意味著更大的樣本量，運(yùn)用合適的統(tǒng)計(jì)分析方法和良好的模型表現(xiàn)，科研人員還應(yīng)更加關(guān)注臨床預(yù)測模型的理念健全性，并且研究成果應(yīng)對臨床實(shí)踐產(chǎn)生一定的影響。

模型表現(xiàn)（即預(yù)測準(zhǔn)確性）通常被視為判斷臨床預(yù)測模型質(zhì)量的金標(biāo)準(zhǔn)。但是，臨床預(yù)測模型的研究不應(yīng)被當(dāng)作Kaggle競賽，它必須服務(wù)于科學(xué)。因此，我們鼓勵(lì)相關(guān)科研人員，尤其是臨床醫(yī)生，將更多的精力放在臨床預(yù)測模型的理念健全性上。

理念健全性至少應(yīng)包括以下幾個(gè)方面：模型的設(shè)計(jì)應(yīng)具有邏輯性和透明性；構(gòu)建模型所依據(jù)的生理學(xué)或病理學(xué)機(jī)制應(yīng)是正確的；模型方法論應(yīng)與同一領(lǐng)域的其他模型保持一定程度的一致性。但現(xiàn)實(shí)情況是，即使在模型外部驗(yàn)證的過程中，科研人員也很少評估臨床預(yù)測模型的理念健全性。我們希望可以通過對臨床預(yù)測模型的系統(tǒng)評價(jià)和meta分析來解決這個(gè)問題（15），這類研究正在快速地發(fā)展。

提高臨床預(yù)測模型的研究質(zhì)量需要臨床醫(yī)生，方法學(xué)家，統(tǒng)計(jì)學(xué)家和其他利益相關(guān)者的共同努力。讓我們在臨床預(yù)測模型研究中更緊密地合作！

參考文獻(xiàn)

詳見本文原文：Ann Transl Med 2020;8(4):70. doi: 10.21037/atm.2019.11.10

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：阮朝陽的圖書館 > 《臨床預(yù)測模型》

舉報(bào)/認(rèn)領(lǐng)