很多人,對臨床預(yù)測模型的概念很模糊,你上網(wǎng)一查,都是各種專有名詞,然后告訴你已經(jīng)在臨床應(yīng)用很久了,很有用,各種牛逼的雜志都可以見到臨床預(yù)測模型的身影,在生信文章中更是普遍。 一通操作下來,你迷茫了,更加不知道臨床預(yù)測模型是什么東西了,感覺懂了,又感覺沒懂! 今天用通俗的語言來解釋什么是臨床預(yù)測模型,讀完后,你應(yīng)該真的懂了!
簡單理解臨床預(yù)測模型,初聽這個名字,或許會覺得很高大上,其實沒那么復(fù)雜,你可以理解成一種方法,這種方法可以預(yù)測一個人到底是有病還是沒病,或者預(yù)測一個人一段時間后會不會死,或者預(yù)測一個人的某種疾病會不會復(fù)發(fā),又或者是預(yù)測一個樣本到底是腫瘤還是正常組織...... 再直白一點,臨床預(yù)測模型是一個公式,根據(jù)這個公式,你提供一些基本信息,比如年齡、性別、體重、血紅蛋白量等(或者某個基因的表達(dá)量等),就可以計算出這個人到底是有病還是沒??! 目前很多疾病都需要做磁共振、做CT、病理才能確診,假如你發(fā)現(xiàn)了一個公式,只要驗個血,得到幾個生化指標(biāo),就能根據(jù)你的公式算出來這個人到底是有病還是沒??!這不比CT、磁共振、病理簡單多了?值得推廣。 所以,臨床預(yù)測模型的本質(zhì)是一種分類方法。通過這種方法,你可以對很多東西進(jìn)行分類,比如,生和死、有病和沒病、腫瘤和非腫瘤、復(fù)發(fā)和不復(fù)發(fā)等等。 既然是一種方法,那肯定就有準(zhǔn)確和不準(zhǔn)確,看名字也能知道,這只是一種預(yù)測,或者叫:猜(有根據(jù)的猜)! 如果你這種方法能和金標(biāo)準(zhǔn)相提并論,那說明你的方法很牛,如果恰好你的方法更加簡單方便、經(jīng)濟(jì)適用,那你的方法真是太厲害了,非常有希望成為新的金標(biāo)準(zhǔn)! 那如何評價你的方法好還是不好呢?這就是臨床預(yù)測模型的評價,通過各種指標(biāo)(后面會詳細(xì)介紹)、從各種不同的角度評價。 說了這么多,我怎么才能得到我的模型(或者叫方法)呢?這就是臨床預(yù)測模型的另一個主要內(nèi)容:臨床預(yù)測模型的建立。 前面說過,臨床預(yù)測模型本質(zhì)上就是一個公式而已!說個最簡單的,邏輯回歸(logistic),大家應(yīng)該都知道怎么構(gòu)建邏輯回歸吧?不就是自變量和因變量嗎。給你幾個自變量,一個二分類的因變量,大家通過SPSS點點點,就可以得到各個自變量的系數(shù),然后就能寫出邏輯回歸方程了。你的這個邏輯回歸方程,這就是一個臨床預(yù)測模型了!給你幾個自變量的值,根據(jù)這個方程,你就可以算出因變量的值,然后就可以分類了! 說到這里,相信你應(yīng)該明白很多了!但是這還不夠,你可能還聽過什么機(jī)器學(xué)習(xí)、lasso、隨機(jī)森林、支持向量機(jī)等等,別慌,這就是我們接下來要說的:臨床預(yù)測模型和機(jī)器學(xué)習(xí)的關(guān)系。 臨床預(yù)測模型和機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí),是不是聽上去也高大上,但是對于搞臨床的來說,不需要知道的太徹底,大概明白是什么就夠了。 邏輯回歸也是機(jī)器學(xué)習(xí)的一種,隨機(jī)森林、決策樹、支持向量機(jī)、lasso、嶺回歸、彈性網(wǎng)絡(luò)、xgboost等等,這些都是和邏輯回歸一樣,就是不同的方法而已! 學(xué)過醫(yī)學(xué)統(tǒng)計學(xué)的都知道(沒學(xué)過可能也知道),如果因變量是連續(xù)性變量,那么我們就用多元線性回歸,如果因變量是二分類變量,就用logistic回歸(分類)。回歸和分類,剛好就是機(jī)器學(xué)習(xí)的兩個主要任務(wù)。很多方法,比如隨機(jī)森林,既可以做回歸,又可以做分類,而且準(zhǔn)確度還很高,這就是為什么大家喜歡用其他方法的原因,主要是為了提高準(zhǔn)確性。 臨床預(yù)測模型,只是機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的應(yīng)用之一,回歸和分類,適用于各行各業(yè),所以在很多領(lǐng)域你都聽過機(jī)器學(xué)習(xí)這幾個字。此外,還有深度學(xué)習(xí)、人工智能等等,這些都可以簡單的理解為更加牛逼的方法! 這些不同的方法都有各自適合的場景,在合適的場景下才能得到最好的表現(xiàn),如何讓模型表現(xiàn)的更好,那就需要學(xué)習(xí)一些機(jī)器學(xué)習(xí)的基本知識了,這些東西在bilibili一搜一大堆,大家可以自行學(xué)習(xí),不過千萬不要太沉迷喲! 但是你一搜機(jī)器學(xué)習(xí)教程,出來的都是推薦你吳恩達(dá)、西瓜書什么的,我不推薦,這些東西不是給生物醫(yī)藥領(lǐng)域的人看的,你看這些,可能就是聽天書,畢竟很多醫(yī)學(xué)生,連高數(shù)都是不學(xué)的!我比較推薦statquest,b站也可以搜到,這是一個國外的生物統(tǒng)計教授的課程,他的風(fēng)格更適合我們! 臨床預(yù)測模型和統(tǒng)計學(xué)我們學(xué)過的醫(yī)學(xué)統(tǒng)計學(xué),在某些方面和機(jī)器學(xué)習(xí)是有交集的。比如,邏輯回歸、多元線性回歸,既是統(tǒng)計學(xué)方法,也是機(jī)器學(xué)習(xí)算法,這并不沖突,就像一個人在不同場合有不同身份一樣。 在談臨床預(yù)測模型時,我們可能是偏向于機(jī)器學(xué)習(xí)多一點的,畢竟用到的很多方法,都是來自于機(jī)器學(xué)習(xí)領(lǐng)域。 你可能見到在很多生信文章中,使用一個模型并沒有提前檢驗各種條件,直接就用了。但在醫(yī)學(xué)統(tǒng)計學(xué)中,很多方法都是有適用條件的,符合條件才能用。哪種才是正確的呢? 其實不用糾結(jié),別人能用你也能用,多看文章,你能發(fā)現(xiàn)各種用法,但是別人依然發(fā)了SCI,你也可以。如果非要說區(qū)別,這就涉及到先驗學(xué)派和后驗學(xué)派這些東西了,咱也不是很懂了,如果你有興趣,可以自己探索。如果就是為了發(fā)文章,那就別搞這些沒用的了,多看幾篇高分SCI,跟著里面的思路模仿吧! 讀到這里,你應(yīng)該大致了解臨床預(yù)測模型,不致于云里霧里了。 如果覺得這篇文章不錯,歡迎點贊、在看、轉(zhuǎn)發(fā),讓更多人看到;如果你還有疑問,也歡迎加入下面的交流群,繼續(xù)探討! |
|