這篇2020年發(fā)表在BMJ上的論文介紹了如何在開發(fā)臨床預測模型時 4步計算樣本量的方法 我們上一期介紹的列線圖文章就是應用了該方法進行樣本量計算 【列線圖優(yōu)選】7分列線圖看看預測胃癌患者發(fā)生異時性腹膜癌的風險 該方法已經開發(fā)為成熟的R包,因此我們對其論文進行介紹,并示范如何在列線圖研究中運用該方法進行樣本量估計。 由于該文章內容較多。因此分為上下兩部分。 本期主要內容為4步方法的原理介紹。 下一期為擴展案例即代碼示范。 本期內容確實比較難懂,不過由于小伙伴們真的應用該方法時需要設置一些參數(shù)。如何設置?具體考慮都是從理論部分來的。實際使用的時候可以根據(jù)自己的遇到的具體問題再來看理論里對應部分的介紹。 一起來學習吧! DOI: 10.1136/bmj.m441 計算開發(fā)臨床預測模型所需的樣本量 臨床預測模型旨在預測個體的結局,為醫(yī)療保健的診斷或預后提供信息。每年在醫(yī)學文獻中有數(shù)百個預測模型發(fā)表,但許多預測模型使用的數(shù)據(jù)集樣本量相對于參與者或結局事件的總數(shù)來說太小了。這可能導致預測不準確,從而導致錯誤的醫(yī)療保健決策。在本文中,作者就如何計算開發(fā)臨床預測模型所需的樣本量提供了指導。 總結要點 ·患者和醫(yī)療領域專業(yè)人員需要臨床預測模型來準確指導臨床決策; ·更大的樣本量有助于開發(fā)更穩(wěn)健的模型; ·數(shù)據(jù)應具有足夠好的質量并能代表目標人群和應用的場景; ·最好將所有可用數(shù)據(jù)用于模型開發(fā)(即避免數(shù)據(jù)拆分),并使用重采樣方法(例如bootstrapping)進行內部驗證; ·在為二分類型(binary)或生存數(shù)據(jù)類型(time-to-event)結局開發(fā)預測模型時,所需樣本量有一個眾所周知的經驗法則——確保每個預測變量有至少10個結局事件(event per variable = 10); ·然而,實際所需的樣本量取決于具體的情況。它不僅取決于與候選預測變量的數(shù)目,還取決于研究人群總數(shù)、研究人群中的結局事件發(fā)生比例(發(fā)生率)以及模型的預期預測性能; ·我們建議根據(jù)上述信息來設置調整要求的樣本量。這樣做的目的是最大限度地減少模型過度擬合的可能性,同時實現(xiàn)關鍵參數(shù)的精確估計; ·本文中的建議可以通過四個步驟完成,且適用于連續(xù)型(continuous)、二分類型(binary)或生存數(shù)據(jù)類型(time-to-event)的結局; ·Stata 或 R 中的 pmsampsize 包提供給研究人員應用本文建議的方法。 正文 在醫(yī)療保健中,人們需要臨床預測模型來為診斷和預后提供信息。眾所周知的例子包括 Wells 評分、QRISK、和Nottingham預后指數(shù)。此類模型允許醫(yī)療專業(yè)人員預測患者個體的結局大?。╫utcome value)、結局是否存在(診斷預測模型)、或結局在未來發(fā)展(預后預測模型)的風險。大多數(shù)預測模型使用回歸模型進行開發(fā),例如針對連續(xù)型結局(例如疼痛評分)的線性回歸、針對二分類型結局(例如存在或不存在子癇前期)的logistic回歸、或針對生存數(shù)據(jù)類型(time-to-event)的比例風險回歸模型(例如靜脈血栓栓塞的復發(fā))?;貧w建模后生成一個方程。該方程可基于多個預測因子的值,來預測個體的結局大小或結局風險。預測因子可能包括基本特征(例如年齡、體重、家族史和合并癥)、測量檢查(如血壓和生物標志物)、和影像學資料或其他檢查結果。 開發(fā)預測模型需要一個訓練數(shù)據(jù)集(development dataset),其中包含來自目標人群的個體樣本的數(shù)據(jù)。這些數(shù)據(jù)包括預測因子的值(在進行預測時可獲取的數(shù)據(jù))和結局事件的值。訓練集的樣本量必須足夠大,以開發(fā)出在應用于目標人群中的新個體時可靠的預測模型。然而,對于模型開發(fā)而言,多大的樣本量是足夠的尚不清楚。許多“經驗法則”(rules of thumb)被提出并進行爭論。這導致為旨在開發(fā)預測模型的研究執(zhí)行樣本量計算時的混亂。 在本文中,我們?yōu)橛嬎汩_發(fā)臨床預測模型所需的樣本量計算提供了實用指南。該指南基于我們最近的一系列方法論論文所撰寫。我們認為當前關于最小樣本量的經驗法則過于簡單化。我們概述了一種更科學的方法,來根據(jù)特定的參數(shù)設置來定制樣本量要求。本文闡述了我們對連續(xù)型、二分類型和生存數(shù)據(jù)類型結局事件研究的建議,并附帶了一些擴展。 超越10 EVP的經驗法則 在訓練集中,連續(xù)型結局事件的有效樣本量(effective sample size)由研究人群的總數(shù)決定。對于二分類型結局事件,有效樣本量通常被認為大約等于陽性結局事件數(shù)和陰性結局事件數(shù)中的最小值。生存數(shù)據(jù)類型結局的研究中,有效樣本量則通常被認為大致等于事件總數(shù)。在為二分類型結局事件或生存數(shù)據(jù)類型結局事件開發(fā)預測模型時,所需樣本量的經驗法則是確保對于考慮包含在預測模型方程中的每個預測變量至少有10個結局事件(即回歸方程中的每個 β 項)。這被廣泛稱為每個變量至少需要10個事件 (10 EPV;10 events per variable)。然而,“變量”一詞具有誤導性,因為某些預測因子實際上需要模型方程中的多個 β 項。例如,對于具有三個類別(例如,腫瘤等級 I、II 和 III)的多分類變量,需要兩個 β 項。另一個例子是對于連續(xù)型變量,可能需要兩個或多個 β 項來模擬該變量的非線性效應,例如年齡或血壓。另外,包含兩個或多個變量之間的相互作用也會增加模型中參數(shù)的數(shù)量。因此,由于模型通常具有比實際包含的變量更多的參數(shù),因此,最好應用每候選預測參數(shù)事件數(shù)(events per candidate predictor parameter,EPP)這個指標。Candidate這個詞很重要,因為模型過度擬合的程度受所考慮的參數(shù)總量影響,而不僅僅是包含在最終模型方程中的參數(shù)數(shù)量。 10 EPP 的規(guī)則可能因其簡單性而被廣泛提倡,并且它經常在文章、資金申請、模型開發(fā)方案中被用來進行樣本量估計。包括我們自己以前的研究也是如此。倡導該規(guī)則的最突出的工作來自 1990 年代進行的模擬研究,盡管這些工作實際上更多地關注預測效應估計的偏差和精確度,而不是開發(fā)模型時的風險預測的準確性。10 EPP 規(guī)則的充分性經常受到爭論。盡管該規(guī)則提供了一個有用的起點,相反的意見包括將 EPP 降低到 10 以下或將其增加到 15、20,甚至50。這些不一致的建議反映了所需的 EPP 實際上是具有場景特異性的,它不僅與候選預測參數(shù)相關事件的數(shù)量有關,也與參與人群總數(shù)、研究人群中結局事件的比例(發(fā)生率)以及模型的預期預測性能有關。這一發(fā)現(xiàn)并不奇怪,畢竟其他類型研究的樣本量計算也要考慮應用場景、并根據(jù)研究的設計和需要進行定制,例如干預性隨機試驗等。在連續(xù)型結局事件的樣本量計算中也提倡使用經驗規(guī)則,例如每個預測變量需要有兩個樣本量,但這些經驗規(guī)則與10 EPP有相同的問題。 樣本量計算要確保精準預測并最大程度減少過度擬合 van Smeden等人和Riley等人最近的工作描述了如何計算開發(fā)預測模型所需的樣本量,條件是用戶需要指定目標人群中的總體結局事件發(fā)生的風險或平均值、候選預測參數(shù)(candidate predictor parameter)的數(shù)量,以及就整體模型擬合 (R2) 而言的模型預期表現(xiàn)性能。這些作者的方法可以通過四步流程來實施。每一步都會進行樣本量計算,其中最大的樣本量就是所需的樣本量。我們描述了這四個步驟,并在圖中提供了每個步驟的更多技術細節(jié)來幫助非統(tǒng)計專業(yè)的讀者進行理解。 步驟一:多大的樣本量能夠對結局事件的總體風險或平均值進行精確估計? Step 1: What sample size will produce a precise estimate of the overall outcome risk or mean outcome value? 從根本上說,樣本量必須支持準確估計預測模型的截距,以確保模型可以準確預測結局事件的平均值(對于連續(xù)型結局事件)或總體的結局事件發(fā)生比例(對于二分類型結局事件或生存數(shù)據(jù)類型結局事件)。一個簡單的方法是計算在不包含預測變量的情況下(空模型)精確估計模型中的截距(在一個小的誤差范圍內)所需的樣本量。圖 1 顯示了對二分類型結局事件或生存數(shù)據(jù)類型結局事件進行的計算。我們通常建議將總體結局事件比例估計的誤差范圍設為≤0.05。例如,對于半數(shù)個體會發(fā)生的二分類型結局事件,需要至少385例的樣本量才能將總體結局事件比例的置信區(qū)間限制到0.45到0.55,此時在真實值0.5附近的誤差最多為0.05。為了在結局事件比例為0.1和0.2的情況下得到相同的誤差幅度,分別需要至少139和246例樣本量。 圖1 計算精確估計目標人群總體結局事件概率所需的樣本量 對于生存數(shù)據(jù)類型結局事件,需要確定一個關鍵時間點以及預期的結局事件率。例如,在整個隨訪中每 100 人年的預期事件發(fā)生率為 10 次,如果10 年的結局事件概率為 0.63,為確保估計誤差≤0.05(置信區(qū)間為0.58到0.68),樣本量必須包括總共2366人年的隨訪。 對于連續(xù)型結局事件,必須預先指定結局值的預期均值和方差,以及模型解釋的預期變異百分比(詳見補充材料S2)。 步驟二:多大的樣本量能控制所有個體預測值的平均誤差較小? Step 2: What sample size will produce predicted values that have a small mean error across all individuals? 除了精確預測平均的結局事件的值(參見步驟 1)之外,模型開發(fā)的樣本量還應針對在預測值范圍內實現(xiàn)精確預測。對于二分類型結局事件,van Smeden 等人在廣泛的場景中開展模擬,來評估模型的預測結局事件發(fā)生概率的誤差和訓練集各種特征的關系。他們發(fā)現(xiàn)候選預測參數(shù)數(shù)目、總樣本量和結局事件比例是模型平均預測準確度的三個主要驅動因素。該發(fā)現(xiàn)帶來了樣本量計算公式(圖2),以幫助確保,平均來說,新的模型在目標人群中的預測結局概率具有較小的預測誤差(通過平均絕對預測誤差衡量,mean absolute prediction error ,MAPE)。該計算公式需要預先指定候選預測參數(shù)的數(shù)量和目標人群中的預期結局事件比例。例如,對于10個候選預測參數(shù)和0.3的預期結局事件比例,需要至少 461 例樣本量(即13.8 EPP)才能預測概率和真實概率之間的MAPE設為 0.05(計算參見圖 2)。該計算公式已制作成交互式工具網站 (https://mvansmeden./BeyondEPV/),適用于具有 30 個或更少候選預測變量的情況。正在進行的工作旨在擴展到更多的候選預測變量以及生存數(shù)據(jù)類型結局事件的研究。 圖2幫助確保開發(fā)的二分類型結局預測模型在應用于其他目標個體時,預測概率的平均絕對誤差較小所需的樣本量 對于連續(xù)型結局事件,覆蓋預測值范圍的準確預測需要精確估計殘差的標準偏差。補充材料 S3 表明,要在估計的殘差標準偏差中實現(xiàn)小于 10% 的乘法誤差(multiplicative error),所需的樣本量就是 234+P,其中 P 是所考慮的預測參數(shù)的數(shù)量。 步驟三:多大的樣本量能控制預測效應的收縮率在一個小的要求范圍內? Step 3: What sample size will produce a small required shrinkage of predictor effects? 我們推薦的第三個步驟是確定最小化過度擬合問題所需的樣本量。過度擬合是指開發(fā)模型的預測比來自同一目標人群的另一新數(shù)據(jù)集中個體的預測更極端。例如,對于二分類型結局事件的過擬合預測模型,對于高于平均結局事件概率的個體,預測結局事件概率將十分接近1,而對于低于平均結局事件概率的個體,預測結局事件概率將十分接近0。當樣本量太小時,特別容易發(fā)生過度擬合。特別是,當候選預測參數(shù)的數(shù)量相對于訓練集總樣本量(對于連續(xù)型結局事件)或訓練集中發(fā)生結局事件的樣本數(shù)(對于二分類型結局事件或生存數(shù)據(jù)類型結局事件)而言較大時。過度擬合的結果是開發(fā)的模型的表觀預測性能(如在訓練集本身中觀察到的)將是樂觀的(即太好),而它在來自同一目標人群的另一新數(shù)據(jù)集中的實際預測性能將較低(即,更差)。 收縮(shrinkage也稱為懲罰或正則化)方法通過減少模型預測的可變性來處理過度擬合的問題,從而將極端預測(例如,預測概率接近 0 或 1)拉回總體平均值。然而,不能保證收縮方法能完全克服過擬合問題。這是因為收縮或懲罰因子(決定所需收縮的幅度)也是從訓練集中估計獲得的。尤其是當樣本量很小時,通常估計不精確,因此無法正確處理特定的過度擬合幅度。此外,估計的收縮率與模型的預測性能之間往往呈現(xiàn)負相關的關系。如果模型只是偶然表現(xiàn)出色,那么所需的收縮率通常估計過低。因此,具有諷刺意味的是,在最關注過度擬合問題(因此最迫切需要收縮)的場景下,模型開發(fā)人員沒有足夠的保證選擇適當?shù)氖湛s以消除過擬合的影響。 因此,Riley 等人建議在模型開發(fā)過程中確定與少量所需收縮 (≤10%) 相對應的候選預測變量數(shù)量和訓練集樣本量。樣本大小計算(圖 3)要求研究人員預先指定候選預測變量的數(shù)量。此外,對于二分類型結局事件或生存數(shù)據(jù)類型結局事件,還需預先指定目標人群中的結局事件的比例。此外,需要設定預期的模型性能。該值可以根據(jù) Cox-Snell R平方統(tǒng)計量 (R2cs)進行定義(該值大小應較為保守)。R2cs的預期值很重要,因為它反映了信噪比(signal: noise ratio)。信噪比對多參數(shù)估計和過度擬合有影響。當預計信噪比很高時(例如,對于具有連續(xù)型結局事件的模型,R2cs接近1),數(shù)據(jù)的真實關系更容易進行分析,因此降低了過擬合發(fā)生的可能,可以估計更多的預測參數(shù)。然而,當信噪比低時(即,預計R2cs接近0),數(shù)據(jù)的真實關系更難識別,過度擬合的可能性更大,此時較少的預測參數(shù)會獲得相對可靠的估計。 圖3針對二分類型結局事件或生存數(shù)據(jù)類型結局事件,如何計算為獲得預測變量效應所需的小幅度收縮(以最小化潛在的模型過度擬合)所需的樣本量 在連續(xù)型結局事件的設置中,R2cs即決定系數(shù)R2,它量化了預測模型所能解釋的結局事件的變異內容的比例,因此介于0和1之間。例如,當開發(fā)一個具有多達30個預測參數(shù)和預期 R2cs為0.7的連續(xù)型結局事件的預測模型時,需要206例樣本量以確保預期的收縮率為10%(完整計算見補充材料 S4)。即,對于所考慮的每個預測參數(shù),對應約七例樣本量。 R2cs統(tǒng)計量可推廣到非連續(xù)的結局事件,并允許在開發(fā)二分類型結局事件或生存數(shù)據(jù)類型結局事件的預測模型時計算樣本量以最小化預期的收縮(圖 3)。例如,結局事件發(fā)生的比例為 0.3,在開發(fā)具有多達20個候選預測參數(shù)和至少0.1的預期R2cs的logistic回歸模型時,需要1698例樣本量以確保預期收縮為10%(完整計算見圖3),此時對應的EPP為25.5。所需的樣本量和EPP對R2cs的選擇很敏感,R2cs的預期值越低,所需的樣本量越大。因此,建議保守選擇R2cs(圖 4)。 圖 4如何在收集數(shù)據(jù)之前決定模型的預期R2cs 和對干預性隨機試驗的樣本量計算一樣,在樣本量計算時同樣需要外部證據(jù)和專家意見的數(shù)據(jù)來明確某些指定的值。圖4提供了指定R2cs的指南。重要的是,與R2cs在0和1之間有界時的連續(xù)型結局事件不同,對于二分類型結局事件或生存數(shù)據(jù)類型結局事件,R2cs的界限在0和max(R2cs)之間。max(R2cs) 表示R2cs的最大可能值,它由訓練集中的總體結局事件比例決定,通常遠小于1。補充材料S5顯示了max(R2cs)的計算過程。對于結局事件比例為0.5、0.4、0.3、0.2、0.1、0.05 和 0.01 的logistic回歸模型,相應的max(R2cs)值分別為0.75、0.74、0.71、0.63、0.48、0.31 和 0.01。因此,即使對于具有潛在良好預測性能的模型,預期的R2cs也可能很小。 步驟四:多大的樣本量能在表觀模型擬合時保證小的預期樂觀度? Step 4: What sample size will produce a small optimism in apparent model fit? 樣本量計算還應確保模型的表觀R2Nagelkerke和樂觀調整R2Nagelkerke之間差異是微小的(即 R2cs/max(R2cs))。R2Nagelkerke是模型擬合的基本總體衡量標準。表觀R2Nagelkerke值只是模型在訓練集中觀察到的預測性能,而樂觀調整的R2Nagelkerke值是模型在目標人群中擬合的更現(xiàn)實(近似無偏)估計。連續(xù)型變量的樣本量計算顯示在補充材料 S6 中。圖5中展示了二分類型結局事件或生存數(shù)據(jù)類型結局事件的樣本量計算。如圖4所示,和上述一樣,它們要求用戶指定預期的R2cs和 max(R2cs)。例如,在開發(fā)具有預期R2cs為0.2的logistic回歸模型時,并且在結局事件比例為0.05(因此max(R2cs) 為0.33),需要1079 例樣本量才能確保表觀 RR2Nagelkerke的預期樂觀度僅為0.05(計算參見圖 5)。 圖5如何計算針對二分類型結局事件或生存數(shù)據(jù)類型結局事件的模型擬合的小的預期樂觀度(以最小化潛在的模型過度擬合)所需的樣本量 |
|