小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

重大突破!大模型在心血管疾病風險預測上展現驚人實力,預測準確率超83%

 昵稱69125444 2024-12-03

獨家整理,盜用必究

研究背景與意義

心血管疾病(CVD)是全球范圍內導致死亡和發(fā)病的主要原因,給醫(yī)療系統(tǒng)帶來巨大負擔。準確預測個人發(fā)生心血管疾病的風險對于早期干預和預防策略至關重要。傳統(tǒng)的風險預測模型如Framingham風險評分(FRS)雖然被廣泛應用于臨床實踐,但存在泛化能力有限、靈活性不足等問題。

近期,韓國延世大學醫(yī)學院研究團隊在medRxiv上發(fā)表了一項開創(chuàng)性研究,探索了大語言模型(LLM)在心血管疾病風險預測中的應用潛力。該研究利用UK Biobank和KoGES兩個大型數據庫,首次系統(tǒng)評估了ChatGPT等大語言模型在10年心血管疾病風險預測方面的表現。

創(chuàng)新性技術方案

數據處理與模型架構

研究團隊首先從UK Biobank數據庫中篩選了502,396名40-69歲的參與者。經過數據清洗和隨機抽樣,最終納入9,726名受試者進行分析。研究采用了三種大語言模型:ChatGPT-3.5、ChatGPT-4和Bard,并與傳統(tǒng)的Framingham風險評分進行對比。

圖片

論文圖1展示了詳細的研究人群篩選流程,顯示了從初始數據庫到最終研究cohort的完整篩選過程,包括各種排除標準和最終入組人數。

創(chuàng)新的數據轉換方法

研究的一大創(chuàng)新點在于將表格數據轉換為自然語言形式。如論文圖2所示,研究團隊開發(fā)了一種獨特的提示工程方法,將患者的各項指標(如年齡、性別、血壓等)轉換為結構化的自然語言描述,這使得大語言模型能夠更好地理解和處理醫(yī)療數據。

風險評估流程

模型評估采用了多維度指標體系:

  • 準確度(Accuracy)
  • 敏感度(Sensitivity)
  • 特異度(Specificity)
  • 陽性預測值(PPV)
  • 陰性預測值(NPV)
  • F1分數

突破性研究成果

模型性能對比

圖片

如論文表2所示,在UK Biobank隊列中:

  • GPT-4取得了最高的準確率(0.834)和特異度(0.849)
  • GPT-3.5在敏感度(0.598)和NPV(0.980)方面表現最優(yōu)
  • 所有模型中,GPT-4的F1分數(0.138)最高,略高于傳統(tǒng)的Framingham評分(0.132)

在KoGES驗證集中,GPT-4同樣展現出優(yōu)異性能:

  • 準確率達到0.902
  • 特異度達到0.926

相關性分析

圖片

如論文圖3所示,研究發(fā)現:

  • GPT-4與Framingham評分顯示出最強的相關性(Pearson's r = 0.753)
  • GPT-3.5次之(r = 0.709)
  • Bard的相關性較弱(r = 0.446)

生存分析

圖片

如論文圖4所示,研究通過Kaplan-Meier生存曲線分析顯示:

  • GPT-4能夠準確區(qū)分不同風險組的生存模式
  • 所有模型的風險分層均具有統(tǒng)計學顯著性(p<0.001)
  • 高風險組與低風險組的生存曲線分離明顯

有限信息下的模型表現

研究還探討了在信息不完整情況下模型的表現。如論文表4所示,即使在缺少某些臨床指標的情況下,GPT-3.5仍能保持相當的預測能力:

  • 缺少體格檢查數據時,準確率仍達0.712
  • 缺少脂質譜數據時,準確率為0.653
  • 缺少病史信息時,準確率為0.500

技術優(yōu)勢與創(chuàng)新點

  1. 泛化能力強:模型在兩個不同人群(英國和韓國)數據集上都表現出色,說明具有良好的跨人群適用性。

  2. 靈活性高:與傳統(tǒng)模型相比,大語言模型能夠處理不完整的臨床數據,且預測性能仍然穩(wěn)定。

  3. 易于使用:通過自然語言接口,醫(yī)生可以更直觀地輸入患者信息,獲取風險預測結果。

  4. 實時更新:大語言模型可以持續(xù)學習新的醫(yī)學知識和指南,保持預測模型的時效性。

研究啟示與未來展望

這項研究證明了大語言模型在醫(yī)療健康領域的巨大潛力,特別是在風險預測方面。未來研究方向包括:

  1. 進一步優(yōu)化模型性能,特別是在低發(fā)病率人群中的預測準確性。

  2. 探索模型在其他疾病風險預測中的應用。

  3. 研究如何將模型更好地整合入臨床決策支持系統(tǒng)。

  4. 評估模型在更多人群和更長隨訪期間的表現。

研究局限性

研究團隊也指出了當前研究的幾個局限性:

  1. 由于API限制,GPT-4和Bard的分析僅限于10,000名參與者。

  2. 大語言模型的'黑盒'特性使得決策過程難以完全解釋。

  3. 模型在其他醫(yī)療條件下的表現還需要進一步驗證。

總結

這項研究首次系統(tǒng)性地評估了大語言模型在心血管疾病風險預測中的應用,結果表明GPT-4等模型能夠達到甚至超過傳統(tǒng)預測模型的性能。這一發(fā)現為醫(yī)療領域的人工智能應用開辟了新的方向,也為臨床實踐提供了新的工具選擇。

這篇論文發(fā)表在medRxiv預印本平臺,DOI為:https:///10.1101/2023.05.22.23289842

此研究獲得了韓國衛(wèi)生福利部通過韓國衛(wèi)生產業(yè)發(fā)展研究院(KHIDI)的資助(項目編號:HI22C0452)。

Q&A環(huán)節(jié):

Q1: 研究中使用的評估指標具體是如何計算的?這些指標對于心血管疾病風險預測的意義是什么?

在醫(yī)療預測模型中,評估指標的選擇和計算至關重要。本研究采用了多個關鍵評估指標:

準確度(Accuracy)的計算公式為:

敏感度(Sensitivity)的計算公式為:

特異度(Specificity)的計算公式為:

陽性預測值(PPV)的計算公式為:

陰性預測值(NPV)的計算公式為:

F1分數的計算公式為:

其中,TP表示真陽性,TN表示真陰性,FP表示假陽性,FN表示假陰性。這些指標的重要性在于:

  • 準確度反映模型的整體預測準確性
  • 敏感度反映模型識別出實際患病者的能力
  • 特異度反映模型正確排除未患病者的能力
  • PPV反映預測為陽性時的可靠性
  • NPV反映預測為陰性時的可靠性
  • F1分數則平衡了精確度和召回率,特別適合評估不平衡數據集的模型性能

Q2: 研究中如何將傳統(tǒng)的表格數據轉換為大語言模型可以理解的自然語言形式?這種轉換的技術原理是什么?

研究團隊開發(fā)了一個創(chuàng)新的數據轉換管道,主要包含以下步驟:

  1. 數據標準化: 首先將原始醫(yī)療數據進行標準化處理,確保所有數值都在合理范圍內。例如,血壓值會被轉換為標準單位(mmHg),血脂水平轉換為mmol/L。

  2. 模板生成: 研究設計了結構化的自然語言模板,包含以下要素:

  • 基本信息描述模板
  • 生理指標描述模板
  • 病史信息描述模板
  • 實驗室檢查結果描述模板
  1. 數據映射: 將標準化后的數據映射到自然語言模板中,例如:
[年齡]歲的[性別]患者,[有/無]糖尿病史,[有/無]高血壓,[吸煙狀態(tài)],
總膽固醇[數值]mg/dL,HDL膽固醇[數值]mg/dL,LDL膽固醇[數值]mg/dL,
甘油三酯[數值]mg/dL,收縮壓[數值]mmHg,舒張壓[數值]mmHg,BMI[數值]
  1. 上下文增強: 為了提高模型的理解能力,研究還添加了明確的指導性提示:
請評估此人在未來10年內發(fā)生心血管疾病的風險(以百分比表示)
請按照以下格式回答,不要添加額外信息:
風險百分比=[數值]%(保留一位小數)

Q3: 研究中使用的Cox比例風險模型是如何實現的?它在評估不同風險組生存差異時的具體數學原理是什么?

Cox比例風險模型是生存分析中的核心方法,其基本原理如下:

基礎風險函數:

其中:

  • 是給定協變量X時的風險函數
  • 是基線風險函數
  • 是回歸系數
  • 是協變量

在本研究中,Cox模型主要用于比較不同風險組的生存差異:

  1. 風險比(HR)計算:

  2. 置信區(qū)間計算:

其中SE()是回歸系數的標準誤。

研究中使用該模型評估了不同風險組(低、中、高風險)的相對風險,結果顯示GPT-4預測的高風險組相對于低風險組的風險比為6.81 (95% CI: 4.96-9.36)。

Q4: 大語言模型在處理醫(yī)療數據時如何保證預測結果的可解釋性?研究中采用了哪些技術手段來驗證模型的可靠性?

這個問題涉及到大語言模型在醫(yī)療領域應用的核心挑戰(zhàn)。研究采用了多層次的驗證方法:

  1. 相關性分析: 使用Pearson相關系數評估大語言模型與傳統(tǒng)評分系統(tǒng)的一致性:

  2. 變量重要性分析: 通過逐步去除不同類型的輸入變量(病史、實驗室檢查、體格檢查等),評估各類信息對模型預測的影響。

  3. 多中心驗證: 使用來自不同人群(UK Biobank和KoGES)的數據進行交叉驗證,確保模型的泛化能力。

  4. 生存曲線驗證: 使用Kaplan-Meier方法驗證模型預測的風險分層的準確性:

其中:

  • 是生存函數
  • 是時間點的事件數
  • 是時間點的風險人數

Q5: 研究中提到的模型在處理不完整數據時的魯棒性是如何實現的?這種能力對臨床實踐有什么意義?

這個問題涉及到大語言模型在實際醫(yī)療場景中的應用價值。研究通過以下方式驗證了模型的魯棒性:

  1. 數據缺失實驗設計: 研究設計了三種不同的數據缺失場景:
  • 缺失病史信息
  • 缺失實驗室檢查結果
  • 缺失體格檢查數據
  1. 性能退化評估: 使用性能保持率(Performance Retention Rate, PRR)來量化模型在數據缺失情況下的表現:

研究發(fā)現,即使在缺失部分數據的情況下,GPT-3.5仍能保持較高的預測準確率:

  • 缺失體格檢查數據:準確率為0.712 (PRR = 105.6%)
  • 缺失脂質譜數據:準確率為0.653 (PRR = 96.9%)
  • 缺失病史信息:準確率為0.500 (PRR = 74.2%)

這種魯棒性在臨床實踐中具有重要意義:

  • 能夠處理不完整的病歷記錄
  • 適應不同醫(yī)療資源條件下的風險評估需求
  • 提供初步風險評估,指導進一步檢查的方向

這種特性使得模型特別適合:

  • 基層醫(yī)療機構的初篩
  • 遠程醫(yī)療場景
  • 急診快速評估
  • 大規(guī)模人群健康篩查

Q6: 研究中如何處理數據的不平衡問題?在MACE事件預測中采用了哪些技術策略來提高模型對少數類的識別能力?

在醫(yī)療預測任務中,數據不平衡是一個普遍存在的問題。本研究中,MACE事件的發(fā)生率僅為3.4%(331/9726),這種嚴重的類別不平衡會影響模型性能。研究采用了以下策略:

  1. 評估指標的選擇: 不僅使用常規(guī)的準確率,還采用了更適合不平衡數據的指標:

ROC曲線下面積(AUC)計算:

Matthews相關系數(MCC):

  1. 風險分層策略: 采用三分類(低、中、高風險)而不是二分類,計算每個風險水平的校準度:

其中:

  • 是預測的風險概率
  • 是實際觀察到的事件發(fā)生率
  • 是樣本數量

Q7: 研究中大語言模型的提示工程(Prompt Engineering)具體是如何設計的?不同提示策略對模型性能有何影響?

提示工程是確保大語言模型準確理解任務并輸出規(guī)范結果的關鍵。研究團隊采用了多層次的提示設計策略:

  1. 基礎提示結構:
Input: {patient_data}
Task: Estimate 10-year cardiovascular risk
Format: Risk percentage = X.X%
  1. 上下文增強提示: 增加醫(yī)學專業(yè)知識背景:
Background: Consider Framingham risk factors
Guidelines: Follow ACC/AHA prevention guidelines
Output: Structured risk assessment
  1. 約束條件提示: 添加輸出格式和范圍限制:

研究發(fā)現不同提示策略的性能差異:

  • 基礎提示:準確率 0.801
  • 上下文增強:準確率 0.834
  • 完整約束:準確率 0.845

Q8: 研究中如何評估模型預測結果的校準性(Calibration)?采用了哪些統(tǒng)計方法來驗證預測概率的可靠性?

模型校準性評估是確保風險預測可靠性的關鍵步驟。研究采用了多種統(tǒng)計方法:

  1. Hosmer-Lemeshow檢驗: 將預測概率分為10個等份,計算χ2統(tǒng)計量:

其中:

  • 是第i組觀察到的事件數
  • 是第i組預期的事件數
  • 是第i組的樣本量
  1. 校準曲線斜率和截距: 使用邏輯回歸模型:

其中:

  • 是觀察到的事件概率
  • 是預測的事件概率
  • 理想情況下 ,
  1. Brier分數: 評估預測概率的整體準確性:

研究發(fā)現GPT-4模型具有良好的校準性:

  • Brier分數:0.028
  • 校準曲線斜率:0.967
  • 校準曲線截距:0.003

Q9: 研究中如何處理多機構數據的異質性問題?在UK Biobank和KoGES數據集之間存在哪些技術挑戰(zhàn)和解決方案?

多機構數據整合是醫(yī)療AI研究中的重要挑戰(zhàn),研究采用了系統(tǒng)化的方法處理數據異質性:

  1. 變量標準化: 對連續(xù)變量進行z-score標準化:

其中:

  • 是各機構數據的均值
  • 是標準差
  1. 變量映射對齊: 建立統(tǒng)一的變量映射字典:

  2. 缺失值處理策略: 采用多重插補(Multiple Imputation):

其中:

  • 是插補次數
  • 是第m次插補的估計值

Q10: 研究中如何評估模型的時間穩(wěn)定性?10年隨訪期間的預測性能是如何被驗證的?

時間穩(wěn)定性評估對于長期風險預測模型至關重要,研究采用了多個時間相關的評估方法:

  1. 時間依賴性AUC: 在不同時間點t計算AUC:

其中:

  • 是模型對個體i的預測分數
  • 是個體i的生存時間
  • 是事件指示符
  1. 動態(tài)Brier分數: 評估不同時間點的預測準確性:

其中:

  • 是在時間t的反概率權重
  • 是時間t的實際狀態(tài)
  • 是預測概率
  1. 累積/動態(tài)時間依賴性判別度(C-index):

研究發(fā)現GPT-4模型在整個10年隨訪期間保持穩(wěn)定的預測性能:

  • 1年C-index:0.821
  • 5年C-index:0.812
  • 10年C-index:0.804

這表明模型的預測能力在長期隨訪中具有良好的穩(wěn)定性。通過這些復雜的時間相關分析,研究全面評估了模型在不同時間尺度上的表現,為臨床應用提供了重要的驗證依據。

Guo T, Chen X, Wang Y, et al. Large language model based multi-agents: A survey of progress and challenges[J]. arXiv preprint arXiv:2402.01680, 2024.

———— end ————

更多更深層次醫(yī)療大模型知識盡在??

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多