獨家整理,盜用必究 研究背景與意義心血管疾病(CVD)是全球范圍內導致死亡和發(fā)病的主要原因,給醫(yī)療系統(tǒng)帶來巨大負擔。準確預測個人發(fā)生心血管疾病的風險對于早期干預和預防策略至關重要。傳統(tǒng)的風險預測模型如Framingham風險評分(FRS)雖然被廣泛應用于臨床實踐,但存在泛化能力有限、靈活性不足等問題。 近期,韓國延世大學醫(yī)學院研究團隊在medRxiv上發(fā)表了一項開創(chuàng)性研究,探索了大語言模型(LLM)在心血管疾病風險預測中的應用潛力。該研究利用UK Biobank和KoGES兩個大型數據庫,首次系統(tǒng)評估了ChatGPT等大語言模型在10年心血管疾病風險預測方面的表現。 創(chuàng)新性技術方案數據處理與模型架構研究團隊首先從UK Biobank數據庫中篩選了502,396名40-69歲的參與者。經過數據清洗和隨機抽樣,最終納入9,726名受試者進行分析。研究采用了三種大語言模型:ChatGPT-3.5、ChatGPT-4和Bard,并與傳統(tǒng)的Framingham風險評分進行對比。 論文圖1展示了詳細的研究人群篩選流程,顯示了從初始數據庫到最終研究cohort的完整篩選過程,包括各種排除標準和最終入組人數。 創(chuàng)新的數據轉換方法研究的一大創(chuàng)新點在于將表格數據轉換為自然語言形式。如論文圖2所示,研究團隊開發(fā)了一種獨特的提示工程方法,將患者的各項指標(如年齡、性別、血壓等)轉換為結構化的自然語言描述,這使得大語言模型能夠更好地理解和處理醫(yī)療數據。 風險評估流程模型評估采用了多維度指標體系:
突破性研究成果模型性能對比如論文表2所示,在UK Biobank隊列中:
在KoGES驗證集中,GPT-4同樣展現出優(yōu)異性能:
相關性分析如論文圖3所示,研究發(fā)現:
生存分析如論文圖4所示,研究通過Kaplan-Meier生存曲線分析顯示:
有限信息下的模型表現研究還探討了在信息不完整情況下模型的表現。如論文表4所示,即使在缺少某些臨床指標的情況下,GPT-3.5仍能保持相當的預測能力:
技術優(yōu)勢與創(chuàng)新點
研究啟示與未來展望這項研究證明了大語言模型在醫(yī)療健康領域的巨大潛力,特別是在風險預測方面。未來研究方向包括:
研究局限性研究團隊也指出了當前研究的幾個局限性:
總結這項研究首次系統(tǒng)性地評估了大語言模型在心血管疾病風險預測中的應用,結果表明GPT-4等模型能夠達到甚至超過傳統(tǒng)預測模型的性能。這一發(fā)現為醫(yī)療領域的人工智能應用開辟了新的方向,也為臨床實踐提供了新的工具選擇。 這篇論文發(fā)表在medRxiv預印本平臺,DOI為:https:///10.1101/2023.05.22.23289842 此研究獲得了韓國衛(wèi)生福利部通過韓國衛(wèi)生產業(yè)發(fā)展研究院(KHIDI)的資助(項目編號:HI22C0452)。 Q&A環(huán)節(jié):Q1: 研究中使用的評估指標具體是如何計算的?這些指標對于心血管疾病風險預測的意義是什么? 在醫(yī)療預測模型中,評估指標的選擇和計算至關重要。本研究采用了多個關鍵評估指標: 準確度(Accuracy)的計算公式為: 敏感度(Sensitivity)的計算公式為: 特異度(Specificity)的計算公式為: 陽性預測值(PPV)的計算公式為: 陰性預測值(NPV)的計算公式為: F1分數的計算公式為: 其中,TP表示真陽性,TN表示真陰性,FP表示假陽性,FN表示假陰性。這些指標的重要性在于:
Q2: 研究中如何將傳統(tǒng)的表格數據轉換為大語言模型可以理解的自然語言形式?這種轉換的技術原理是什么? 研究團隊開發(fā)了一個創(chuàng)新的數據轉換管道,主要包含以下步驟:
[年齡]歲的[性別]患者,[有/無]糖尿病史,[有/無]高血壓,[吸煙狀態(tài)],
Q3: 研究中使用的Cox比例風險模型是如何實現的?它在評估不同風險組生存差異時的具體數學原理是什么? Cox比例風險模型是生存分析中的核心方法,其基本原理如下: 基礎風險函數: 其中:
在本研究中,Cox模型主要用于比較不同風險組的生存差異:
其中SE()是回歸系數的標準誤。 研究中使用該模型評估了不同風險組(低、中、高風險)的相對風險,結果顯示GPT-4預測的高風險組相對于低風險組的風險比為6.81 (95% CI: 4.96-9.36)。 Q4: 大語言模型在處理醫(yī)療數據時如何保證預測結果的可解釋性?研究中采用了哪些技術手段來驗證模型的可靠性? 這個問題涉及到大語言模型在醫(yī)療領域應用的核心挑戰(zhàn)。研究采用了多層次的驗證方法:
其中:
Q5: 研究中提到的模型在處理不完整數據時的魯棒性是如何實現的?這種能力對臨床實踐有什么意義? 這個問題涉及到大語言模型在實際醫(yī)療場景中的應用價值。研究通過以下方式驗證了模型的魯棒性:
研究發(fā)現,即使在缺失部分數據的情況下,GPT-3.5仍能保持較高的預測準確率:
這種魯棒性在臨床實踐中具有重要意義:
這種特性使得模型特別適合:
Q6: 研究中如何處理數據的不平衡問題?在MACE事件預測中采用了哪些技術策略來提高模型對少數類的識別能力? 在醫(yī)療預測任務中,數據不平衡是一個普遍存在的問題。本研究中,MACE事件的發(fā)生率僅為3.4%(331/9726),這種嚴重的類別不平衡會影響模型性能。研究采用了以下策略:
ROC曲線下面積(AUC)計算: Matthews相關系數(MCC):
其中:
Q7: 研究中大語言模型的提示工程(Prompt Engineering)具體是如何設計的?不同提示策略對模型性能有何影響? 提示工程是確保大語言模型準確理解任務并輸出規(guī)范結果的關鍵。研究團隊采用了多層次的提示設計策略:
Input: {patient_data}
研究發(fā)現不同提示策略的性能差異:
Q8: 研究中如何評估模型預測結果的校準性(Calibration)?采用了哪些統(tǒng)計方法來驗證預測概率的可靠性? 模型校準性評估是確保風險預測可靠性的關鍵步驟。研究采用了多種統(tǒng)計方法:
其中:
其中:
研究發(fā)現GPT-4模型具有良好的校準性:
Q9: 研究中如何處理多機構數據的異質性問題?在UK Biobank和KoGES數據集之間存在哪些技術挑戰(zhàn)和解決方案? 多機構數據整合是醫(yī)療AI研究中的重要挑戰(zhàn),研究采用了系統(tǒng)化的方法處理數據異質性:
其中:
其中:
Q10: 研究中如何評估模型的時間穩(wěn)定性?10年隨訪期間的預測性能是如何被驗證的? 時間穩(wěn)定性評估對于長期風險預測模型至關重要,研究采用了多個時間相關的評估方法:
其中:
其中:
研究發(fā)現GPT-4模型在整個10年隨訪期間保持穩(wěn)定的預測性能:
這表明模型的預測能力在長期隨訪中具有良好的穩(wěn)定性。通過這些復雜的時間相關分析,研究全面評估了模型在不同時間尺度上的表現,為臨床應用提供了重要的驗證依據。 Guo T, Chen X, Wang Y, et al. Large language model based multi-agents: A survey of progress and challenges[J]. arXiv preprint arXiv:2402.01680, 2024. ———— end ———— |
|
來自: 昵稱69125444 > 《UKB論文》