隨著當(dāng)今醫(yī)學(xué)統(tǒng)計學(xué)的發(fā)展, 各種數(shù)據(jù)挖掘技術(shù) 越來越多的應(yīng)用于中醫(yī)藥的研究之中, 對于繼承和發(fā) 展中醫(yī)先賢以及當(dāng)代中醫(yī)大家的學(xué)術(shù)思想起到了巨大 的促進(jìn)作用, 也是中醫(yī)藥現(xiàn)代化過程中的重要環(huán) 節(jié) [1 -3 ] 。 冠心病全稱冠狀動脈粥樣硬化性心臟病, 是最常 見心血管病類型之一, 也是最常見的心臟病, 可引發(fā)心 力衰竭、 心肌梗死等嚴(yán)重并發(fā)癥, 是人類死亡主要病因 之一 [4 ] 。我國冠心病發(fā)病率高達(dá) 0. 5% ~ 1. 5% , 冠心 病已成為公共衛(wèi)生問題 [5 -6 ] , 成為我國居民主要疾病 負(fù)擔(dān)來源之一 [7 ] 。但中醫(yī)藥對于提高患者的生存質(zhì)量 有良好的作用, 故應(yīng)用數(shù)據(jù)挖掘方法研究中醫(yī)藥防治 冠心病的規(guī)律和特點(diǎn)對于臨床防治冠心病有十分重要 的意義 [8 ] 。本文通過對現(xiàn)代文獻(xiàn)中中醫(yī)藥防治冠心病 相關(guān)數(shù)據(jù)挖掘進(jìn)行分析整理, 對進(jìn)一步應(yīng)用數(shù)據(jù)挖掘 技術(shù)研究中醫(yī)藥防治冠心病提供助力。
1 資料與方法
1. 1 文獻(xiàn)來源 計算機(jī)檢索中文期刊全文數(shù)據(jù)庫 (CNKI)、 萬 方、 維 普、 中 國 生 物 醫(yī) 學(xué) 文 獻(xiàn) 數(shù) 據(jù) 庫 (CBM), 運(yùn)用其數(shù)據(jù)庫中的專業(yè)檢索功能, 運(yùn)用以下 檢索式依次進(jìn)行檢索。檢索式一為:主題 :(‘冠心病’ +‘胸痹’+‘心痛’+‘胸痹心痛’ )AND (‘?dāng)?shù)據(jù)挖掘’ +‘關(guān)聯(lián)分析’+‘聚類分析’+‘因子分析’+‘頻數(shù) 分析’ )。
1. 2 納入標(biāo)準(zhǔn) ①有關(guān)中醫(yī)冠心病的各類數(shù)據(jù)挖掘 研究文獻(xiàn), 其中包括頻數(shù)分析、 關(guān)聯(lián)分析、 聚類分析、 因 子分析等數(shù)據(jù)挖掘方法;②文獻(xiàn)中所提 “胸痹 ” “心痛” “胸痹心痛” 等須歸為現(xiàn)代醫(yī)學(xué)中的 “冠心病” 。
1. 3 排除標(biāo)準(zhǔn) ①文獻(xiàn)綜述;②重復(fù)發(fā)表的文獻(xiàn), 只 取一篇;③雖中醫(yī)病名為“胸痹心痛” 等, 但現(xiàn)代疾病 非 “冠心病” 者。
1. 4 名稱規(guī)范 參照全國中醫(yī)藥行業(yè)高等教育“十 二五” 規(guī)劃教材 《中醫(yī)藥統(tǒng)計學(xué)與軟件應(yīng)用》 [9 ] 對統(tǒng)計 方法等進(jìn)行規(guī)范。如頻數(shù)挖掘、 頻數(shù)分析、 頻數(shù)統(tǒng)計等 統(tǒng)稱為頻數(shù)分析。
1. 5 數(shù)據(jù)庫建立及數(shù)據(jù)核對 將上述所納入文獻(xiàn)數(shù) 據(jù)中作者、 文章名稱、 出處、 出版日期、 文獻(xiàn)類型、 軟件、 數(shù)理統(tǒng)計方法、 資料來源、 挖掘方面等各種信息依次錄 入 Microsoft Excel 中, 建立 Excel 數(shù)據(jù)庫。在上述數(shù)據(jù) 錄入之后, 由雙人共同審核數(shù)據(jù)以確保數(shù)據(jù)的準(zhǔn)確性 及可靠性。
1. 6 數(shù)據(jù)分析 采用頻數(shù)、 頻率等分析, 通過對作者、 文章名稱、 出處、 出版日期、 文獻(xiàn)類型、 軟件、 數(shù)理統(tǒng)計 方法、 資料來源、 挖掘方面等的頻率和頻率統(tǒng)計, 進(jìn)而 分析利用數(shù)據(jù)挖掘技術(shù)對冠心病中醫(yī)研究的研究進(jìn) 展, 為進(jìn)一步利用數(shù)據(jù)挖掘技術(shù)對研究冠心病提供借 鑒和依據(jù)。
2 結(jié)果
2. 1 文獻(xiàn)概況 按照檢索策略進(jìn)行文獻(xiàn)檢索, 通過閱 讀摘要得到 137 篇文獻(xiàn), 再經(jīng)過閱讀全文, 結(jié)合納入標(biāo) 準(zhǔn)、 排除標(biāo)準(zhǔn), 最終得出文獻(xiàn) 50 篇關(guān)于冠心病數(shù)據(jù)挖 掘類文獻(xiàn)。
2. 2 文獻(xiàn)類別分析 通過對文獻(xiàn)類別進(jìn)行數(shù)據(jù)整理 發(fā)現(xiàn), 共分為三大類:學(xué)術(shù)期刊、 碩博學(xué)位畢業(yè)論文和 會議論文。頻數(shù)分析其中學(xué)術(shù)期刊有 25 篇, 占總文獻(xiàn) 的 50% ;碩博學(xué)位畢業(yè)論文, 占總文獻(xiàn)的 44% , 會議論 文最少, 僅有 3 篇。具體分布見表 1。
表 1 冠心病相關(guān)數(shù)據(jù)挖掘文獻(xiàn)類別頻數(shù)頻率分析
文獻(xiàn)類別 頻數(shù) 頻率(%) 學(xué)術(shù)期刊 25 50 碩博士學(xué)位論文 22 44 會議論文 3 6
2. 3 文獻(xiàn)發(fā)表時間分析 通過對文獻(xiàn)發(fā)表時間進(jìn)行 頻數(shù)分析, 可以發(fā)現(xiàn)冠心病相關(guān)數(shù)據(jù)挖掘的文獻(xiàn)最早 發(fā)表于 2003 年, 到 2008 年呈現(xiàn)一個小高峰, 至 2013 年又呈現(xiàn)一個高峰, 但總體來看, 基本的趨勢是呈逐年 遞增的。具體分布見表 2、 圖 1。
2. 4 冠心病相關(guān)數(shù)據(jù)挖掘軟件應(yīng)用分析 在進(jìn)行數(shù)據(jù) 挖掘過程中, 必不可少的便是各種統(tǒng)計軟件的應(yīng)用。其 一是構(gòu)建數(shù)據(jù)庫的過程中所需的軟件, 其二便是各種數(shù) 理統(tǒng)計所需要的挖掘軟件。通過對所納入的 50 篇文獻(xiàn) 進(jìn)行分析發(fā)現(xiàn), Microsoft office excel 成為構(gòu)建數(shù)據(jù)庫的 主要軟件, 占 19. 61%;而對于分析軟件而言, 共出現(xiàn) 64 種統(tǒng)計分析軟件, 其中 SPSS 系列(SPSS 和 SPSS Clem- ent)實(shí)用率最高。具體分布見表 3 ~ 表 4。
表 2 冠心病相關(guān)數(shù)據(jù)挖掘文獻(xiàn)發(fā)表時間頻數(shù)頻率分析
出版日期 發(fā)表時間頻數(shù) 頻率(%) 2003 1 2 2005 1 2 2006 1 2 2008 4 8 2009 1 2 2010 2 4 2011 2 4 2012 6 12 2013 13 26 2014 5 10 2015 8 16 2016 6 12
表 3 冠心病相關(guān)數(shù)據(jù)挖掘所用數(shù)據(jù)庫軟件頻數(shù)頻率分析
數(shù)據(jù)庫軟件 頻數(shù) 頻率(%) Microsoft office excel 10 19. 61 中醫(yī)傳承輔助平臺 9 17. 65 未提及 7 13. 73 Access 5 9. 80 Epidata 2 3. 92 臨床科研信息共享系統(tǒng)冠心病科研病歷數(shù)據(jù)庫 2 3. 92 Delphi 1 1. 96 My Server 1 1. 96 Note Express 1 1. 96 SPSS 1 1. 96 SQL Server 1 1. 96 方劑分析系統(tǒng) 1 1. 96 冠心病臨床科研一體化平臺收集 1 1. 96 冠心病中醫(yī)臨床信息采集系統(tǒng) 1 1. 96 科研結(jié)構(gòu)化電子病歷 1 1. 96 驗(yàn)案分析系統(tǒng) 1 1. 96 中國中醫(yī)科學(xué)院廣安門醫(yī)院門診病歷系統(tǒng) 1 1. 96 中國中醫(yī)科學(xué)院西苑醫(yī)院心血管診療 中心數(shù)據(jù)庫管理系統(tǒng) 1 1. 96 中醫(yī)臨床科研信息一體化技術(shù)平臺 1 1. 96 中醫(yī)臨床數(shù)據(jù)采集系統(tǒng) 1 1. 96 中醫(yī)門診電子病歷系統(tǒng) 1 1. 96 中醫(yī)醫(yī)案信息采集系統(tǒng) 1 1. 96
但是我們在分析上述所需軟件發(fā)現(xiàn), 中醫(yī)傳承輔 助平臺 [10 ] 、 中醫(yī)驗(yàn)方分析系統(tǒng)、 方劑分析系統(tǒng)、 方劑智 能分析軟件、 針灸處方分析軟件、 針灸數(shù)據(jù)挖掘系統(tǒng)和 中醫(yī)驗(yàn)案分析系統(tǒng)等值得關(guān)注, 其均是為中醫(yī)藥的研 究所自主研發(fā)的數(shù)據(jù)分析系統(tǒng), 具有專門針對中醫(yī)中 藥以及針灸等的特點(diǎn), 是傳承和發(fā)展中醫(yī)藥的一個創(chuàng) 新 [11 -12 ] 。
表 4 冠心病相關(guān)數(shù)據(jù)挖掘所用分析軟件頻數(shù)頻率分析
分析軟件 頻數(shù) 頻率(%) SPSS 14 21. 88 中醫(yī)傳承輔助系統(tǒng)軟件 9 14. 06 未提及 6 9. 38 SAS 5 7. 81 SQL Server 工具 5 7. 81 SPSS Clementine 4 6. 25 WEKA 3 4. 69 Cytoscape 軟件 2 3. 13 Microsoft office excel 2 3. 13 PLSQ 數(shù)據(jù)庫 2 3. 13 ORACLE 2 3. 13 中醫(yī)驗(yàn)方分析系統(tǒng) 1 1. 56 ETL 工具 1 1. 56 liquorice 軟件 1 1. 56 Pajek 軟件 1 1. 56 R 統(tǒng)計軟件 1 1. 56 方劑分析系統(tǒng) 1 1. 56 方劑智能分析軟件 1 1. 56 針灸處方分析軟件 1 1. 56 針灸數(shù)據(jù)挖掘系統(tǒng) 1 1. 56 中醫(yī)驗(yàn)案分析系統(tǒng) 1 1. 56
圖 1 冠心病相關(guān)數(shù)據(jù)挖掘文獻(xiàn)發(fā)表時間頻數(shù)分析柱狀圖
2. 5 冠心病相關(guān)數(shù)據(jù)挖掘方法的分析 通過對發(fā)表 文獻(xiàn)中, 所采用的數(shù)據(jù)挖掘方法進(jìn)行頻數(shù)頻率統(tǒng)計, 發(fā) 現(xiàn)頻數(shù)頻率分析以 36. 21% 的使用率占據(jù)第一位, 說 明應(yīng)用頻數(shù)頻率分析中醫(yī)藥防治冠心病占重要地位; 其次, 聚類分析和關(guān)聯(lián)分析也占重要地位, 至于其他的 因子分析、 相關(guān)分析、 復(fù)雜網(wǎng)絡(luò)分析等則相對應(yīng)用的較 少。見表 5。
2. 6 冠心病相關(guān)數(shù)據(jù)挖掘資料來源的分析 所納入 的 50 篇文獻(xiàn)有不同的來源。通過對上述納入文獻(xiàn)中 資料來源進(jìn)行分析整理發(fā)現(xiàn), 文獻(xiàn)來源主要分為臨床 病案記錄(門診及病房)、 現(xiàn)代期刊碩博文獻(xiàn)、 中醫(yī)文 獻(xiàn)(古籍、 方書、 醫(yī)經(jīng))和調(diào)查問卷等。具體的分布情 況見表 6。
表 5 冠心病相關(guān)數(shù)據(jù)挖掘方法頻數(shù)頻率分析
統(tǒng)計方法 頻數(shù) 頻率(%) 頻數(shù)頻次分析 42 36. 21 聚類分析 21 18. 10 關(guān)聯(lián)分析 20 17. 24 相關(guān)分析 7 6. 03 復(fù)雜網(wǎng)絡(luò)分析 5 4. 31 多因子降維法 4 3. 45 互信息分析 4 3. 45 回歸分析 3 2. 59 決策樹 3 2. 59 定向文本挖掘 1 0. 86 多維數(shù)據(jù)分析 1 0. 86 概率轉(zhuǎn)移矩陣 1 0. 86 神經(jīng)網(wǎng)絡(luò) 1 0. 86 數(shù)據(jù)分層算法 1 0. 86 無尺度網(wǎng)絡(luò)方法 1 0. 86 主成分分析 1 0. 86
表 6 冠心病相關(guān)數(shù)據(jù)挖掘的資料來源頻數(shù)頻率分析
資料來源 頻數(shù) 頻率(%) 臨床病案記錄(門診及病房) 35 70 現(xiàn)代期刊碩博文獻(xiàn) 9 18 中醫(yī)文獻(xiàn)(古籍、 醫(yī)經(jīng)、 方書) 5 10 調(diào)查問卷 1 2
表 7 冠心病相關(guān)數(shù)據(jù)挖掘方面頻數(shù)頻率分析
挖掘方面 頻數(shù) 頻率(%) 選方用藥規(guī)律 29 25. 44 證型 20 17. 54 癥狀 18 15. 79 證候要素 10 8. 77 治法 10 8. 77 證素 5 4. 39 選穴規(guī)律 4 3. 51 病因 3 2. 63 證 - 藥 3 2. 63 藥 - 證 - 癥 2 1. 75 證候要素 - 黏附因子 2 1. 75 病機(jī) 1 0. 88 病機(jī) - 治法 1 0. 88 關(guān)鍵詞 1 0. 88 養(yǎng)生方法 1 0. 88 證候要素 - 理化指標(biāo) 1 0. 88 證型 - 生化指標(biāo) 1 0. 88 癥 - 證 1 0. 88 中醫(yī)診斷標(biāo)準(zhǔn) 1 0. 88
2. 7 冠心病相關(guān)數(shù)據(jù)挖掘方面的分析 中醫(yī)藥關(guān)于 冠心病的方面很多, 包括病因、 病機(jī)、 證型、 用藥規(guī)律以 及癥狀、 證 - 藥(表示證與藥物之間的關(guān)系) 等等方 面。通過對上述納入文獻(xiàn)來看, 有關(guān)冠心病數(shù)據(jù)挖掘 的方面主要集中于選方用藥規(guī)律方面, 關(guān)于證型及癥 狀等方面也較多。同時, 在關(guān)于證 - 藥、 藥 - 證 - 癥、 證候要素 - 黏附因子等兩者或者三者之間關(guān)系的文獻(xiàn) 也為數(shù)不少。見表 7。
3 討論與展望
從所納入的中醫(yī)藥防治冠心病相關(guān)數(shù)據(jù)挖掘文獻(xiàn) 情況來看, 雖然早在 90 年代數(shù)據(jù)挖掘技術(shù)就已經(jīng)誕 生, 但是將其應(yīng)用于中醫(yī)藥防治冠心病領(lǐng)域則是 20 世 紀(jì)以后的事情 [13 -14 ] , 近 5 年內(nèi)才呈現(xiàn)快速增長趨勢。 統(tǒng)計發(fā)現(xiàn), 中醫(yī)藥數(shù)據(jù)挖掘研究及應(yīng)用已經(jīng)由導(dǎo)入及 嘗試階段到發(fā)展成熟的跨越 [15 ] 。相較于中醫(yī)藥數(shù)據(jù) 挖掘研究整體情況而言, 中醫(yī)藥防治冠心病的研究則 起步較晚, 研究深度及廣度不足, 只有進(jìn)一步加大研究 力度病充分利用數(shù)據(jù)挖掘的優(yōu)勢, 才能有效推動中醫(yī) 藥防治冠心病的研究。研究不夠深入, 在未來的有很 大的研究前景, 期待數(shù)據(jù)挖掘技術(shù)能在未來的冠心病 的研究中大放光彩 [16 ] 。
來源:遼寧中醫(yī)雜志 作者:滑振 張哲 楊關(guān)林
|