物以類聚,人以群分,聚類分析是一種重要的多變量統(tǒng)計(jì)方法,但記住其實(shí)它是一種數(shù)據(jù)分析方法,不能進(jìn)行統(tǒng)計(jì)推斷的。聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品(individuals, objects or subjects)的特征將它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity),而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。諸如常將醫(yī)院按照等級(jí)分為一級(jí)、二級(jí)、三級(jí),這個(gè)可以簡(jiǎn)單的看作是一種聚類,所有的三級(jí)綜合醫(yī)院最基本的一個(gè)指標(biāo)是床位數(shù)在500張以上,那我們可以認(rèn)為此類醫(yī)院在床位上具有很高的同質(zhì)性,相比于綜合性質(zhì)的二級(jí)醫(yī)院床位數(shù)要求100~499之間,那我們可以認(rèn)為三級(jí)綜合性質(zhì)醫(yī)院與二級(jí)綜合性質(zhì)醫(yī)院在床位數(shù)上存在異質(zhì)性。為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來(lái)定量地描述研究對(duì)象之間的聯(lián)系的緊密程度。常用的指標(biāo)為“距離”和“相似系數(shù)”,假定研究對(duì)象均用所謂的“點(diǎn)”來(lái)表示。在聚類分析中,一般的規(guī)則是將“距離”較小的點(diǎn)或“相似系數(shù)”較大的點(diǎn)歸為同一類,將“距離”較大的點(diǎn)或“相似系數(shù)”較小的點(diǎn)歸為不同的類(一般的相似系數(shù)就是相關(guān)系數(shù)了)。諸如某兩家醫(yī)院在床位數(shù),科室數(shù)等指標(biāo)上具有很好的相似度,二者做統(tǒng)計(jì)學(xué)上的相關(guān)性檢驗(yàn),發(fā)現(xiàn)相關(guān)系數(shù)很高,即二者很相似,我們可以將二者聚為一類。 一、聚類分析的步驟 主要涉及到以下六步: (1)選取指標(biāo) 聚類的第一步是指標(biāo)的選取,因?yàn)榫垲愂菍⒃谀承┲笜?biāo)上相似度很高的一類醫(yī)療機(jī)構(gòu)聚為一類。 (2)指標(biāo)權(quán)重 第一步所選取的指標(biāo),聚類時(shí)并非同等對(duì)待,有個(gè)重要程度的排序聚類,即指標(biāo)的聚類有個(gè)先后過(guò)程,諸如醫(yī)院級(jí)別的聚類,我們有床位數(shù)和醫(yī)院科室數(shù)這兩個(gè)聚類指標(biāo),兩個(gè)指標(biāo)的相比我們發(fā)現(xiàn),床位數(shù)更能區(qū)別開(kāi)兩家不同級(jí)別的醫(yī)院,即聚類是我們先按照床位數(shù)相似性程度將醫(yī)院分開(kāi)聚類,其次在上述聚類好的某類醫(yī)院內(nèi)部再按照科室數(shù)聚類。 (3) 數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化處理) 按照某些指標(biāo)聚類時(shí),由于各項(xiàng)指標(biāo)數(shù)據(jù)的極差和量綱都不相同,為使各項(xiàng)指標(biāo)具有可比性,現(xiàn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使他們處于同一量綱等級(jí),再進(jìn)行聚類。 (4)最佳類數(shù)選擇 因?yàn)榫垲惙治鲋皇且环N方法,聚類用的指標(biāo)越多,聚類的類別越多越細(xì)。聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,比較復(fù)雜的就是最終類個(gè)數(shù)的選擇。這里采用最大原則確定最佳聚類個(gè)數(shù)(諸如將三級(jí)綜合性質(zhì)的醫(yī)院聚為幾類最佳)。即選取評(píng)價(jià)聚類個(gè)數(shù)的30個(gè)指標(biāo),分別為'cindex', “ott', 'marriot', 'trcovw', 'tracew', 'friedman', 'rubin', 'db', 'silhouette', 'duda', 'pseudot2', 'beale', 'ratkowsky', 'ball', 'ptbiserial', 'gap', 'frey', 'mcclain', 'gamma', 'gplus', 'tau', 'dunn', 'hubert', 'sdindex', 'dindex', 'sdbw'。最終我們統(tǒng)計(jì)30個(gè)指標(biāo)建議聚成幾類的頻數(shù),頻數(shù)最大的即為最佳聚類個(gè)數(shù)。 (5)聚類算法 什么樣的聚類算法可以使上述評(píng)判指標(biāo)最優(yōu),即利用何種方法把上述相似的指標(biāo)放在一起使聚類效果最佳,數(shù)據(jù)挖掘中非常成熟的聚類算法---譜系聚類(hierarchical clustering)和快速聚類(K-means)、兩階段聚類(Two-Step)。 (6)結(jié)果展示 二、聚類分析的優(yōu)缺點(diǎn) (1)優(yōu)點(diǎn) 聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。 (2)缺點(diǎn) 在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無(wú)任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)?,但是,聚類分析模型本身卻無(wú)法識(shí)別這類錯(cuò)誤。 三、使用時(shí)注意事項(xiàng)
四、聚類分析SPSS實(shí)現(xiàn) 以k-均值聚類為例:
2. 中間的聚類數(shù)表示的是我們?cè)O(shè)置的k值,默認(rèn)為2,我們可以根據(jù)自己的實(shí)際需求進(jìn)行更改,這里我們更改為3,即表示我們將數(shù)據(jù)分成3類。 3.本例統(tǒng)計(jì)量勾選上“初始聚類中心”和“每個(gè)個(gè)案的聚類信息”.
5.點(diǎn)擊確定,spss自動(dòng)進(jìn)行處理,并輸出處理的結(jié)果,供我們分析。
下面我們用iris數(shù)據(jù)集來(lái)進(jìn)行聚類分析,在R語(yǔ)言中所用到的函數(shù)為hclust。 第一步:對(duì)數(shù)據(jù)集進(jìn)行初步統(tǒng)計(jì)分析 詳細(xì)的統(tǒng)計(jì)描述在前期推送文檔“數(shù)據(jù)分析第一步:連續(xù)性數(shù)值變量統(tǒng)計(jì)描述常用SPSS及R操作過(guò)程”中有詳細(xì)介紹,這里就不在講解。 主要關(guān)注數(shù)據(jù)的熱圖和散點(diǎn)圖,從圖中可以看到顏色越深表示樣本間距離越近,大致上可以區(qū)分出三到四個(gè)區(qū)塊,其樣本之間比較接近。 data=iris[,-5]dist.e=dist(data,method='euclidean')heatmap(as.matrix(dist.e),labRow = F, labCol = F)
data=iris[,-5] 第二步:使用knn包進(jìn)行Kmean聚類分析
結(jié)果: 第一行:K-means算法產(chǎn)生了3個(gè)聚類,大小分別為38,50,62; 第二行:Cluster means: 每個(gè)聚類中各個(gè)列值生成的最終平均值; 第三行:Clustering vector: 每行記錄所屬的聚類(2代表屬于第二個(gè)聚類,1代表屬于第一個(gè)聚類,3代表屬于第三個(gè)聚類); 第四行:Within cluster sum of squares by cluster: 每個(gè)聚類內(nèi)部的距離平方和 ;(between_SS / total_SS =88.4 %) 組間的距離平方和占了整體距離平方和的的88.4%,也就是說(shuō)各個(gè)聚類間的距離做到了最大; 第五行:Available components: 運(yùn)行kmeans函數(shù)返回的對(duì)象所包含的各個(gè)組成部分: 'cluster'是一個(gè)整數(shù)向量,用于表示記錄所屬的聚類 'centers'是一個(gè)矩陣,表示每聚類中各個(gè)變量的中心點(diǎn) 第三步:創(chuàng)建一個(gè)連續(xù)表,在三個(gè)聚類中分別統(tǒng)計(jì)各種花出現(xiàn)的次數(shù);
根據(jù)最后的聚類結(jié)果畫出散點(diǎn)圖,數(shù)據(jù)為結(jié)果集中的列'Sepal.Length'和'Sepal.Width',顏色為用1,2,3表示的缺省顏色;
最后在圖上標(biāo)出每個(gè)聚類的中心點(diǎn)
微信ID:survival-analysis |
|
來(lái)自: 生物_醫(yī)藥_科研 > 《待分類》