數(shù)據(jù)挖掘方法：聚類分析簡(jiǎn)要介紹及SPSS&R實(shí)現(xiàn)

生物_醫(yī)藥_科研 2019-01-24

展開(kāi)全文

物以類聚，人以群分，聚類分析是一種重要的多變量統(tǒng)計(jì)方法，但記住其實(shí)它是一種數(shù)據(jù)分析方法，不能進(jìn)行統(tǒng)計(jì)推斷的。聚類分析：顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品(individuals, objects or subjects)的特征將它們分類，使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity)，而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。諸如常將醫(yī)院按照等級(jí)分為一級(jí)、二級(jí)、三級(jí)，這個(gè)可以簡(jiǎn)單的看作是一種聚類，所有的三級(jí)綜合醫(yī)院最基本的一個(gè)指標(biāo)是床位數(shù)在500張以上，那我們可以認(rèn)為此類醫(yī)院在床位上具有很高的同質(zhì)性，相比于綜合性質(zhì)的二級(jí)醫(yī)院床位數(shù)要求100~499之間，那我們可以認(rèn)為三級(jí)綜合性質(zhì)醫(yī)院與二級(jí)綜合性質(zhì)醫(yī)院在床位數(shù)上存在異質(zhì)性。為了得到比較合理的分類，首先要采用適當(dāng)?shù)闹笜?biāo)來(lái)定量地描述研究對(duì)象之間的聯(lián)系的緊密程度。常用的指標(biāo)為“距離”和“相似系數(shù)”，假定研究對(duì)象均用所謂的“點(diǎn)”來(lái)表示。在聚類分析中，一般的規(guī)則是將“距離”較小的點(diǎn)或“相似系數(shù)”較大的點(diǎn)歸為同一類，將“距離”較大的點(diǎn)或“相似系數(shù)”較小的點(diǎn)歸為不同的類（一般的相似系數(shù)就是相關(guān)系數(shù)了）。諸如某兩家醫(yī)院在床位數(shù)，科室數(shù)等指標(biāo)上具有很好的相似度，二者做統(tǒng)計(jì)學(xué)上的相關(guān)性檢驗(yàn)，發(fā)現(xiàn)相關(guān)系數(shù)很高，即二者很相似，我們可以將二者聚為一類。

一、聚類分析的步驟

主要涉及到以下六步:

（1）選取指標(biāo)

聚類的第一步是指標(biāo)的選取，因?yàn)榫垲愂菍⒃谀承┲笜?biāo)上相似度很高的一類醫(yī)療機(jī)構(gòu)聚為一類。

（2）指標(biāo)權(quán)重

第一步所選取的指標(biāo)，聚類時(shí)并非同等對(duì)待，有個(gè)重要程度的排序聚類，即指標(biāo)的聚類有個(gè)先后過(guò)程，諸如醫(yī)院級(jí)別的聚類，我們有床位數(shù)和醫(yī)院科室數(shù)這兩個(gè)聚類指標(biāo)，兩個(gè)指標(biāo)的相比我們發(fā)現(xiàn)，床位數(shù)更能區(qū)別開(kāi)兩家不同級(jí)別的醫(yī)院，即聚類是我們先按照床位數(shù)相似性程度將醫(yī)院分開(kāi)聚類，其次在上述聚類好的某類醫(yī)院內(nèi)部再按照科室數(shù)聚類。

(3) 數(shù)據(jù)預(yù)處理（標(biāo)準(zhǔn)化處理）

按照某些指標(biāo)聚類時(shí)，由于各項(xiàng)指標(biāo)數(shù)據(jù)的極差和量綱都不相同，為使各項(xiàng)指標(biāo)具有可比性，現(xiàn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，使他們處于同一量綱等級(jí)，再進(jìn)行聚類。

（4）最佳類數(shù)選擇

因?yàn)榫垲惙治鲋皇且环N方法，聚類用的指標(biāo)越多，聚類的類別越多越細(xì)。聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法，比較復(fù)雜的就是最終類個(gè)數(shù)的選擇。這里采用最大原則確定最佳聚類個(gè)數(shù)（諸如將三級(jí)綜合性質(zhì)的醫(yī)院聚為幾類最佳）。即選取評(píng)價(jià)聚類個(gè)數(shù)的30個(gè)指標(biāo)，分別為'cindex', “ott', 'marriot', 'trcovw', 'tracew', 'friedman', 'rubin', 'db', 'silhouette', 'duda', 'pseudot2', 'beale', 'ratkowsky', 'ball', 'ptbiserial', 'gap', 'frey', 'mcclain', 'gamma', 'gplus', 'tau', 'dunn', 'hubert', 'sdindex', 'dindex', 'sdbw'。最終我們統(tǒng)計(jì)30個(gè)指標(biāo)建議聚成幾類的頻數(shù)，頻數(shù)最大的即為最佳聚類個(gè)數(shù)。

（5）聚類算法

什么樣的聚類算法可以使上述評(píng)判指標(biāo)最優(yōu)，即利用何種方法把上述相似的指標(biāo)放在一起使聚類效果最佳，數(shù)據(jù)挖掘中非常成熟的聚類算法---譜系聚類（hierarchical clustering）和快速聚類（K-means）、兩階段聚類（Two-Step）。

(6)結(jié)果展示

二、聚類分析的優(yōu)缺點(diǎn)

（1）優(yōu)點(diǎn)

聚類分析模型的優(yōu)點(diǎn)就是直觀，結(jié)論形式簡(jiǎn)明。

（2）缺點(diǎn)

在樣本量較大時(shí)，要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo)，而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系，但事物之間卻無(wú)任何內(nèi)在聯(lián)系，此時(shí)，如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果，顯然是不適當(dāng)?shù)?，但是，聚類分析模型本身卻無(wú)法識(shí)別這類錯(cuò)誤。

三、使用時(shí)注意事項(xiàng)

類變量的測(cè)量尺度不同，需要事先對(duì)變量標(biāo)準(zhǔn)化；
聚類變量中如果有些變量非常相關(guān)，意味著這個(gè)變量的權(quán)重會(huì)更大；
歐式距離的平方是最常用的距離測(cè)量方法；
聚類算法要比距離測(cè)量方法對(duì)聚類結(jié)果影響更大；
標(biāo)準(zhǔn)化方法影響聚類模式：
變量標(biāo)準(zhǔn)化傾向產(chǎn)生基于數(shù)量的聚類；
樣本標(biāo)準(zhǔn)化傾向產(chǎn)生基于模式的聚類；
一般聚類個(gè)數(shù)在4－6類，不易太多，或太少；

四、聚類分析SPSS實(shí)現(xiàn)

以k-均值聚類為例：

分析--->分類---> k-均值聚類，進(jìn)入詳細(xì)設(shè)置選項(xiàng)卡。

2. 中間的聚類數(shù)表示的是我們?cè)O(shè)置的k值，默認(rèn)為2，我們可以根據(jù)自己的實(shí)際需求進(jìn)行更改，這里我們更改為3，即表示我們將數(shù)據(jù)分成3類。

3.本例統(tǒng)計(jì)量勾選上“初始聚類中心”和“每個(gè)個(gè)案的聚類信息”.

4.將標(biāo)準(zhǔn)化的數(shù)據(jù)添加到變量。將區(qū)市縣作為個(gè)案標(biāo)記依據(jù)。

5.點(diǎn)擊確定，spss自動(dòng)進(jìn)行處理，并輸出處理的結(jié)果，供我們分析。

五、聚類分析R語(yǔ)言實(shí)現(xiàn)

下面我們用iris數(shù)據(jù)集來(lái)進(jìn)行聚類分析，在R語(yǔ)言中所用到的函數(shù)為hclust。

第一步：對(duì)數(shù)據(jù)集進(jìn)行初步統(tǒng)計(jì)分析

詳細(xì)的統(tǒng)計(jì)描述在前期推送文檔“數(shù)據(jù)分析第一步：連續(xù)性數(shù)值變量統(tǒng)計(jì)描述常用SPSS及R操作過(guò)程”中有詳細(xì)介紹，這里就不在講解。

主要關(guān)注數(shù)據(jù)的熱圖和散點(diǎn)圖，從圖中可以看到顏色越深表示樣本間距離越近，大致上可以區(qū)分出三到四個(gè)區(qū)塊，其樣本之間比較接近。

data=iris[,-5]dist.e=dist(data,method='euclidean')heatmap(as.matrix(dist.e),labRow = F, labCol = F)

繪制熱圖的R-code:

data=iris[,-5]

dist.e=dist(data,method='euclidean')

heatmap(as.matrix(dist.e),labRow = F, labCol = F)

第二步：使用knn包進(jìn)行Kmean聚類分析

將數(shù)據(jù)集進(jìn)行備份，將列newiris$Species置為空，將此數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集;

newiris <->
newiris$Species <->

在數(shù)據(jù)集newiris上運(yùn)行Kmean聚類分析，將聚類結(jié)果保存在kc中。在kmean函數(shù)中，將需要生成聚類數(shù)設(shè)置為3;
(kc <- kmeans(newiris,="" 3))="">

結(jié)果:

第一行：K-means算法產(chǎn)生了3個(gè)聚類，大小分別為38,50,62;

第二行：Cluster means: 每個(gè)聚類中各個(gè)列值生成的最終平均值;

第三行：Clustering vector: 每行記錄所屬的聚類（2代表屬于第二個(gè)聚類，1代表屬于第一個(gè)聚類，3代表屬于第三個(gè)聚類）；

第四行：Within cluster sum of squares by cluster: 每個(gè)聚類內(nèi)部的距離平方和；(between_SS / total_SS =88.4 %) 組間的距離平方和占了整體距離平方和的的88.4%，也就是說(shuō)各個(gè)聚類間的距離做到了最大；

第五行：Available components: 運(yùn)行kmeans函數(shù)返回的對(duì)象所包含的各個(gè)組成部分：

'cluster'是一個(gè)整數(shù)向量，用于表示記錄所屬的聚類 'centers'是一個(gè)矩陣，表示每聚類中各個(gè)變量的中心點(diǎn)
'totss'表示所生成聚類的總體距離平方和
'withinss'表示各個(gè)聚類組內(nèi)的距離平方和
'tot.withinss'表示聚類組內(nèi)的距離平方和總量
'betweenss'表示聚類組間的聚類平方和總量
'size'表示每個(gè)聚類組中成員的數(shù)量；

第三步：創(chuàng)建一個(gè)連續(xù)表,在三個(gè)聚類中分別統(tǒng)計(jì)各種花出現(xiàn)的次數(shù)；

從表結(jié)果中可以看出，第一類里面里面有2個(gè)'versicolor'和36個(gè)“virginica”

根據(jù)最后的聚類結(jié)果畫出散點(diǎn)圖，數(shù)據(jù)為結(jié)果集中的列'Sepal.Length'和'Sepal.Width'，顏色為用1，2，3表示的缺省顏色;

plot(newiris[c('Sepal.Length', 'Sepal.Width')], col = kc$cluster)

最后在圖上標(biāo)出每個(gè)聚類的中心點(diǎn)

points(kc$centers[,c('Sepal.Length', 'Sepal.Width')], col = 1:3, pch = 8, cex=2)

微信ID：survival-analysis

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：生物_醫(yī)藥_科研 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)