小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘方法:聚類分析簡(jiǎn)要介紹 及SPSS&R實(shí)現(xiàn)

 生物_醫(yī)藥_科研 2019-01-24


物以類聚,人以群分,聚類分析是一種重要的多變量統(tǒng)計(jì)方法,但記住其實(shí)它是一種數(shù)據(jù)分析方法,不能進(jìn)行統(tǒng)計(jì)推斷的。聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品(individuals, objects or subjects)的特征將它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity),而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。諸如常將醫(yī)院按照等級(jí)分為一級(jí)、二級(jí)、三級(jí),這個(gè)可以簡(jiǎn)單的看作是一種聚類,所有的三級(jí)綜合醫(yī)院最基本的一個(gè)指標(biāo)是床位數(shù)在500張以上,那我們可以認(rèn)為此類醫(yī)院在床位上具有很高的同質(zhì)性,相比于綜合性質(zhì)的二級(jí)醫(yī)院床位數(shù)要求100~499之間,那我們可以認(rèn)為三級(jí)綜合性質(zhì)醫(yī)院與二級(jí)綜合性質(zhì)醫(yī)院在床位數(shù)上存在異質(zhì)性。為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來(lái)定量地描述研究對(duì)象之間的聯(lián)系的緊密程度。常用的指標(biāo)為距離相似系數(shù),假定研究對(duì)象均用所謂的點(diǎn)來(lái)表示。在聚類分析中,一般的規(guī)則是將距離較小的點(diǎn)或相似系數(shù)較大的點(diǎn)歸為同一類,將距離較大的點(diǎn)或相似系數(shù)較小的點(diǎn)歸為不同的類(一般的相似系數(shù)就是相關(guān)系數(shù)了)。諸如某兩家醫(yī)院在床位數(shù),科室數(shù)等指標(biāo)上具有很好的相似度,二者做統(tǒng)計(jì)學(xué)上的相關(guān)性檢驗(yàn),發(fā)現(xiàn)相關(guān)系數(shù)很高,即二者很相似,我們可以將二者聚為一類。

一、聚類分析的步驟

主要涉及到以下六步:

(1)選取指標(biāo)

聚類的第一步是指標(biāo)的選取,因?yàn)榫垲愂菍⒃谀承┲笜?biāo)上相似度很高的一類醫(yī)療機(jī)構(gòu)聚為一類。

(2)指標(biāo)權(quán)重

第一步所選取的指標(biāo),聚類時(shí)并非同等對(duì)待,有個(gè)重要程度的排序聚類,即指標(biāo)的聚類有個(gè)先后過(guò)程,諸如醫(yī)院級(jí)別的聚類,我們有床位數(shù)和醫(yī)院科室數(shù)這兩個(gè)聚類指標(biāo),兩個(gè)指標(biāo)的相比我們發(fā)現(xiàn),床位數(shù)更能區(qū)別開(kāi)兩家不同級(jí)別的醫(yī)院,即聚類是我們先按照床位數(shù)相似性程度將醫(yī)院分開(kāi)聚類,其次在上述聚類好的某類醫(yī)院內(nèi)部再按照科室數(shù)聚類。

(3) 數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化處理)

按照某些指標(biāo)聚類時(shí),由于各項(xiàng)指標(biāo)數(shù)據(jù)的極差和量綱都不相同,為使各項(xiàng)指標(biāo)具有可比性,現(xiàn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使他們處于同一量綱等級(jí),再進(jìn)行聚類。

(4)最佳類數(shù)選擇

因?yàn)榫垲惙治鲋皇且环N方法,聚類用的指標(biāo)越多,聚類的類別越多越細(xì)。聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,比較復(fù)雜的就是最終類個(gè)數(shù)的選擇。這里采用最大原則確定最佳聚類個(gè)數(shù)(諸如將三級(jí)綜合性質(zhì)的醫(yī)院聚為幾類最佳)。即選取評(píng)價(jià)聚類個(gè)數(shù)的30個(gè)指標(biāo),分別為'cindex', “ott', 'marriot', 'trcovw', 'tracew', 'friedman', 'rubin', 'db', 'silhouette', 'duda', 'pseudot2', 'beale', 'ratkowsky', 'ball', 'ptbiserial', 'gap', 'frey', 'mcclain', 'gamma', 'gplus', 'tau', 'dunn', 'hubert', 'sdindex', 'dindex', 'sdbw'。最終我們統(tǒng)計(jì)30個(gè)指標(biāo)建議聚成幾類的頻數(shù),頻數(shù)最大的即為最佳聚類個(gè)數(shù)。

(5)聚類算法

什么樣的聚類算法可以使上述評(píng)判指標(biāo)最優(yōu),即利用何種方法把上述相似的指標(biāo)放在一起使聚類效果最佳,數(shù)據(jù)挖掘中非常成熟的聚類算法---譜系聚類(hierarchical clustering)和快速聚類(K-means)、兩階段聚類(Two-Step)。

(6)結(jié)果展示

二、聚類分析的優(yōu)缺點(diǎn)

(1)優(yōu)點(diǎn)

聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。

(2)缺點(diǎn)

在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無(wú)任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)?,但是,聚類分析模型本身卻無(wú)法識(shí)別這類錯(cuò)誤。

三、使用時(shí)注意事項(xiàng)

  • 類變量的測(cè)量尺度不同,需要事先對(duì)變量標(biāo)準(zhǔn)化;

  • 聚類變量中如果有些變量非常相關(guān),意味著這個(gè)變量的權(quán)重會(huì)更大;

  • 歐式距離的平方是最常用的距離測(cè)量方法;

  • 聚類算法要比距離測(cè)量方法對(duì)聚類結(jié)果影響更大;

  • 標(biāo)準(zhǔn)化方法影響聚類模式:

  • 變量標(biāo)準(zhǔn)化傾向產(chǎn)生基于數(shù)量的聚類;

  • 樣本標(biāo)準(zhǔn)化傾向產(chǎn)生基于模式的聚類;

  • 一般聚類個(gè)數(shù)在4-6類,不易太多,或太少;

、聚類分析SPSS實(shí)現(xiàn)

以k-均值聚類為例:

  1. 分析--->分類---> k-均值聚類,進(jìn)入詳細(xì)設(shè)置選項(xiàng)卡。


2. 中間的聚類數(shù)表示的是我們?cè)O(shè)置的k值,默認(rèn)為2,我們可以根據(jù)自己的實(shí)際需求進(jìn)行更改,這里我們更改為3,即表示我們將數(shù)據(jù)分成3類。


3.本例統(tǒng)計(jì)量勾選上“初始聚類中心”和“每個(gè)個(gè)案的聚類信息”.


4.將標(biāo)準(zhǔn)化的數(shù)據(jù)添加到變量。將區(qū)市縣作為個(gè)案標(biāo)記依據(jù)。

5.點(diǎn)擊確定,spss自動(dòng)進(jìn)行處理,并輸出處理的結(jié)果,供我們分析。


五、聚類分析R語(yǔ)言實(shí)現(xiàn)

下面我們用iris數(shù)據(jù)集來(lái)進(jìn)行聚類分析,在R語(yǔ)言中所用到的函數(shù)為hclust。

第一步:對(duì)數(shù)據(jù)集進(jìn)行初步統(tǒng)計(jì)分析

詳細(xì)的統(tǒng)計(jì)描述在前期推送文檔數(shù)據(jù)分析第一步:連續(xù)性數(shù)值變量統(tǒng)計(jì)描述常用SPSS及R操作過(guò)程”中有詳細(xì)介紹,這里就不在講解。

主要關(guān)注數(shù)據(jù)的熱圖和散點(diǎn)圖,從圖中可以看到顏色越深表示樣本間距離越近,大致上可以區(qū)分出三到四個(gè)區(qū)塊,其樣本之間比較接近。

data=iris[,-5]dist.e=dist(data,method='euclidean')heatmap(as.matrix(dist.e),labRow = F, labCol = F)


繪制熱圖的R-code:

data=iris[,-5]

dist.e=dist(data,method='euclidean')

heatmap(as.matrix(dist.e),labRow = F, labCol = F)

第二步:使用knn包進(jìn)行Kmean聚類分析

  • 將數(shù)據(jù)集進(jìn)行備份,將列newiris$Species置為空,將此數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集;

newiris <->

newiris$Species <->


  • 在數(shù)據(jù)集newiris上運(yùn)行Kmean聚類分析, 將聚類結(jié)果保存在kc中。在kmean函數(shù)中,將需要生成聚類數(shù)設(shè)置為3;

  • (kc <- kmeans(newiris,="" 3))="">

結(jié)果:

第一行:K-means算法產(chǎn)生了3個(gè)聚類,大小分別為38,50,62;

第二行:Cluster means: 每個(gè)聚類中各個(gè)列值生成的最終平均值;

第三行:Clustering vector: 每行記錄所屬的聚類(2代表屬于第二個(gè)聚類,1代表屬于第一個(gè)聚類,3代表屬于第三個(gè)聚類);

第四行:Within cluster sum of squares by cluster: 每個(gè)聚類內(nèi)部的距離平方和 ;(between_SS / total_SS =88.4 %) 組間的距離平方和占了整體距離平方和的的88.4%,也就是說(shuō)各個(gè)聚類間的距離做到了最大;

第五行:Available components: 運(yùn)行kmeans函數(shù)返回的對(duì)象所包含的各個(gè)組成部分:

'cluster'是一個(gè)整數(shù)向量,用于表示記錄所屬的聚類 'centers'是一個(gè)矩陣,表示每聚類中各個(gè)變量的中心點(diǎn)
'totss'表示所生成聚類的總體距離平方和
'withinss'表示各個(gè)聚類組內(nèi)的距離平方和
'tot.withinss'表示聚類組內(nèi)的距離平方和總量
'betweenss'表示聚類組間的聚類平方和總量
'size'表示每個(gè)聚類組中成員的數(shù)量;


第三步:創(chuàng)建一個(gè)連續(xù)表,在三個(gè)聚類中分別統(tǒng)計(jì)各種花出現(xiàn)的次數(shù);


從表結(jié)果中可以看出,第一類里面里面有2個(gè)'versicolor'和36個(gè)“virginica”


根據(jù)最后的聚類結(jié)果畫出散點(diǎn)圖,數(shù)據(jù)為結(jié)果集中的列'Sepal.Length'和'Sepal.Width',顏色為用1,2,3表示的缺省顏色;

plot(newiris[c('Sepal.Length', 'Sepal.Width')], col = kc$cluster)


最后在圖上標(biāo)出每個(gè)聚類的中心點(diǎn)

points(kc$centers[,c('Sepal.Length', 'Sepal.Width')], col = 1:3, pch = 8, cex=2)




微信ID:survival-analysis

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多