聚類分析簡介
按照個體(記錄)的特征將它們分類,使同一類別內(nèi)的個體具有盡可能高的同質(zhì)性,而類別之間則具有盡可能高的異質(zhì)性。
為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對象之間的聯(lián)系的緊密程度。
假定研究對象均用所謂的“點”來表示。 在聚類分析中,一般的規(guī)則是將“距離”較小的點歸為同一類,將“距離”較大的點歸為不同的類。
常見的是對個體分類,也可以對變量分類,但對于變量分類此時一般使用相似系數(shù)作為“距離”測量指標(biāo)
- 聚類分析前所有個體所屬的類別是未知的,類別個數(shù)一般也未知,分析的依據(jù)就是原始數(shù)據(jù),可能事先沒有任何有關(guān)類別的信息可參考。
- 嚴格說來聚類分析并不是純粹的統(tǒng)計技術(shù),它不像其它多元分析法那樣,需要從樣本去推斷總體。一般都涉及不到有關(guān)統(tǒng)計量的分布,也不需要進行顯著性檢驗。
- 聚類分析更像是一種建立假設(shè)的方法,而對相關(guān)假設(shè)的檢驗還需要借助其它統(tǒng)計方法。
注意:聚類分析更像是一種建立假設(shè)的方法,而對于相關(guān)假設(shè)的檢驗還需要借助其他統(tǒng)計的方法,比如判別分析、T-檢驗、方差分析等,看聚類出來的幾個類別是否存在差異
聚類的用途
- 設(shè)計抽樣方案(分層抽樣)
- 預(yù)分析過程(先通過聚類分析達到簡化數(shù)據(jù)的目的,將眾多的個體先聚集成比較好處理的幾個類別或子集,然后再進行后續(xù)的多元分析)
- 細分市場、個體消費行為劃分(先聚類,然后再利用判別分析進一步研究各個群體之間的差異)
聚類分析的基本步驟總結(jié)
聚類方法
K均值聚類(K-means Cluster)
方法原理
- 選擇(或人為指定)某些記錄作為凝聚點
- 按就近原則將其余記錄向凝聚點凝集
- 計算出各個初始分類的中心位置(均值)
- 用計算出的中心位置重新進行聚類
- 如此反復(fù)循環(huán),直到凝聚點位置收斂為止
方法特點
- 要求已知類別數(shù)
- 可人為指定初始位置
- 節(jié)省運算時間
- 樣本量過大時有必要考慮
- 只能使用連續(xù)性變量
案例:移動通訊客戶細分
數(shù)據(jù)包含6個變量
是客戶編號(Customer_ID)
工作日上班時期電話時長(Peak_mins)
工作日下班時期電話時長(OffPeak_mins)
周末電話時長(Weekend_mins)
國際電話時長(International_mins)
總通話時長(Total_mins)
平均每次通話時長(average_mins)
根據(jù)前期的調(diào)研,研究者認為移動用戶應(yīng)當(dāng)被分為5個主要群體,現(xiàn)希望得到相應(yīng)的定量聚類結(jié)果。
(由于數(shù)據(jù)集過多,可到我的資源下載“spss之聚類分析--移動通訊客戶細分”)
看到結(jié)果無法收斂,所以重新設(shè)置迭代次數(shù),讓其收斂
但是最終聚類出來,結(jié)果怪怪的
各變量測量尺度,量綱不一樣,聚類計算其距離時量綱大的對結(jié)果影響大
如何進行標(biāo)化呢?
重新聚類
標(biāo)準(zhǔn)化的變量,一般在正負3以內(nèi),0代表平均水平
但是我們想看原始變量的原始水平,不看這標(biāo)準(zhǔn)化的
保存?zhèn)€案被劃分為哪個類
我們只想看均值
得到非標(biāo)準(zhǔn)化的聚類中心結(jié)果
解讀
- 第一類:高端商用客戶,總通話時間長,工作日上班時間通話比例高
- 第二類:少使用低端客戶,總通話時間短,各時段通話時間都短
- 第三類:中端商用客戶,總通話時間居中,工作日上班時間通話比例高
- 第四類:中端日常用客戶,總通話時間居中,工作日下班時間通話比例高
- 第五類:長聊客戶,每次通話時間長
層次聚類(Hierarchical Cluster)
屬于系統(tǒng)聚類法的一種,其聚類過程可以用樹形結(jié)構(gòu)(treelike structure)來描繪的方法
方法原理
- 先將所有n個變量/觀測看成不同的n類
- 然后將性質(zhì)最接近(距離最近)的兩類合并為一類
- 再從這n-1類中找到最接近的兩類加以合并
- 依此類推,直到所有的變量/觀測被合為一類
- 使用者再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類
特點
- 一旦記錄/變量被劃定類別,其分類結(jié)果就不會再進行更改
- 可以對變量或記錄進行聚類
- 變量可以為連續(xù)或分類變量(變量雖然可以為連續(xù)型或者分類型,但是不能混用,要不就是全分類這樣使用,要不就全連續(xù)變量聚類)
- 提供的距離測量方法非常豐富
- 運算速度較慢
案例:體操裁判打分傾向聚類(這個案例是對變量進行聚類)
SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個國家的裁判和未經(jīng)嚴格訓(xùn)練體育愛好者在評判體育比賽中對選手的評分情況。請根據(jù)在評分上的差異將它們分為適當(dāng)?shù)念悺?/p>
7.30 8.00 7.10 7.70 7.20 7.20 7.00 7.6 7.80 8.70 7.20 8.40 7.50 8.10 7.30 7.1 7.20 7.40 7.10 7.50 7.20 7.10 7.00 7.0 7.30 8.40 7.20 7.90 7.50 8.50 7.30 7.1 7.70 7.80 7.20 8.40 7.60 7.40 7.10 7.1 7.30 7.60 7.20 8.10 7.30 7.20 7.00 7.0 8.30 8.30 7.70 8.50 7.80 7.80 7.20 7.8 9.60 9.80 9.30 9.80 8.80 9.90 9.40 10.0 9.10 8.80 8.60 9.10 7.80 9.30 8.50 8.5 9.50 9.70 9.00 9.60 8.90 9.80 9.20 10.0 7.80 8.50 8.30 9.10 8.00 9.50 7.60 7.9 8.60 8.90 7.80 9.00 8.00 8.70 7.80 7.8 8.50 9.10 8.10 9.30 8.00 8.30 7.80 8.5 9.20 9.10 8.00 9.40 8.50 9.60 8.60 8.9 8.20 9.20 7.90 9.10 7.80 8.30 7.50 8.2 7.00 7.50 7.10 7.40 7.10 7.10 7.00 7.7 9.70 9.90 9.10 9.70 9.00 10.00 9.60 9.9 9.80 9.90 9.50 9.80 9.00 10.00 9.70 9.9 8.60 9.40 8.20 9.50 8.70 9.80 8.30 9.5 8.80 9.00 7.90 8.50 8.10 9.30 8.00 9.8 9.30 9.80 9.30 9.80 8.70 10.00 9.30 9.3 7.50 7.90 7.20 8.10 7.30 7.70 7.10 7.2 9.00 9.30 7.80 9.10 8.20 9.40 8.10 8.5 8.90 9.70 8.90 9.50 8.60 9.70 9.40 9.2 9.90 10.00 9.70 9.90 9.40 10.00 9.90 9.9 7.20 7.20 7.00 7.90 7.10 7.10 7.00 7.3 7.00 7.10 7.00 7.20 7.00 7.00 7.00 7.0 7.30 7.50 7.10 7.60 7.30 7.90 7.10 7.6 9.00 9.00 8.10 9.10 7.80 9.30 7.70 7.1 7.50 8.50 7.20 8.50 8.00 8.90 7.20 7.6 9.10 9.70 8.60 9.60 9.10 9.90 9.50 7.6 7.60 8.00 7.20 8.90 7.40 7.60 7.10 7.2 7.70 8.30 7.40 8.40 7.50 8.30 7.40 8.5 7.70 7.90 7.30 8.70 7.40 7.70 7.30 8.3 8.10 8.40 7.90 8.90 7.90 8.60 7.70 7.0 8.50 9.60 8.70 9.20 8.40 9.30 8.30 8.7 9.80 9.80 9.70 9.90 8.90 9.90 9.80 9.9 9.20 9.20 8.10 9.60 8.40 9.60 8.80 9.2 9.90 9.90 9.70 9.90 9.10 10.00 9.70 9.8 8.90 8.70 7.90 9.00 8.40 9.70 8.40 7.5 9.90 10.00 9.20 9.90 9.00 10.00 9.30 8.0 7.50 8.50 7.50 8.20 7.50 8.70 7.90 9.4 8.90 9.60 8.80 9.30 8.40 9.90 9.20 9.1 7.70 8.70 7.40 8.50 7.70 8.30 7.30 7.1 9.70 9.90 9.40 9.80 9.20 9.90 9.60 10.0 9.60 9.90 8.80 9.70 9.00 9.90 9.30 9.2 7.60 8.40 7.60 8.60 7.50 8.00 7.20 7.1 8.30 8.40 7.30 8.50 7.60 7.60 7.30 7.8 8.90 8.90 8.30 9.00 8.30 9.50 8.70 9.4 9.50 9.90 8.60 9.60 8.60 9.90 9.30 8.8 7.90 8.50 7.60 8.30 7.60 8.40 7.30 7.1 8.70 9.60 8.00 9.30 8.30 9.30 8.00 8.8 7.30 7.90 7.20 7.70 7.30 8.00 7.00 8.0 7.30 7.40 7.00 7.80 7.20 7.60 7.00 7.2 7.10 7.20 7.10 7.50 7.10 7.20 7.00 7.0 9.80 10.00 9.50 9.90 9.40 10.00 9.90 10.0 9.30 9.50 8.50 9.40 7.90 9.50 8.70 9.8 8.50 9.00 7.50 8.90 7.90 9.10 7.70 8.6 9.70 10.00 9.40 9.90 9.10 10.00 9.90 9.7 8.70 8.40 8.00 8.90 7.60 9.40 7.40 9.9 7.50 7.80 7.20 8.10 7.30 7.80 7.30 8.5 8.20 8.70 7.90 9.00 8.10 8.90 8.50 7.9 8.70 9.50 8.30 9.60 8.10 9.80 8.50 8.3 9.40 9.70 9.10 9.40 8.80 9.90 8.90 9.9 8.90 9.80 8.20 9.30 8.20 9.70 8.50 9.5 9.80 9.90 9.20 9.60 9.30 9.90 9.90 10.0 9.00 9.60 8.30 9.60 8.20 9.60 8.70 9.8 8.30 8.60 7.90 8.50 7.90 9.50 8.40 9.3 8.80 9.10 8.00 9.10 8.00 9.50 8.80 9.8 8.40 8.40 7.40 8.70 7.90 8.40 7.40 8.0 9.90 10.00 9.80 9.70 9.50 10.00 10.00 8.3 8.80 9.20 8.60 9.20 8.00 9.50 7.50 7.3 8.90 9.00 8.00 9.10 7.90 9.30 7.90 8.3 9.50 10.00 9.50 9.80 9.10 10.00 9.70 9.1 9.00 9.50 8.30 9.30 8.60 9.80 9.30 9.1 9.70 9.40 9.10 9.50 9.00 9.90 9.40 10.0 8.70 9.60 8.90 9.70 8.80 9.70 9.10 10.0 7.40 7.80 7.10 8.20 7.10 7.90 7.10 8.7 8.10 8.90 8.00 9.10 8.10 9.30 8.10 8.5 7.80 8.40 7.60 8.30 7.50 7.80 7.20 8.2 7.50 7.40 7.10 8.10 7.20 7.30 7.10 7.8 7.70 8.10 7.40 8.70 7.60 8.50 7.60 7.2 9.80 10.00 9.70 9.90 9.30 10.00 9.80 10.0 7.10 7.60 7.00 7.80 7.20 7.20 7.00 7.1 9.70 9.70 9.20 9.70 8.60 10.00 9.40 7.3 9.60 9.20 9.00 9.40 8.60 9.60 9.10 9.8 9.80 9.90 9.30 9.70 8.80 10.00 9.30 9.6 7.10 7.20 7.10 7.70 7.10 7.10 7.00 7.0 7.40 7.80 7.20 8.40 7.50 7.60 7.20 8.5 8.70 8.50 8.20 9.20 7.80 8.20 7.60 7.9 7.30 8.10 7.10 8.00 7.10 7.50 7.20 7.5 8.50 9.20 8.40 9.30 7.90 9.50 8.60 9.4 8.90 9.60 8.70 9.50 8.50 9.60 9.30 7.8 7.00 7.40 7.00 7.50 7.00 7.10 7.00 7.2 7.70 8.90 7.20 8.70 7.90 8.60 7.50 8.2 7.90 8.90 7.40 9.00 7.90 8.80 7.70 7.2 7.10 7.50 7.10 7.90 7.10 7.20 7.00 7.0 8.30 9.10 7.50 8.70 7.80 8.40 7.50 8.2 8.50 9.00 8.10 8.90 7.90 9.30 7.80 9.0 9.60 9.90 9.30 9.70 9.00 9.90 9.50 9.3 8.80 9.40 8.20 9.30 8.10 9.90 8.60 8.6 8.30 8.60 7.50 8.80 7.60 8.60 7.30 7.3 9.50 9.20 8.90 9.50 8.50 9.90 9.10 9.9 7.60 8.30 7.50 8.70 7.50 8.00 7.80 7.6 9.40 9.80 9.10 9.60 8.40 9.70 9.40 8.9 7.30 7.90 7.40 7.90 7.20 8.30 7.20 7.7 8.70 9.20 7.50 9.20 7.50 8.10 7.40 9.7 7.40 7.50 7.10 8.30 7.10 7.30 7.00 7.1 8.50 9.60 8.40 9.10 8.10 9.50 8.30 9.7 8.40 8.80 7.70 9.10 8.00 9.30 8.30 8.2 8.80 9.30 7.50 9.30 7.80 9.20 8.30 7.9 9.90 10.00 9.70 9.80 9.50 10.00 10.00 10.0 7.00 7.20 7.00 7.60 7.10 7.10 7.00 7.0 8.80 9.40 8.60 9.10 7.80 8.70 8.30 9.2 7.20 7.80 7.10 8.00 7.10 7.60 7.10 7.1 8.70 9.70 8.90 9.70 8.40 9.70 9.30 9.2 7.10 7.40 7.10 7.70 7.10 7.00 7.00 7.1 7.90 9.00 7.30 8.50 7.30 8.30 7.30 7.0 8.70 9.40 7.70 9.10 7.80 9.10 8.70 9.8 7.20 7.60 7.10 8.10 7.30 7.70 7.10 7.3 9.10 9.80 8.40 9.50 8.60 9.60 8.20 9.8 8.30 8.40 8.20 8.60 7.90 9.30 8.20 7.0 8.70 9.80 8.90 9.40 8.00 9.70 8.30 9.5 8.40 8.80 7.30 9.30 7.40 8.60 7.70 7.0 9.30 9.90 9.00 9.70 8.50 9.70 9.40 9.9 9.20 9.50 8.60 9.60 8.20 9.50 9.40 8.3 7.40 7.60 7.10 8.30 7.20 7.10 7.00 7.0 7.30 8.00 7.10 8.30 7.30 7.50 7.40 7.8 8.70 9.50 8.20 9.60 8.20 9.50 8.80 8.0 7.20 8.60 7.10 8.00 7.30 7.70 7.00 8.5 8.80 8.10 7.50 8.70 7.70 8.40 7.50 7.7 9.20 9.70 8.70 9.70 8.50 9.40 9.00 9.5 7.60 7.80 7.20 8.30 7.40 8.00 7.10 7.1 7.90 8.50 7.40 8.30 7.40 8.40 7.10 7.4 7.70 7.70 7.20 8.30 7.20 8.10 7.10 9.1 7.50 8.30 7.60 8.60 7.30 8.20 7.50 7.3 8.80 8.60 7.60 8.90 7.80 9.00 7.80 9.5 7.60 7.90 7.30 8.10 7.40 7.70 7.10 7.1 9.30 9.60 8.70 9.40 7.90 9.10 8.30 7.8 8.10 8.70 7.70 8.80 7.70 8.70 7.90 9.3 9.80 9.90 9.40 9.70 8.80 9.80 9.40 8.8 9.90 9.80 9.30 9.90 8.80 9.90 9.80 9.9 8.90 9.10 8.50 9.50 8.40 9.80 8.80 9.9 7.90 8.30 7.80 8.80 7.50 8.30 7.30 7.9 8.10 9.00 7.30 8.30 7.30 7.30 7.10 9.0 9.20 8.70 7.80 9.00 8.00 9.10 7.90 7.1 9.80 9.90 9.70 9.90 9.30 10.00 9.90 9.8 9.20 9.10 8.70 8.90 7.90 9.20 8.40 9.1 7.50 8.00 7.30 7.90 7.30 8.10 7.30 7.6 8.10 8.90 7.70 8.90 7.60 8.40 8.10 7.6 9.60 9.90 9.20 9.70 8.90 9.90 9.60 9.7 9.00 9.00 8.00 9.40 8.30 9.10 8.70 8.2 7.10 7.30 7.10 7.80 7.10 7.30 7.00 7.0 9.70 9.90 9.40 9.70 9.30 10.00 9.80 9.5 9.60 9.90 9.50 9.60 8.70 10.00 9.30 7.6 7.20 7.80 7.20 8.00 7.30 7.10 7.00 7.0 9.60 9.90 9.50 9.90 9.30 9.90 9.90 10.0 8.30 8.80 7.30 9.00 7.60 8.70 7.10 8.9 7.90 9.10 7.50 8.90 7.50 8.60 8.10 7.6 9.30 9.70 8.80 9.70 8.70 9.70 9.50 7.7 9.50 9.90 8.70 9.70 9.10 9.90 9.50 9.9 8.10 8.70 7.20 8.70 7.50 7.80 7.40 9.5 7.80 7.80 7.30 8.60 7.40 7.50 7.10 7.2 9.70 9.90 9.00 9.70 9.20 10.00 9.60 9.4 8.10 9.30 7.60 9.00 7.90 8.10 8.00 7.4 7.80 8.40 7.20 8.10 7.40 7.80 7.10 7.9 8.50 8.90 7.50 8.80 7.90 8.60 7.70 8.9 9.30 9.80 9.20 9.40 8.90 9.80 9.10 9.9 7.90 8.30 7.40 8.60 7.50 7.70 7.30 7.8 8.20 9.10 8.20 9.00 7.80 8.50 8.10 8.2 9.40 9.70 8.30 9.10 8.20 9.40 8.40 7.5 9.00 9.60 9.00 9.50 8.80 9.60 9.40 9.9 8.60 8.60 8.00 9.10 8.10 9.20 7.70 7.7 9.40 9.90 9.50 9.80 9.20 10.00 9.40 9.9 8.20 9.40 8.30 9.20 8.20 9.10 8.80 9.4 7.90 9.20 7.90 9.00 7.90 8.90 7.70 9.9 7.90 8.30 7.60 8.80 7.50 8.00 7.20 7.1 9.40 9.90 9.70 9.70 9.20 10.00 9.40 9.8 9.10 9.40 8.40 9.20 8.50 9.90 8.80 7.7 7.90 8.40 7.40 8.60 7.60 8.80 7.50 7.0 8.80 9.50 8.50 9.70 8.00 9.60 8.90 9.4 9.80 9.90 9.40 9.90 9.30 9.90 9.70 9.6 8.30 9.30 7.70 9.20 7.90 9.30 8.60 9.2 9.70 9.80 8.80 9.70 9.20 9.90 9.50 8.3 9.00 9.60 8.40 9.40 8.30 9.10 9.00 9.2 7.20 7.10 7.00 7.50 7.10 7.30 7.00 7.5 7.70 8.50 7.40 8.70 7.70 8.30 7.30 9.5 8.20 8.00 7.40 8.40 7.40 8.30 7.20 8.9 7.40 7.70 7.10 7.80 7.30 7.10 7.20 7.0 8.30 8.80 7.60 9.10 7.70 8.90 7.80 7.5 9.80 9.80 9.80 9.90 8.60 10.00 9.90 8.8 9.80 9.90 9.30 9.80 9.10 10.00 9.50 9.3 8.70 9.10 8.20 9.10 8.20 9.10 8.20 8.4 7.90 8.60 7.40 8.50 7.60 8.40 7.30 8.5 7.50 8.00 7.30 8.00 7.40 8.00 7.10 7.1 7.20 7.60 7.20 8.00 7.40 7.30 7.00 8.9 9.50 9.70 8.30 9.60 8.70 9.80 8.70 9.7 8.30 8.10 7.50 9.00 7.30 7.50 7.20 7.4 9.50 9.80 9.50 9.70 9.10 9.80 8.80 9.3 8.40 8.70 8.10 9.20 7.90 8.50 7.30 8.1 9.80 9.80 8.70 9.60 8.70 9.90 9.40 9.9 8.70 8.50 7.50 8.40 7.70 8.20 7.30 8.6 9.70 9.90 8.90 9.80 9.00 9.90 9.20 9.4 7.80 8.50 8.00 8.80 8.00 9.20 7.30 7.4 8.30 8.70 7.50 8.40 7.50 8.70 7.20 7.8 8.00 8.40 7.50 8.60 7.50 7.50 7.20 8.8 7.50 8.20 7.20 8.50 7.30 8.00 7.10 7.0 9.70 9.90 9.50 9.80 8.70 10.00 9.90 9.8 9.70 9.90 9.70 9.90 9.40 10.00 9.80 9.8 7.00 7.10 7.00 7.20 7.00 7.00 7.00 7.0 7.50 8.20 7.10 8.40 7.20 7.80 7.10 8.0 8.60 9.20 8.50 9.20 8.50 9.60 8.40 8.1 9.00 9.40 7.90 9.50 8.40 9.30 8.20 9.7 8.40 8.70 7.50 9.20 7.80 8.30 7.70 7.6 8.00 9.20 7.80 8.90 7.90 8.40 7.30 10.0 8.50 8.70 8.20 9.40 7.80 9.50 8.20 7.9 7.20 8.20 7.30 8.30 7.50 7.80 7.10 7.5 7.20 7.90 7.10 7.90 7.20 7.70 7.00 8.3 8.30 8.60 7.30 9.00 7.80 8.20 8.10 7.7 7.20 7.40 7.10 7.80 7.10 7.20 7.00 7.3 9.20 9.80 8.80 9.50 8.60 10.00 9.30 9.6 8.40 9.00 7.50 9.10 8.00 8.90 8.00 9.2 7.30 7.50 7.00 8.00 7.30 7.10 7.00 7.8 8.40 9.50 8.30 9.40 8.20 9.40 9.20 9.0 7.60 8.10 7.60 8.60 7.30 8.00 7.10 7.6 7.60 8.40 7.30 8.40 7.30 8.20 7.10 7.3 7.40 7.80 7.10 8.00 7.20 7.50 7.10 7.0 8.70 9.00 8.00 9.40 7.70 8.90 7.80 7.9 9.50 9.90 9.30 9.60 9.10 9.90 9.50 9.0 9.30 9.80 8.80 9.60 9.20 9.70 9.40 8.7 9.80 9.80 9.00 9.70 8.60 10.00 9.30 9.8 8.20 9.00 7.10 8.90 7.50 8.90 7.50 7.9 8.00 8.40 7.30 8.40 7.30 7.90 7.40 7.2 8.80 9.30 8.70 9.20 8.20 9.10 8.20 8.4 8.70 8.70 7.40 8.90 7.80 9.20 7.60 9.4 7.10 7.60 7.00 7.70 7.10 7.10 7.00 7.1 8.60 8.50 7.90 9.20 7.80 9.20 7.40 8.6 7.70 8.00 7.20 8.50 7.40 8.10 7.10 9.2 8.10 8.80 7.70 8.90 8.00 9.10 7.90 8.7 8.40 9.20 8.50 9.50 8.50 9.80 8.20 9.7 9.20 9.70 9.20 9.60 9.00 9.80 9.60 9.5 9.90 9.80 9.30 9.80 8.80 9.90 9.80 9.9 9.60 9.90 8.70 9.60 8.30 9.90 9.30 9.5 7.00 7.20 7.00 7.30 7.00 7.00 7.00 7.3 7.60 8.20 7.40 8.90 7.60 8.10 7.30 7.2 8.30 9.20 7.90 9.10 8.00 9.00 8.00 8.9 9.60 9.80 8.50 9.50 8.60 9.80 9.20 7.6 8.50 8.80 7.60 8.80 7.80 8.90 7.40 8.5 9.80 10.00 9.30 9.90 9.20 9.90 9.90 10.0 9.50 9.80 9.40 9.50 8.90 10.00 9.70 10.0 8.50 9.20 8.10 9.10 8.50 9.70 7.70 9.9 7.40 7.90 7.10 8.20 7.10 7.90 7.30 7.2 8.00 9.20 7.90 9.10 8.00 8.80 7.30 9.6 9.20 9.60 8.00 9.50 8.40 9.60 9.50 10.0 8.80 9.70 8.20 9.50 8.90 9.50 8.20 8.8 7.10 7.60 7.40 7.80 7.20 7.40 7.00 7.1 9.00 9.70 8.20 9.50 7.90 9.60 8.60 9.9 7.60 8.90 8.40 9.20 7.90 8.20 7.60 8.2 9.70 9.70 9.30 9.70 9.00 9.90 9.60 7.8 8.20 9.20 8.10 9.00 7.70 9.00 8.60 7.3 9.00 9.00 8.10 9.30 8.00 10.00 8.70 9.9 9.10 9.30 8.20 9.50 8.20 9.70 8.50 9.4 10.00 10.00 9.80 9.90 9.40 10.00 9.90 9.4 7.50 8.30 7.30 8.30 7.90 7.60 7.20 7.3 9.80 9.90 9.10 9.40 8.30 9.90 9.20 9.4 8.90 9.50 8.60 9.60 8.40 9.20 8.00 9.7 7.90 8.80 7.40 8.50 7.50 8.20 8.10 9.2 9.30 9.90 9.10 9.60 9.00 9.60 9.50 9.8 7.80 8.70 7.60 8.70 7.60 9.10 7.30 7.1 9.00 9.60 8.60 9.20 7.80 9.30 8.10 7.3 9.50 9.80 8.50 9.30 8.40 9.60 8.90 8.2 8.70 9.60 8.70 9.10 8.40 9.70 8.40 9.9 7.90 8.40 7.40 8.40 7.50 7.90 7.30 7.5 7.00 7.10 7.00 7.60 7.10 7.10 7.00 7.0 9.20 9.90 8.70 9.70 9.50 9.90 9.60 9.3 8.90 9.00 7.60 9.20 7.80 9.30 7.70 7.7 7.80 8.10 7.70 8.60 7.50 8.60 7.20 8.2 7.80 8.10 7.40 8.10 7.30 8.40 7.10 8.0 9.40 9.90 9.60 9.70 9.50 10.00 9.80 10.0 9.30 9.50 8.70 9.50 8.20 9.70 8.90 8.5 8.40 9.50 8.60 9.20 8.40 9.70 8.60 8.2 9.70 9.90 9.00 9.90 9.00 10.00 9.70 8.4 9.00 9.70 8.70 9.40 8.10 9.80 9.10 9.6 9.30 9.50 8.80 9.70 8.50 9.90 9.50 8.3 7.90 9.30 8.10 9.20 7.70 9.00 8.40 7.3 8.80 9.60 8.80 9.50 8.30 9.80 8.50 7.6 7.40 7.50 7.10 7.80 7.30 7.30 7.00 7.4 9.70 9.90 8.60 9.80 9.30 10.00 9.70 8.2 7.80 8.20 7.40 9.00 7.40 7.90 7.20 9.7 9.20 9.50 8.70 9.60 8.20 9.60 8.80 8.8 8.30 8.70 7.90 9.10 8.40 9.50 8.40 9.2 7.80 8.70 7.50 8.30 7.40 8.40 7.40 7.3 9.80 9.90 9.60 9.90 9.10 10.00 9.80 9.9 7.90 8.40 7.50 8.50 7.90 8.20 7.50 7.1 9.00 9.40 8.70 9.60 8.40 9.70 8.70 7.9 8.40 9.20 8.00 9.00 7.90 9.20 8.40 8.2 9.70 9.60 9.20 9.50 8.90 9.50 9.40 10.0 7.30 7.60 7.10 7.70 7.10 7.10 7.00 7.7 7.80 8.20 7.50 8.20 7.40 7.60 7.20 7.0 8.40 9.20 8.10 9.30 7.70 8.40 7.70 9.8
為什么不能使用K均值聚類呢?
因為K均值聚類只能對案例做聚類,這個是對變量做聚類
而且K均值聚類需要確定類別數(shù),目前是不知道的
我們是對變量做聚類,冰柱圖看起來太麻煩了,直接看樹狀圖
聚類過程 ,系數(shù)代表距離,距離什么含義,要看我們使用了什么距離指標(biāo)
樹狀圖,233.297換算成下面的25
發(fā)現(xiàn)意大利和東方集團(中國、俄羅斯、羅馬尼亞)聚類有一些問題
變量聚類一般默認距離為相關(guān)性(默認是平方歐氏距離)
得到的結(jié)果好很多
這個例子也可以使用因子分析解決
擴展:
一般聚類方法組間聯(lián)接是最好的;ward法聚類出來會比較平均
度量標(biāo)準(zhǔn) :案例--平方歐式距離最好
變量--皮爾遜相關(guān)性最好
關(guān)于標(biāo)準(zhǔn)化問題
K均值聚類需要自己手動
系統(tǒng)聚類如下
前面說的兩種方法是經(jīng)典的分析聚類方法,還有智能分析聚類方法
兩步聚類算法(TwoStep Cluster)
特點:
- 處理對象:分類變量和連續(xù)變量
- 自動決定最佳分類數(shù)
- 快速處理大數(shù)據(jù)集
前提假設(shè):
- 變量間彼此獨立
- 分類變量服從多項分布,連續(xù)變量服從正態(tài)分布
其實稍微違反假設(shè)條件其實也不要緊,結(jié)果很穩(wěn)健,其會自動剔除異常值
數(shù)據(jù)集還是(我的資源下載“spss之聚類分析--移動通訊客戶細分”)
spss使用該模型自動對連續(xù)變量進行標(biāo)化
設(shè)置其最大聚類數(shù)
聚類需要注意的地方
使用默認值即可
無關(guān)變量有時會引起嚴重的錯分
應(yīng)當(dāng)只引入在不同類間有顯著差別的變量
盡量只使用相同類型的變量進行分析(使用連續(xù)變量,將分類變量用于結(jié)果解釋;新的聚類方法比如兩步聚類算法可以同時使用這些變量)
對記錄聚類結(jié)果有較大的影響,相當(dāng)于某個變量在聚類中的權(quán)重大于其它變量
最好先進行預(yù)處理
變量量綱/變異程度相差非常大時需要進行
數(shù)理統(tǒng)計算法上要求一律標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化后會削弱有用變量的作用
影響較大
還沒有比較好的解決辦法
盡力避免
從實用角度講,2~8類比較合適
一定要結(jié)合專業(yè)知識進行分析
聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析
聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產(chǎn)生實質(zhì)性的影響
不管實際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解
|