數(shù)據(jù)挖掘的第一步就是要搞懂聚類分析

黃元章3355 2018-10-11

展開全文

愛數(shù)據(jù)學習社

welcome

大數(shù)據(jù)分析中的應(yīng)用，最常用的經(jīng)典算法之一就是聚類法，這是數(shù)據(jù)挖掘采用的起步技術(shù)，也是數(shù)據(jù)挖掘入門的一項關(guān)鍵技術(shù)。什么是聚類分析？聚類分析有什么用？聚類算法有哪些？聚類分析的應(yīng)用……這些問題的探究可為大數(shù)據(jù)時代數(shù)據(jù)挖掘找到關(guān)鍵突破口！

1.什么是聚類分析？

聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程，其目的是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。

聚類類似于分類，但與分類的目的不同，是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大，但不同類別之間數(shù)據(jù)的相似性很小，跨類的數(shù)據(jù)關(guān)聯(lián)性很低。聚類與分類的不同還在于，聚類所要求劃分的類是未知的。

2.聚類分析的重要性

“物以類聚，人以群分”，這是人類幾千年來認識世界和社會的基本能力，是從大數(shù)據(jù)中發(fā)現(xiàn)價值必須面對的一個普遍性、基礎(chǔ)性問題，是認知科學作為“學科的學科”要解決的首要問題。

無論是政治、經(jīng)濟、文學、歷史、社會、文化、還是數(shù)理、化工、醫(yī)農(nóng)、交通、地理、各行各業(yè)的大數(shù)據(jù)或宏觀或微觀的任何價值發(fā)現(xiàn)，無不借助于大數(shù)據(jù)聚類分析的結(jié)果，因此，數(shù)據(jù)分析和挖掘的首要問題是聚類，這種聚類是跨學科、跨領(lǐng)域、跨媒體的。大數(shù)據(jù)聚類是數(shù)據(jù)密集型科學的基礎(chǔ)性、普遍性問題。

可以毫不夸張的講，如果聚類算法都搞不明白，或者說沒有“落地”的“實例”，那說在搞數(shù)據(jù)挖掘就純粹是忽悠了。

人類的認知科學要想有所突破，首先就要在大數(shù)據(jù)聚類上去的突破，聚類是挖掘大數(shù)據(jù)資產(chǎn)價值的第一步。

3.聚類算法的種類

作為數(shù)據(jù)挖掘中很活躍的一個研究領(lǐng)域，聚類分析有多種算法。

1）基于劃分聚類算法：

k-means：是一種典型的劃分聚類算法，它用一個聚類的中心來代表一個簇，即在迭代過程中選擇的聚點不一定是聚類中的一個點，該算法只能處理數(shù)值型數(shù)據(jù)

k-modes：K-Means算法的擴展，采用簡單匹配方法來度量分類型數(shù)據(jù)的相似度
k-prototypes：結(jié)合了K-Means和K-Modes兩種算法，能夠處理混合型數(shù)據(jù)
k-medoids：在迭代過程中選擇簇中的某點作為聚點，PAM是典型的k-medoids算法
CLARA：CLARA算法在PAM的基礎(chǔ)上采用了抽樣技術(shù)，能夠處理大規(guī)模數(shù)據(jù)
CLARANS：CLARANS算法融合了PAM和CLARA兩者的優(yōu)點，是第一個用于空間數(shù)據(jù)庫的聚類算法
Focused CLARAN：采用了空間索引技術(shù)提高了CLARANS算法的效率
PCM：模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法

2）基于層次聚類算法：

CURE：采用抽樣技術(shù)先對數(shù)據(jù)集D隨機抽取樣本，再采用分區(qū)技術(shù)對樣本進行分區(qū)，然后對每個分區(qū)局部聚類，最后對局部聚類進行全局聚類
ROCK：也采用了隨機抽樣技術(shù)，該算法在計算兩個對象的相似度時，同時考慮了周圍對象的影響
CHEMALOEN（變色龍算法）：首先由數(shù)據(jù)集構(gòu)造成一個K-最近鄰圖Gk ,再通過一個圖的劃分算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最后用一個凝聚的層次聚類算法反復合并子簇，找到真正的結(jié)果簇
SBAC：SBAC算法則在計算對象間相似度時，考慮了屬性特征對于體現(xiàn)對象本質(zhì)的重要程度，對于更能體現(xiàn)對象本質(zhì)的屬性賦予較高的權(quán)值
BIRCH：BIRCH算法利用樹結(jié)構(gòu)對數(shù)據(jù)集進行處理，葉結(jié)點存儲一個聚類，用中心和半徑表示，順序處理每一個對象，并把它劃分到距離最近的結(jié)點，該算法也可以作為其他聚類算法的預處理過程
BUBBLE：BUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間
BUBBLE-FM：BUBBLE-FM算法通過減少距離的計算次數(shù)，提高了BUBBLE算法的效率

3）基于密度聚類算法：

DBSCAN：DBSCAN算法是一種典型的基于密度的聚類算法，該算法采用空間索引技術(shù)來搜索對象的鄰域，引入了“核心對象”和“密度可達”等概念，從核心對象出發(fā)，把所有密度可達的對象組成一個簇
GDBSCAN：算法通過泛化DBSCAN算法中鄰域的概念，以適應(yīng)空間對象的特點
OPTICS：OPTICS算法結(jié)合了聚類的自動性和交互性，先生成聚類的次序，可以對不同的聚類設(shè)置不同的參數(shù)，來得到用戶滿意的結(jié)果
FDC：FDC算法通過構(gòu)造k-d tree把整個數(shù)據(jù)空間劃分成若干個矩形空間，當空間維數(shù)較少時可以大大提高DBSCAN的效率

4）基于網(wǎng)格的聚類算法：

STING：利用網(wǎng)格單元保存數(shù)據(jù)統(tǒng)計信息，從而實現(xiàn)多分辨率的聚類
WaveCluster：在聚類分析中引入了小波變換的原理，主要應(yīng)用于信號處理領(lǐng)域。（備注：小波算法在信號處理，圖形圖像，加密解密等領(lǐng)域有重要應(yīng)用，是一種比較高深和牛逼的東西）
CLIQUE：是一種結(jié)合了網(wǎng)格和密度的聚類算法

5）基于神經(jīng)網(wǎng)絡(luò)的聚類算法：

自組織神經(jīng)網(wǎng)絡(luò)SOM：該方法的基本思想是--由外界輸入不同的樣本到人工的自組織映射網(wǎng)絡(luò)中，一開始時，輸入樣本引起輸出興奮細胞的位置各不相同，但自組織后會形成一些細胞群，它們分別代表了輸入樣本，反映了輸入樣本的特征

6）基于統(tǒng)計學的聚類算法：

COBWeb：COBWeb是一個通用的概念聚類方法，它用分類樹的形式表現(xiàn)層次聚類
AutoClass：是以概率混合模型為基礎(chǔ)，利用屬性的概率分布來描述聚類，該方法能夠處理混合型的數(shù)據(jù)，但要求各屬性相互獨立

聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數(shù)據(jù)出發(fā)，自動進行分類。聚類分析所使用方法的不同，常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析，所得到的聚類數(shù)未必一致。

4.聚類分析的應(yīng)用

1）商業(yè)

聚類分析被用來發(fā)現(xiàn)不同的客戶群，并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具，同時也可用于研究消費者行為，尋找新的潛在市場、選擇實驗的市場，并作為多元分析的預處理。

2）電子商務(wù)

聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面，通過分組聚類出具有相似瀏覽行為的客戶，并分析客戶的共同特征，可以更好的幫助電子商務(wù)的用戶了解自己的客戶，向客戶提供更合適的服務(wù)。

大數(shù)據(jù)作為網(wǎng)絡(luò)時代的一種客觀存在，是網(wǎng)絡(luò)時代人類社會的重要資產(chǎn)，數(shù)據(jù)數(shù)量巨大等給人們的認知造成了很大的困擾，盡管目前對于大數(shù)據(jù)的認知存在挑戰(zhàn)，但聚類將會成為大數(shù)據(jù)認知的突破口，這是一個發(fā)展趨向。

數(shù)據(jù)挖掘的第一步就是要搞懂聚類分析