愛數(shù)據(jù)學習社 welcome 大數(shù)據(jù)分析中的應(yīng)用,最常用的經(jīng)典算法之一就是聚類法,這是數(shù)據(jù)挖掘采用的起步技術(shù),也是數(shù)據(jù)挖掘入門的一項關(guān)鍵技術(shù)。什么是聚類分析?聚類分析有什么用?聚類算法有哪些?聚類分析的應(yīng)用……這些問題的探究可為大數(shù)據(jù)時代數(shù)據(jù)挖掘找到關(guān)鍵突破口! 1.什么是聚類分析? 聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目的是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。 聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。聚類與分類的不同還在于,聚類所要求劃分的類是未知的。 2.聚類分析的重要性 “物以類聚,人以群分”,這是人類幾千年來認識世界和社會的基本能力,是從大數(shù)據(jù)中發(fā)現(xiàn)價值必須面對的一個普遍性、基礎(chǔ)性問題,是認知科學作為“學科的學科”要解決的首要問題。 無論是政治、經(jīng)濟、文學、歷史、社會、文化、還是數(shù)理、化工、醫(yī)農(nóng)、交通、地理、各行各業(yè)的大數(shù)據(jù)或宏觀或微觀的任何價值發(fā)現(xiàn),無不借助于大數(shù)據(jù)聚類分析的結(jié)果,因此,數(shù)據(jù)分析和挖掘的首要問題是聚類,這種聚類是跨學科、跨領(lǐng)域、跨媒體的。大數(shù)據(jù)聚類是數(shù)據(jù)密集型科學的基礎(chǔ)性、普遍性問題。 可以毫不夸張的講,如果聚類算法都搞不明白,或者說沒有“落地”的“實例”,那說在搞數(shù)據(jù)挖掘就純粹是忽悠了。 人類的認知科學要想有所突破,首先就要在大數(shù)據(jù)聚類上去的突破,聚類是挖掘大數(shù)據(jù)資產(chǎn)價值的第一步。 3.聚類算法的種類 作為數(shù)據(jù)挖掘中很活躍的一個研究領(lǐng)域,聚類分析有多種算法。 1)基于劃分聚類算法:
2)基于層次聚類算法:
3)基于密度聚類算法:
4)基于網(wǎng)格的聚類算法:
5)基于神經(jīng)網(wǎng)絡(luò)的聚類算法: 自組織神經(jīng)網(wǎng)絡(luò)SOM:該方法的基本思想是--由外界輸入不同的樣本到人工的自組織映射網(wǎng)絡(luò)中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織后會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征 6)基于統(tǒng)計學的聚類算法:
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。 4.聚類分析的應(yīng)用 1)商業(yè) 聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。 2)電子商務(wù) 聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。 大數(shù)據(jù)作為網(wǎng)絡(luò)時代的一種客觀存在,是網(wǎng)絡(luò)時代人類社會的重要資產(chǎn),數(shù)據(jù)數(shù)量巨大等給人們的認知造成了很大的困擾,盡管目前對于大數(shù)據(jù)的認知存在挑戰(zhàn),但聚類將會成為大數(shù)據(jù)認知的突破口,這是一個發(fā)展趨向。 |
|