說起聚類分析,相信很多人并不陌生。這篇原創(chuàng)博客我想簡單說一下我所理解的聚類分析,歡迎各位高手不吝賜教和拍磚。 按照正常的思路,我大概會說如下幾個問題: 1. 什么是聚類分析? 2. 聚類分析有什么用? 3. 聚類分析怎么做? 下面我將分聚類分析概述、聚類分析算法及sas實現(xiàn)、案例三部分來系統(tǒng)的回答這些問題。
聚類分析概述 1. 聚類分析的定義 中國有句俗語叫“物以類聚,人以群分”——剔除這句話的貶義色彩。說白了就是物品根據(jù)物品的特征和功用可以分門別類,人和人會根據(jù)性格、偏好甚至利益結成不同的群體。分門別類和結成群體之后,同類(同群)之間的物品(人)的特征盡可能相似,不同類(同群)之間的物品(人)的特征盡可能不同。這個過程實際上就是聚類分析。從這個過程我們可以知道如下幾點: 1) 聚類分析的對象是物(人),說的理論一點就是樣本 2) 聚類分析是根據(jù)物或者人的特征來進行聚集的,這里的特征說的理論一點就是變量。當然特征選的不一樣,聚類的結果也會不一樣; 3) 聚類分析中評判相似的標準非常關鍵。說的理論一點也就是相似性的度量非常關鍵; 4) 聚類分析結果的好壞沒有統(tǒng)一的評判標準;
2. 聚類分析到底有什么用?
1) 說的官腔一點就是為了更好的認識事物和事情,比如我們可以把人按照地域劃分為南方人和北方人,你會發(fā)現(xiàn)這種分法有時候也蠻有道理。一般來說南方人習慣吃米飯,北方習慣吃面食; 2) 說的實用一點,可以有效對用戶進行細分,提供有針對性的產(chǎn)品和服務。比如銀行會將用戶分成金卡用戶、銀卡用戶和普通卡用戶。這種分法一方面能很好的節(jié)約銀行的資源,另外一方面也能很好針對不同的用戶實習分級服務,提高彼此的滿意度。 再比如移動會開發(fā)全球通、神州行和動感地帶三個套餐或者品牌,實際就是根據(jù)移動用戶的行為習慣做了很好的用戶細分——聚類分析; 3) 上升到理論層面,聚類分析是用戶細分里面最為重要的工具,而用戶細分則是整個精準營銷里面的基礎。精準營銷是目前普遍接納而且被采用的一種營銷手段和方式。
3. 聚類分析的流程是怎樣的? 比較簡單的聚類分析往往只根據(jù)一個維度來進行,比如講用戶按照付費情況分成高端用戶、中端用戶和低端用戶。這 個只需要根據(jù)商業(yè)目的統(tǒng)計一下相關數(shù)據(jù)指定一個高端、中端和低端的分界點標準就可以。 如果是比較復雜的聚類分析,比如移動里面經(jīng)常會基于用戶的多種行為(通話、短信、gprs流失扥等)來對用戶進行細分,這個就是比較復雜的用戶細分。如果是這樣的細分通常會作為一個比較標準的數(shù)據(jù)挖掘項目來執(zhí)行,所以基本上會按照數(shù)據(jù)挖掘的流程來執(zhí)行。具體分如下幾步: 1) 業(yè)務理解 主要是了解業(yè)務目標和數(shù)據(jù)挖掘的目標及執(zhí)行計劃 2) 數(shù)據(jù)理解 主要是弄清楚可已取哪些變量數(shù)據(jù),具體怎么定義 3) 數(shù)據(jù)整理 根據(jù)之前的定義提取需要的數(shù)據(jù),并進行檢測異常數(shù)據(jù),并對變量進行挑選及探索,比如最終要用那些變量來執(zhí)行聚類算法、那些變量是離散變量,需要做特殊處理、 數(shù)據(jù)大概可以聚成幾類、類別形狀有不規(guī)則的情形嗎? 4) 建立模型 關鍵是選用什么樣的距離(相似性度量)和算法: l 比如是樣本比較小,形狀也比較規(guī)則,可以選用層次聚類 l 比如樣本比較大,形狀規(guī)則,各類的樣本量基本相當,可以選用k-means算法 l 比如形狀規(guī)則,但是各類別之間的樣本點的密度差異很大,可以選用基于密度的算法 5) 模型評估 主要是評估聚類分析結果的好壞。實際上聚類分析在機器學習里面被稱之為無監(jiān)督學習,是沒有大家公認的評估方法的。所以更多會從業(yè)務可解釋性的角度去評估 聚類分析的好壞; 6) 模型發(fā)布 主要是根據(jù)聚類分析的結果根據(jù)不同的類的特診去設計不同的產(chǎn)品、服務或者渠道策略,然后去實施營銷
4. 具體在sas里面如何執(zhí)行? 通過前面的講解我們已經(jīng)知道,聚類分析涉及到如下6步,對應著6步SAS都會有相應的過程來執(zhí)行。 1) 距離的計算:proc distance 2) 數(shù)據(jù)標準化:proc stdize 3) 聚類變量的選擇:proc varclus 4) 初始類別數(shù)的選擇:proc mds和proc princomp 5) 不規(guī)則形狀的變換:proc aceclus 6) 算法的選擇:層次聚類-proc cluster 劃分型聚類-proc fastclus(k-means)和 密度型聚類-proc modeclus 7) 類別特征描述:proc means 以上四個部分就從是什么、為什么、怎么樣三個角度對聚類分析做了簡單的介紹。接下來的帖子我會重點介紹SAS中各種聚類算法的差異、應用范圍及實際的案例。 進一步的了解可以繼續(xù)讀下面的帖子: SAS中的聚類分析方法總結(1)——聚類分析概述(續(xù)1) SAS中的聚類分析方法總結(1)——聚類分析概述(續(xù)2) |
|
來自: SAM_SAS_lib > 《SAS》