小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

SAS中的聚類分析方法總結(1)

 SAM_SAS_lib 2014-12-30
 本帖最后由 semenljw 于 2014-5-9 16:18 編輯

      說起聚類分析,相信很多人并不陌生。這篇原創(chuàng)博客我想簡單說一下我所理解的聚類分析,歡迎各位高手不吝賜教和拍磚。

   按照正常的思路,我大概會說如下幾個問題:

1.     什么是聚類分析?

2.     聚類分析有什么用?

3.     聚類分析怎么做?

下面我將分聚類分析概述、聚類分析算法及sas實現(xiàn)、案例三部分來系統(tǒng)的回答這些問題。


聚類分析概述


1.     聚類分析的定義


中國有句俗語叫“物以類聚,人以群分”——剔除這句話的貶義色彩。說白了就是物品根據(jù)物品的特征和功用可以分門別類,人和人會根據(jù)性格、偏好甚至利益結成不同的群體。分門別類和結成群體之后,同類(同群)之間的物品(人)的特征盡可能相似,不同類(同群)之間的物品(人)的特征盡可能不同。這個過程實際上就是聚類分析。從這個過程我們可以知道如下幾點:

1)    聚類分析的對象是物(人),說的理論一點就是樣本

2)    聚類分析是根據(jù)物或者人的特征來進行聚集的,這里的特征說的理論一點就是變量。當然特征選的不一樣,聚類的結果也會不一樣;

3)    聚類分析中評判相似的標準非常關鍵。說的理論一點也就是相似性的度量非常關鍵;

4)    聚類分析結果的好壞沒有統(tǒng)一的評判標準;


2.     聚類分析到底有什么用?


1)    說的官腔一點就是為了更好的認識事物和事情,比如我們可以把人按照地域劃分為南方人和北方人,你會發(fā)現(xiàn)這種分法有時候也蠻有道理。一般來說南方人習慣吃米飯,北方習慣吃面食;

2)    說的實用一點,可以有效對用戶進行細分,提供有針對性的產(chǎn)品和服務。比如銀行會將用戶分成金卡用戶、銀卡用戶和普通卡用戶。這種分法一方面能很好的節(jié)約銀行的資源,另外一方面也能很好針對不同的用戶實習分級服務,提高彼此的滿意度。

再比如移動會開發(fā)全球通、神州行和動感地帶三個套餐或者品牌,實際就是根據(jù)移動用戶的行為習慣做了很好的用戶細分——聚類分析;

3)    上升到理論層面,聚類分析是用戶細分里面最為重要的工具,而用戶細分則是整個精準營銷里面的基礎。精準營銷是目前普遍接納而且被采用的一種營銷手段和方式。


3.     聚類分析的流程是怎樣的?


比較簡單的聚類分析往往只根據(jù)一個維度來進行,比如講用戶按照付費情況分成高端用戶、中端用戶和低端用戶。這 個只需要根據(jù)商業(yè)目的統(tǒng)計一下相關數(shù)據(jù)指定一個高端、中端和低端的分界點標準就可以。

如果是比較復雜的聚類分析,比如移動里面經(jīng)常會基于用戶的多種行為(通話、短信、gprs流失扥等)來對用戶進行細分,這個就是比較復雜的用戶細分。如果是這樣的細分通常會作為一個比較標準的數(shù)據(jù)挖掘項目來執(zhí)行,所以基本上會按照數(shù)據(jù)挖掘的流程來執(zhí)行。具體分如下幾步:

1)     業(yè)務理解

主要是了解業(yè)務目標和數(shù)據(jù)挖掘的目標及執(zhí)行計劃

2)     數(shù)據(jù)理解

主要是弄清楚可已取哪些變量數(shù)據(jù),具體怎么定義

3)     數(shù)據(jù)整理

根據(jù)之前的定義提取需要的數(shù)據(jù),并進行檢測異常數(shù)據(jù),并對變量進行挑選及探索,比如最終要用那些變量來執(zhí)行聚類算法、那些變量是離散變量,需要做特殊處理、

數(shù)據(jù)大概可以聚成幾類、類別形狀有不規(guī)則的情形嗎?

4)     建立模型

關鍵是選用什么樣的距離(相似性度量)和算法:

l  比如是樣本比較小,形狀也比較規(guī)則,可以選用層次聚類

l  比如樣本比較大,形狀規(guī)則,各類的樣本量基本相當,可以選用k-means算法

l  比如形狀規(guī)則,但是各類別之間的樣本點的密度差異很大,可以選用基于密度的算法

5)     模型評估

主要是評估聚類分析結果的好壞。實際上聚類分析在機器學習里面被稱之為無監(jiān)督學習,是沒有大家公認的評估方法的。所以更多會從業(yè)務可解釋性的角度去評估

聚類分析的好壞;

6)     模型發(fā)布

主要是根據(jù)聚類分析的結果根據(jù)不同的類的特診去設計不同的產(chǎn)品、服務或者渠道策略,然后去實施營銷


4. 具體在sas里面如何執(zhí)行?


通過前面的講解我們已經(jīng)知道,聚類分析涉及到如下6步,對應著6步SAS都會有相應的過程來執(zhí)行。

1)     距離的計算:proc distance

2)     數(shù)據(jù)標準化:proc stdize

3)     聚類變量的選擇:proc varclus

4)     初始類別數(shù)的選擇:proc mds和proc princomp

5)     不規(guī)則形狀的變換:proc aceclus

6)     算法的選擇:層次聚類-proc cluster 劃分型聚類-proc fastclus(k-means)和

         密度型聚類-proc modeclus

7)     類別特征描述:proc means

以上四個部分就從是什么、為什么、怎么樣三個角度對聚類分析做了簡單的介紹。接下來的帖子我會重點介紹SAS中各種聚類算法的差異、應用范圍及實際的案例。


進一步的了解可以繼續(xù)讀下面的帖子:


SAS中的聚類分析方法總結(1)——聚類分析概述(續(xù)1)
SAS中的聚類分析方法總結(1)——聚類分析概述(續(xù)2)

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多