1.什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘(DataMining)起源于 1989 年 8 月,美國(guó)底特律舉辦的第 11 屆國(guó)際聯(lián)合人工 智能學(xué)術(shù)會(huì)議中 Piatetsky·Sharpiro 提出的 KDD(Knowledge Discovery and DataMining)。 它的含義就是從海量的數(shù)據(jù)中抽取出有意義的、重要的、潛在有用的信息和知識(shí)的過(guò)程。從技術(shù)上來(lái)說(shuō),數(shù)據(jù)挖掘是一門交叉學(xué)科,融合了統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)等內(nèi)容。 數(shù)據(jù)挖掘的工作過(guò)程可以包括數(shù)據(jù)的抽取、存儲(chǔ)管理、挖掘和展現(xiàn)等幾個(gè)部分。所謂抽取就是將數(shù)據(jù)從外部數(shù)據(jù)源或者其他聯(lián)機(jī)事務(wù)處理系統(tǒng)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)或者其他數(shù)據(jù)庫(kù)中。存儲(chǔ)管理主要針對(duì)如何管理海量的數(shù)據(jù)、優(yōu)化查詢效率和處理各種并發(fā)數(shù)據(jù)等。挖掘就是利用各種的挖掘算法得到相應(yīng)知識(shí)的過(guò)程。最后數(shù)據(jù)展現(xiàn)就是實(shí)現(xiàn)各種預(yù)定義查詢、動(dòng)態(tài)報(bào)表查詢等內(nèi)容,展示的方式包括直方圖、動(dòng)態(tài)模擬和餅圖等形式。更簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是將對(duì)數(shù)據(jù)的簡(jiǎn)單查詢提升到挖掘信息和知識(shí)的過(guò)程。 2.數(shù)據(jù)挖掘方法的幾個(gè)步驟: 數(shù)據(jù)挖掘是一個(gè)閉環(huán)的、反復(fù)循環(huán)的過(guò)程。需要業(yè)務(wù)分析人員和 IT 工程師共同完成。一般來(lái)說(shuō)它有以下幾個(gè)步驟:
3.數(shù)據(jù)挖掘常用算法 常用的數(shù)據(jù)挖掘算法主要包括分類、聚類和關(guān)聯(lián)規(guī)則三種。 分類主要是對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分類??梢酝ㄟ^(guò)訓(xùn)練集建立模型,通過(guò)測(cè)試集去驗(yàn)證模型的效果,最后再通過(guò)該模型對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分類。其中常用的分類算法是決策樹(shù)。 聚類主要是將相似的事物分成一類,將差異較大的事物分布在不同的類中,即“物以類聚”,保證各個(gè)組間的特征差異性最大。例如聚類分析可以發(fā)現(xiàn)特征差異很大的客戶群。 聚類和分類的區(qū)別是:聚類不依賴確定好的組別,也沒(méi)有樣本數(shù)據(jù),數(shù)據(jù)是按照自身特征的相似性聚集在不同的類別中,在數(shù)據(jù)挖掘中,常用的聚類算法是 K 均值算法;關(guān)聯(lián)規(guī)則主要是確定哪些事物可以在一起出現(xiàn),例如設(shè)計(jì)各種商品和服務(wù)的組合。 4.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系 我們可以引用商業(yè)智能的概念,決策人員以企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),由聯(lián)機(jī)分析處理工具、數(shù)據(jù)挖掘工具加上決策人員的專業(yè)知識(shí),從數(shù)據(jù)中獲得有用的信息和知識(shí),幫助企業(yè)獲取利潤(rùn),而數(shù)據(jù)挖掘就是建立在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的增值技術(shù)。 數(shù)據(jù)倉(cāng)庫(kù)是為了支持企業(yè)決策分析的數(shù)據(jù)集合。它是面向主題的、集成的、穩(wěn)定的,并且隨著時(shí)間發(fā)生變化。它的關(guān)鍵技術(shù)包括數(shù)據(jù)的抽取、 清洗、轉(zhuǎn)換、加載和維護(hù)技術(shù)。 數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中,抽取出有意義的、潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源可以是數(shù)據(jù)倉(cāng)庫(kù)或者是其他數(shù)據(jù)庫(kù)。對(duì)于挖掘的數(shù)據(jù)需要進(jìn)行選擇,挖掘的結(jié)果也需要進(jìn)行評(píng)估,按照評(píng)估結(jié)果的不同,一般需要重新分析和計(jì)算。 數(shù)據(jù)挖掘可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的歷史數(shù)據(jù)進(jìn)行提煉和挖掘,使得這些數(shù)據(jù)成為信息和知識(shí)??梢越柚鷮?duì)歷史數(shù)據(jù)的分析,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部有價(jià)值的規(guī)律。 數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的基礎(chǔ)。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是完整的、集成的,它為數(shù)據(jù)挖掘提供了扎實(shí)的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)可以為數(shù)據(jù)挖掘提供需要的歷史數(shù)據(jù)和全面的數(shù)據(jù)處理、分析等基礎(chǔ)設(shè)施。 5.數(shù)據(jù)挖掘的主要過(guò)程 數(shù)據(jù)挖掘的過(guò)程主要包括:定義商業(yè)問(wèn)題、建立數(shù)據(jù)挖掘庫(kù)、確定分析的內(nèi)容、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施。 5.1 定義各種商業(yè)問(wèn)題 對(duì)業(yè)務(wù)問(wèn)題和數(shù)據(jù)挖掘的目標(biāo)進(jìn)行明確的定義,例如從整體上分析市場(chǎng)的結(jié)構(gòu)和發(fā)展的趨勢(shì),或者從微觀的角度分析客源的結(jié)構(gòu)。 5.2 建立數(shù)據(jù)挖掘庫(kù) 主要過(guò)程包括:對(duì)數(shù)據(jù)的搜集,確定需要挖掘的數(shù)據(jù)源。選擇用于挖掘的數(shù)據(jù),對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估,確定數(shù)據(jù)的哪些屬性會(huì)影響模型的質(zhì)量,判斷是 否建立數(shù)據(jù)倉(cāng)庫(kù)。 5.3 確定分析的內(nèi)容 以旅游行業(yè)為例,分析的內(nèi)容可以包括:線路分析、出行時(shí)間、人數(shù)分析、旅游目的分析和客戶關(guān)聯(lián)分析等。舉例來(lái)說(shuō),根據(jù)分析可以確定旅游業(yè)的旺季 集中在哪幾個(gè)月份,哪些群體更喜歡外出旅游等。 5.4 準(zhǔn)備數(shù)據(jù) 準(zhǔn)備數(shù)據(jù)的主要過(guò)程包括:選擇最優(yōu)的預(yù)測(cè)變量,如果數(shù)據(jù)量較大,可以進(jìn)行數(shù)據(jù)抽樣,也可以在原始數(shù)據(jù)中衍生新的變量作為預(yù)測(cè)變量。 5.5 建立模型 建立對(duì)商業(yè)問(wèn)題最有用的模型,然后不斷地優(yōu)化,它是一個(gè)反復(fù)的閉環(huán)過(guò)程。同時(shí)還要決定預(yù)測(cè)的類型,例如是分類還是回歸。 5.6 評(píng)估模型 當(dāng)模型建立之后,應(yīng)該評(píng)估結(jié)果和價(jià)值。隨著應(yīng)用數(shù)據(jù)的變化,模型的準(zhǔn)確率也會(huì)隨之發(fā)生變化。因?yàn)楦鞣N隱含的因素,可能會(huì)導(dǎo)致經(jīng)過(guò)模擬計(jì)算出來(lái)的高準(zhǔn)確率模型,不一定是正確的模型。 5.7 實(shí)施 當(dāng)模型建立并且經(jīng)過(guò)驗(yàn)證之后,提供給分析人員作為參考。 6. 數(shù)據(jù)挖掘的主要應(yīng)用——客戶精準(zhǔn)營(yíng)銷 6.1 客戶精準(zhǔn)營(yíng)銷背景 隨著技術(shù)的發(fā)展和市場(chǎng)競(jìng)爭(zhēng)的激烈,傳統(tǒng)的營(yíng)銷系統(tǒng)很難應(yīng)對(duì)復(fù)雜的市場(chǎng)環(huán)境,大眾化的營(yíng)銷方式已經(jīng)逐漸失去了優(yōu)勢(shì),只有基于客戶基本信息和行為,采用客戶精準(zhǔn)營(yíng)銷的方式才能提高營(yíng)銷的效益,同時(shí)大大降低營(yíng)銷的成本。那么什么是客戶精準(zhǔn)營(yíng)銷呢? 客戶精準(zhǔn)營(yíng)銷就是通過(guò)挖掘技術(shù)手段,實(shí)現(xiàn)企業(yè)和客戶之間的個(gè)性化溝通服務(wù)體系。精準(zhǔn)營(yíng)銷包括客戶的需求分析、市場(chǎng)細(xì)分等內(nèi)容。因?yàn)槭袌?chǎng)需求的多樣化,要求企業(yè)能夠?yàn)榭蛻籼峁┒鄻踊漠a(chǎn)品和服務(wù),可以快速捕捉到市場(chǎng)的需求和未來(lái)發(fā)展預(yù)測(cè)的能力。 下面分別以旅游行業(yè)和銀行為例,介紹客戶精準(zhǔn)營(yíng)銷的應(yīng)用方式。 6.2 關(guān)于旅游行業(yè)的客戶精準(zhǔn)營(yíng)銷 旅游行業(yè)的客戶精準(zhǔn)營(yíng)銷,可以通過(guò)客戶細(xì)分、客戶流失分析、交叉銷售和客戶價(jià)值評(píng)估等模型來(lái)實(shí)現(xiàn)。 客戶細(xì)分的目的是為了實(shí)現(xiàn)客戶的差異化服務(wù)??蛻袅魇Х治鍪菫榱送炝艨蛻?,并提高客戶的忠誠(chéng)度。交叉銷售是為了提升交叉銷售率。客戶價(jià)值評(píng)估是綜合衡量客戶在當(dāng)前貢獻(xiàn)度、未來(lái)貢獻(xiàn)度、信用度、忠誠(chéng)度和未來(lái)成長(zhǎng)潛力等幾個(gè)方面的表現(xiàn)。 (1)客戶細(xì)分 客戶細(xì)分可以實(shí)現(xiàn)客戶的差異化服務(wù),使產(chǎn)品和服務(wù)更直接地針對(duì)合適的客戶群??蛻艏?xì)分可以使用挖掘的分類和聚類算法實(shí)現(xiàn)。 客戶細(xì)分的流程 客戶行為細(xì)分模型可以通過(guò)選擇變量,分析影響客戶分組的主要因子,根據(jù)聚類形成相似的群體,保證組中特征差別明顯,最后提出針對(duì)性的業(yè)務(wù)推廣與建議。 1)選擇變量,分析影響客戶分組的主要因子。 2)保證組中特征差別明顯。 3)提出針對(duì)性的業(yè)務(wù)推廣與建議。 業(yè)務(wù)推廣建議: a)特征組 2:統(tǒng)計(jì)分析發(fā)現(xiàn)該比例人數(shù)較多,且大部分都是 25 歲~35 歲之間的,人群多是商務(wù)人士,喜歡購(gòu)物。 b)特征組 1:統(tǒng)計(jì)分析發(fā)現(xiàn)該比例人群大多都是中年人士,以家庭為單位的旅游居多,大多喜歡景點(diǎn)游,較少喜歡購(gòu)物游,消費(fèi)趨于理性。 c)特征組 3:統(tǒng)計(jì)分析發(fā)現(xiàn)該比例人群多數(shù)都是 20~24 歲之間的學(xué)生群體,購(gòu)物欲望較小,喜歡景點(diǎn)游和過(guò)夜。 客戶服務(wù)建議: a)對(duì)于特征組 2,應(yīng)該增加購(gòu)物游的宣傳,例如香港購(gòu)物三日游。時(shí)間宜選擇在假期。 b)對(duì)于特征組 1,可以增加適合家庭游的景點(diǎn)、游樂(lè)園的宣傳,例如香港迪斯尼三日游, 時(shí)間宜選擇公共假期。 c)對(duì)于特征組 3,可以增加類似于運(yùn)動(dòng)、長(zhǎng)途類型的旅游,例如西藏七日游。 客戶細(xì)分的優(yōu)勢(shì): a)確定每個(gè)客戶群的特征,指導(dǎo)差異化的客戶服務(wù)。 b)可以協(xié)助企業(yè)推出新產(chǎn)品。 c)為新產(chǎn)品尋找目標(biāo)群體。 d)理解客戶對(duì)產(chǎn)品的喜好,按需求提供產(chǎn)品。 e)針對(duì)客戶群制定推廣策略。 (2)客戶流失分析 舉例來(lái)說(shuō),滿足該規(guī)則,如果旅游者的年出游次數(shù)突然減少,并且對(duì)購(gòu)物、住宿等評(píng)價(jià)很低,可能是高危用戶。如果旅游者的出游次數(shù)沒(méi)有減少,但是對(duì)購(gòu)物、住宿評(píng)價(jià)變低,客戶可能會(huì)流失。 (3)交叉銷售 交叉銷售是促使客戶購(gòu)買尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷手段,通過(guò)研究客戶對(duì)產(chǎn)品的使用習(xí)慣和消費(fèi)行為特點(diǎn)去發(fā)現(xiàn)老客戶的潛在需求。同時(shí)交叉銷售可以通過(guò)產(chǎn)品之間的關(guān)聯(lián),尋找捆綁銷售的機(jī)會(huì),為新產(chǎn)品尋找已有用戶中的目標(biāo)群體。交叉銷售的目的是向新老客戶推銷尚未使用的產(chǎn)品,同時(shí)將老產(chǎn)品銷售給新客戶。 (4)客戶價(jià)值評(píng)估 客戶價(jià)值評(píng)估模型的搭建,主要衡量客戶五個(gè)方面的表現(xiàn),包括:客戶的當(dāng)前貢獻(xiàn)度、未來(lái)貢獻(xiàn)度、信用度、忠誠(chéng)度和成長(zhǎng)潛力等。 6.3 關(guān)于銀行業(yè)的客戶精準(zhǔn)營(yíng)銷 舉例來(lái)說(shuō),當(dāng)一名客戶在銀行中存入一筆存款后,他可能會(huì)考慮如何使這些資金獲得更大的收益,如果這時(shí)銀行銷售人員與客戶主動(dòng)聯(lián)系,并且給予恰當(dāng)?shù)慕ㄗh,完成營(yíng)銷任務(wù)的概率就會(huì)大大增加。也就是通過(guò)評(píng)估分析、發(fā)現(xiàn)和識(shí)別客戶的需求,制定相應(yīng)的營(yíng)銷策略。 對(duì)于商業(yè)銀行來(lái)說(shuō),通過(guò) CRM 系統(tǒng)中的客戶行為信息,識(shí)別出客戶的交易信息,并發(fā)現(xiàn)背后隱藏的客戶需求,這種方式不僅可以挽留客戶,而且還能提升客戶的忠誠(chéng)度,創(chuàng)造更大的利潤(rùn)。 精準(zhǔn)營(yíng)銷方案的設(shè)計(jì): (1)現(xiàn)狀調(diào)研與分析 主要包括對(duì)業(yè)務(wù)和數(shù)據(jù)的現(xiàn)狀調(diào)研,理解營(yíng)銷的活動(dòng)方式和過(guò)程。 (2)對(duì)客戶交易行為的定義與分析 主要包括數(shù)據(jù)的準(zhǔn)備和模型的建立。 (3)營(yíng)銷活動(dòng)的設(shè)計(jì)和評(píng)估改進(jìn) 可以先對(duì)部分客戶進(jìn)行嘗試性的營(yíng)銷,然后與傳統(tǒng)營(yíng)銷方式的結(jié)果進(jìn)行對(duì)比,驗(yàn)證推廣的可實(shí)施性,最后對(duì)驗(yàn)證結(jié)果進(jìn)行評(píng)估和修正,直至滿足目標(biāo)。 |
|
來(lái)自: 網(wǎng)摘文苑 > 《數(shù)據(jù)分析》