一、認(rèn)識數(shù)據(jù)挖掘
隨著數(shù)據(jù)采集技術(shù)和存儲技術(shù) 的快速發(fā)展,企業(yè)建立了龐大的數(shù)據(jù)庫和數(shù)據(jù)倉庫,積累了大量的數(shù)據(jù),利用這些數(shù)據(jù)輔助企業(yè)正確決策,已經(jīng)成為商界的共識。然而數(shù)據(jù)的“爆炸式”增長,讓一般的數(shù)據(jù)分析技術(shù)望而卻步,數(shù)據(jù)挖掘便在此背景下迅速發(fā)展起來。
從技術(shù)的角度看,數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,提取潛在有用的信息和知識的過程。從商業(yè)的角度看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型處理,從中提取出輔助商業(yè)決策的關(guān)鍵性知識,即發(fā)現(xiàn)數(shù)據(jù)中的相關(guān)商業(yè)模式。 數(shù)據(jù)挖掘融合了人工智能(artificial intelligence)、統(tǒng)計(jì)學(xué)(statistics)、機(jī)器學(xué)習(xí)(machine learning)、模式識別(pattern recognition)和數(shù)據(jù)庫等多種學(xué)科的理論,方法和技術(shù),如下圖
一。目前在金融服務(wù)機(jī)構(gòu)、零售商、金融服務(wù)機(jī)構(gòu)、制造業(yè)、電信公司、保險(xiǎn)公司、醫(yī)療業(yè)、航空業(yè)、政府等各個(gè)領(lǐng)域中取得了廣泛的應(yīng)用。
二、數(shù)據(jù)挖掘的基本操作流程
為了規(guī)范數(shù)據(jù)挖掘的操作,行業(yè)專家根據(jù)基本操作,提出了兩個(gè)流程SEMMA和CRISP-DM。CRISP-DM是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程Cross Industry Standard Process for Data Mining的簡稱,CRISP-DM強(qiáng)調(diào)數(shù)據(jù)挖掘不只是數(shù)據(jù)的組織、呈現(xiàn)、分析和建模,而是一個(gè)從理解企業(yè)需求、尋求解決方案到實(shí)踐檢驗(yàn)的完整過程。CRISP-DM過程可圖示如下:
它采用分層方法將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的周期定義為6個(gè)階段,每一階段的要點(diǎn)簡述如下:
1.商業(yè)理解Business Understanding
這一初始階段集中在從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后理解轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和一個(gè)旨在實(shí)現(xiàn)目標(biāo)的初步計(jì)劃。
2.數(shù)據(jù)理解Data Understanding
數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù),標(biāo)明數(shù)據(jù)質(zhì)量,探索對數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對隱藏信息的假設(shè)。
3.數(shù)據(jù)準(zhǔn)備Data Preparation
數(shù)據(jù)準(zhǔn)備階段包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終數(shù)據(jù)集的活動(此數(shù)據(jù)集指將要嵌入建模工具中的數(shù)據(jù))。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實(shí)施多次,而且沒有任何規(guī)定的順序。這些任務(wù)包括表格、記錄和屬性的選擇以及按照建模工具要求,對數(shù)據(jù)的轉(zhuǎn)換和清洗。
4.建模Modeling
在此階段,主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到最優(yōu)值。通常對于同一個(gè)數(shù)據(jù)挖掘問題模型,會有多種模型技術(shù)。一些技術(shù)對數(shù)據(jù)格式有特殊的要求。因此,常常需要返回到數(shù)據(jù)準(zhǔn)備階段。
5.評估Evaluation
進(jìn)入項(xiàng)目中的這個(gè)階段時(shí),你已經(jīng)建立一個(gè)模型(或者多個(gè)),從數(shù)據(jù)分析的角度來看,該模型似乎有很高的質(zhì)量,在模型發(fā)布前,很重要的一點(diǎn)--更徹底地評估模型和檢查建立模型的各個(gè)步驟,從而使它達(dá)到真正的高質(zhì)量。此階段關(guān)鍵目的是決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮。關(guān)于數(shù)據(jù)挖掘結(jié)果的使用決定應(yīng)該在此階段結(jié)束時(shí)確定下來。
6.發(fā)布Deployment
模型的創(chuàng)建通常不是項(xiàng)目的結(jié)尾。即使建模目的是增加對數(shù)據(jù)的了解,所獲得的了解也需要進(jìn)行組織并以一種客戶能夠使用的方式呈現(xiàn)出來。這常常包括在一個(gè)組織的決策過程中應(yīng)用“現(xiàn)場”模型。不過根據(jù)需要發(fā)布過程可以簡單到產(chǎn)生一個(gè)報(bào)告,也可以復(fù)雜到在整個(gè)企業(yè)中執(zhí)行一個(gè)可重復(fù)的數(shù)據(jù)挖掘過程。大部分情況下,是由客戶來實(shí)施發(fā)布的,而非數(shù)據(jù)分析師。盡管如此,即使分析師并不執(zhí)行發(fā)布,這對客戶也是十分重要的--提前了解需要采取什么行動來實(shí)際利用產(chǎn)生的模型。
三、數(shù)據(jù)挖掘的主要技術(shù)及軟件:
數(shù)據(jù)挖掘技術(shù)有多種分類方式,比如可以分為描述性數(shù)據(jù)挖掘、預(yù)測性數(shù)據(jù)挖掘;按照應(yīng)用領(lǐng)域進(jìn)行分類,又可以分成電信行業(yè)數(shù)據(jù)挖掘、保險(xiǎn)行業(yè)數(shù)據(jù)挖掘、商業(yè)數(shù)據(jù)挖掘、制造業(yè)數(shù)據(jù)挖掘等,
下面主要介紹最常用的有五大技術(shù)。
關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最先研究的領(lǐng)域,簡單的理解就是分析數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系。最經(jīng)典的應(yīng)用案例是“啤酒和尿布的故事”
分類:分類是一種典型的有監(jiān)督的學(xué)習(xí)方法,其目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預(yù)測新數(shù)據(jù)的類別。數(shù)據(jù)分類技術(shù)在信用卡審批、保險(xiǎn)欺詐分析、客戶流失分析等,都有廣泛的應(yīng)用。以保險(xiǎn)欺詐分析為例,就是根據(jù)現(xiàn)有正??蛻艉推墼p客戶的資料,分析欺詐客戶的潛在特征,可以對新購買保險(xiǎn)的客戶進(jìn)行分析,從而有利于企業(yè)控制風(fēng)險(xiǎn)。
聚類:聚類是一種典型的無監(jiān)督學(xué)習(xí)方法,它根據(jù)對象自身的相似性,把一組對象劃分成一系列有意義的子集,從而能更好的描述原數(shù)據(jù),即我們常說的“物以類聚”。數(shù)據(jù)分析被廣泛應(yīng)用于相似搜索、信息檢索、顧客劃分等。以顧客劃分為例,聚類技術(shù)就是找出那些具有相似消費(fèi)行為的客戶,從而對他們采取相應(yīng)的促銷措施,增加企業(yè)的利潤。
預(yù)測和估計(jì):這兩種方法都是利用已知值去預(yù)測未知值,不同的是估計(jì)是橫向的,預(yù)測是縱向的。比如,估計(jì)是根據(jù)顧客的教育程度、性別、工資收入來預(yù)測其消費(fèi)額,預(yù)測則是根據(jù)過去的消費(fèi)數(shù)據(jù)預(yù)測未來的消費(fèi)額。
數(shù)據(jù)挖掘的軟件,應(yīng)用比較多的有以下幾種:
Enterprise Miner(SAS),在數(shù)據(jù)挖掘市場非常杰出的工具,它運(yùn)用了SAS統(tǒng)計(jì)模型的力量和影響力,依照SEMMA的挖掘流程,抽樣、探測、修改、建模、評價(jià),提供了包括聚類、分類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)回歸等多種算法。
Clementine(SPSS),此分析工具結(jié)合了多種圖形用戶接口的分析技術(shù),包含神經(jīng)網(wǎng)絡(luò)、決策樹、聚類分析等多種算法技術(shù),按照CRISP_DM的流程組織數(shù)據(jù)挖掘,來執(zhí)行分析功能,非常適合快速掌握數(shù)據(jù)挖掘技術(shù)。
Intelligent Miner(IBM),包含了大量的數(shù)據(jù)挖掘算法,如預(yù)測、分類、關(guān)聯(lián)規(guī)則、聚類等,能夠處理相當(dāng)大的數(shù)據(jù)量,具有強(qiáng)大的計(jì)算能力,并且能夠方便的整合使用者的算法。
WEKA,WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個(gè)開源免費(fèi)軟件。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。
馬可威軟件,目前唯一的國產(chǎn)數(shù)據(jù)挖掘軟件,功能比較強(qiáng)大,可視化的圖像操作界面,整合了大量的數(shù)據(jù)挖掘算法,如神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、模糊聚類、關(guān)聯(lián)規(guī)則、支持向量機(jī)、粗糙集、貝葉斯算法等。
還有很多如Angoss Software開發(fā)的KS軟件、Oracle的 Darwin 、S-PlUS等。
四、數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用
隨著國內(nèi)電信業(yè)三分天下局面的形成,電信業(yè)之間的競爭越來越激烈,電信公司已經(jīng)從傳統(tǒng)的“技術(shù)驅(qū)動”,靠技術(shù)取勝,逐步轉(zhuǎn)向了“市場驅(qū)動”、“顧客驅(qū)動”。這就要求電信公司必須制定以顧客關(guān)系為導(dǎo)向的管理策略,為顧客提供精細(xì)化、個(gè)性化、多樣化的服務(wù),要做到這一點(diǎn),必須充分利用其掌握的顧客信息,輔助商業(yè)決策,從而提高公司利潤,提高客戶的滿意度和忠誠度。
按照客戶的生命周期分為三個(gè)階段:客戶獲取階段,客戶培育及成熟階段,客戶衰退階段
1、客戶的獲取階段:
客戶的獲取包括發(fā)現(xiàn)那些對公司產(chǎn)品不了解的客戶,他們可能是產(chǎn)品的潛在消費(fèi)客戶,也可能是接受競爭對手產(chǎn)品的客戶, 或者可能是公司已經(jīng)流失的客戶。數(shù)據(jù)挖掘可以幫助企業(yè)快速完成對潛在客戶的篩選工作。電信公司擁有本公司客戶信息,可以得出本公司客戶的基本特征比如性別、學(xué)歷、年齡、工資收入、婚否、是否有房、是否有車等信息,利用聚類分析技術(shù),找出本公司已有客戶的基本特征。還必須向市場調(diào)研公司或者相關(guān)統(tǒng)計(jì)部門獲取一份潛在顧客的名單,包括他們的上述相關(guān)信息。通過比較已有客戶和潛在名單客戶的基本特征,可以挑選出能夠接受本公司服務(wù)的“準(zhǔn)客戶”。這樣不但能減少獲取客戶的費(fèi)用,也能大大提高獲取效率,能夠有的放矢。當(dāng)電信公司擴(kuò)展某項(xiàng)業(yè)務(wù)時(shí),也可以利用此信息,對可能性大的顧客進(jìn)行定向推廣,這樣效率會大有提高。
2、顧客的培育及成熟階段:
交叉銷售,是指向現(xiàn)有的客戶提供新的產(chǎn)品和服務(wù)的營銷過程,那些購買了某種產(chǎn)品和服務(wù)的客戶很有可能同時(shí)購買你提供的某些感興趣的其他產(chǎn)品,或者對于現(xiàn)有服務(wù)的升級服務(wù)比較感興趣。這是一個(gè)雙贏的局面,一方面客戶能夠得到更個(gè)性化,多樣化的服務(wù),另一方面,公司能夠增加利潤。如何才能給特定的人推薦特定的服務(wù)呢?這首先要分析客戶的消費(fèi)行為,建立關(guān)聯(lián)規(guī)則模型,比如說長途通話行為和漫游行為,如果用戶對這二者的使用較高的話,可以推薦其使用相應(yīng)的套餐等。
客戶利潤分析,利潤是公司追求的目標(biāo),可以根據(jù)客戶的消費(fèi)行為,將客戶能夠?yàn)楣編砝麧櫝潭鹊牟煌譃榈?、中、高三類客戶。著名?#8220;商界定律”:80%的利潤來自20%的客戶,如果企業(yè)能牢牢把握住這20%的客戶,并且能不斷的增大這個(gè)比重,將普通客戶提升為高價(jià)值客戶,對公司的利潤將是一個(gè)巨大的提升。要進(jìn)行利潤分析,必須首先確定客戶給公司帶來利潤的計(jì)算方式,并建立相應(yīng)的數(shù)據(jù)挖掘模型,對所有客戶進(jìn)行判別,當(dāng)然在具體判別時(shí)還要考慮多種因素,比如說入網(wǎng)時(shí)間,所屬套餐等,只有這樣才能夠正確評價(jià)客戶的價(jià)值。
細(xì)分客戶,不同的客戶有著不同的消費(fèi)需求,比如學(xué)生可能對短信的需求量大,而商務(wù)人士可能對長途,漫游等通話要求高,根據(jù)這些不同的消費(fèi)層次,可以對顧客進(jìn)行細(xì)分。客戶細(xì)分將一個(gè)大的消費(fèi)群體分成若干個(gè)小的消費(fèi)群體,同屬于一個(gè)小的分群的消費(fèi)行為相似,而隸屬于不同分群的被視為不同的群體,這樣電信公司就可以針對不同群體客戶提出的要求來改善自己的服務(wù),提高客戶的滿意度。通過這種細(xì)分還可以找到某種服務(wù)的潛在消費(fèi)客戶,可以針對性的營銷,降低營銷成本。
客戶的欺詐檢測,據(jù)統(tǒng)計(jì),每年全球因電信欺詐造成的損失占電信業(yè)務(wù)總收入的5%以上,這給電信運(yùn)營商造成了很大的損失。面對電信欺詐行為的不斷擴(kuò)張,原先采用行政催繳的弊端日益顯露,比如成本巨大,效果不是很理想,且這些行為都是事后性的,對即將發(fā)生的電信欺詐沒有預(yù)見性。數(shù)據(jù)挖掘技術(shù)通過利用欺詐的消費(fèi)信息,比如通話時(shí)間、通話次數(shù)、長途漫游等,建立客戶的欺詐模型,比如貝葉斯模型、決策樹模型等,能夠提前預(yù)知顧客欺詐的可能性,立即采取措施,降低公司的損失。還可以利用孤立點(diǎn)分析對特征明顯的欺詐客戶進(jìn)行準(zhǔn)確識別。
3、顧客的保留階段:
客戶的滿意度分析,滿意度是客戶對公司提供產(chǎn)品和服務(wù)的整體感受,滿意度是忠誠度的基礎(chǔ),只有對公司產(chǎn)品和服務(wù)滿意度高的客戶才會忠誠于公司。電信公司應(yīng)當(dāng)定期的對客戶進(jìn)行抽樣調(diào)查并且結(jié)合投訴服務(wù)中心的資料,通過數(shù)據(jù)挖掘建立決策樹模型、結(jié)合分析模型、因子主成分分析模型,尋找影響滿意度最大的因素,這樣可以使公司快速改善服務(wù),提高客戶的滿意度。
客戶的保留分析,客戶的保留分析或者流失率分析與客戶的滿意度分析,有著密切的聯(lián)系。那些對服務(wù)長期不滿的人極有可能會放棄公司的服務(wù)。獲取一個(gè)新客戶的成本是留住一個(gè)老客戶成本的10倍以上,因此公司為增加自己的利潤,必須最大限
度的降低客戶的流失率,利用已經(jīng)擁有的客戶信息,比如客戶屬性,服務(wù)屬性和客戶消費(fèi)數(shù)據(jù)等與客戶流失相關(guān)聯(lián)的數(shù)據(jù),建立客戶流失預(yù)測模型,可以采用分類、關(guān)聯(lián)、聚類等方法建模,把握住流失客戶的基本特征,提早預(yù)測出要流失的客戶,從而采取特定的營銷措施挽留住這些客戶。
五、電信挖掘中應(yīng)當(dāng)注意的問題
數(shù)據(jù)挖掘時(shí)一個(gè)整體的流程,涵蓋業(yè)務(wù)的理解、數(shù)據(jù)的理解、數(shù)據(jù)的預(yù)處理、模型的建構(gòu)、模型的檢驗(yàn)及發(fā)布等,任何一個(gè)環(huán)節(jié)都要確保正確,數(shù)據(jù)挖掘需要依靠技術(shù)人員、業(yè)務(wù)人員和專家的通力合作,數(shù)據(jù)挖掘是一個(gè)團(tuán)隊(duì)的工作。
由于電信業(yè)數(shù)據(jù)量極大,在對特定目的進(jìn)行分析時(shí),一般要給予某一套餐類型,或者某個(gè)增值業(yè)務(wù),并且要注意地區(qū)因素等,這樣得到的結(jié)果才具有可靠性,且客戶的基本信息可能缺失比較嚴(yán)重,在數(shù)據(jù)處理時(shí)要格外注意,與專家共同商議處理缺失值的方法。
上面介紹的模型,并不是孤立沒有聯(lián)系的,由于客戶的入網(wǎng)時(shí)間不同,很多模型都是同時(shí)進(jìn)行的,要注意模型之間的結(jié)合,對于已經(jīng)建立的模型要不斷的利用新數(shù)據(jù)進(jìn)行更新,使之準(zhǔn)確性不隨時(shí)間而下降。
六、結(jié)語
隨著社會的進(jìn)步,各行各業(yè)的競爭也越來越激烈,特別是當(dāng)今經(jīng)濟(jì)危機(jī)爆發(fā),如何利用企業(yè)積累的大量數(shù)據(jù),輔助企業(yè)的決策,使企業(yè)在嚴(yán)酷的環(huán)境中能生存下來,數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用,或許能給我們有益的啟示。