轉(zhuǎn)自:http://bbs./blog/more.asp?name=topcio&id=16699
“我們把世界看成數(shù)學(xué),并且把你也看成數(shù)學(xué)”——用這句話(huà)來(lái)說(shuō)明數(shù)據(jù)挖掘技術(shù)的復(fù)合性和應(yīng)用的廣泛性似乎再好不過(guò)。如今,雖然一些行業(yè)在應(yīng)用這一技術(shù)上仍然缺乏足夠的主動(dòng),但一個(gè)不能阻擋的趨勢(shì)是:已經(jīng)有越來(lái)越多的人在快樂(lè)并有效地使用這一技術(shù),同時(shí)不由自主地成為“挖掘”的對(duì)象。
禽流感該如何更好地監(jiān)控?今天你寫(xiě)B(tài)log了嗎?
你是否覺(jué)得這兩個(gè)問(wèn)題連在一起問(wèn)很無(wú)厘頭?
事實(shí)上,美國(guó)一家公司正在試圖讓這兩個(gè)事件之間的關(guān)系日漸明了。
這家公司目前正在通過(guò)從全球的Blog網(wǎng)頁(yè)中挖掘出和禽流感相關(guān)的信息,從而建立一個(gè)預(yù)警機(jī)制。這一項(xiàng)目考慮到Blog已經(jīng)成為新聞傳播的重要途徑,先從網(wǎng)上抓取有關(guān)禽流感的網(wǎng)頁(yè),存入到公司的數(shù)據(jù)倉(cāng)庫(kù),再指定“國(guó)家”為關(guān)鍵目標(biāo)詞,然后利用關(guān)聯(lián)分析技術(shù),即可得到和禽流感關(guān)聯(lián)最大的國(guó)家,由此可以判定該國(guó)的禽流感傳染可能比較嚴(yán)重。
就在此前,已經(jīng)有很多人在抱怨,網(wǎng)上多如牛毛的Blog除了浪費(fèi)人們數(shù)以十萬(wàn)年的閱讀時(shí)間之外,還有多少用處?如今,數(shù)據(jù)挖掘技術(shù)正在力圖從這些爆炸式增長(zhǎng)的Blog中“挖”出更有價(jià)值的東西,同時(shí)它也在更多領(lǐng)域中展示其非凡的力量。
工具篇:前方是岔路口
數(shù)據(jù)挖掘其實(shí)并非單純的IT技術(shù),而是數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家之間的合作產(chǎn)物。在過(guò)去十年中,高等數(shù)學(xué)和計(jì)算機(jī)建模的聯(lián)姻改變了科學(xué)和工程技術(shù),以至于有人認(rèn)為這一合作已經(jīng)開(kāi)創(chuàng)了一個(gè)全新的商業(yè)領(lǐng)域。
有關(guān)數(shù)據(jù)挖掘技術(shù)的定義有很多版本,綜其要點(diǎn),主要在于應(yīng)用一系列統(tǒng)計(jì)與人工智能技術(shù)來(lái)發(fā)現(xiàn)以前并不了解的數(shù)據(jù)規(guī)律,并解決實(shí)際業(yè)務(wù)問(wèn)題。如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)從最開(kāi)始的一個(gè)簡(jiǎn)單的算法包,發(fā)展出通用挖掘平臺(tái)和專(zhuān)業(yè)挖掘工具兩大種類(lèi)。其中,像IBM、NCR、SAS、微軟、SPSS、StatSoft等廠(chǎng)商的數(shù)據(jù)挖掘產(chǎn)品(模塊)基本都是通用型工具平臺(tái);而像美國(guó)的 Unica 公司、Fair Isaac 則主要專(zhuān)注于諸如營(yíng)銷(xiāo)自動(dòng)化、信用卡積分等細(xì)分領(lǐng)域,屬于后一種工具。具體來(lái)看,目前在數(shù)據(jù)挖掘領(lǐng)域聲勢(shì)頗大的大多是通用型工具平臺(tái)。
“現(xiàn)在IBM更側(cè)重的是平臺(tái)優(yōu)勢(shì)。”在采訪(fǎng)中,IBM軟件部中國(guó)區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒明確表示。目前,IBM的DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個(gè)數(shù)據(jù)挖掘模塊,將數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)整合到一個(gè)平臺(tái)之上。其中,前者主要針對(duì)結(jié)構(gòu)化信息,分為建模、瀏覽、Scoring Service三個(gè)部分;后者則是針對(duì)文本的挖掘模塊,其主要功能是特征抽取、文檔聚集、文檔分類(lèi)和檢索。
NCR Teradata的數(shù)據(jù)挖掘工具同樣也是與其數(shù)據(jù)倉(cāng)庫(kù)整合在一起的。具體來(lái)說(shuō),其數(shù)據(jù)挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數(shù)據(jù)挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作為兩家從傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)發(fā)展而來(lái)的數(shù)據(jù)挖掘廠(chǎng)商,二者在業(yè)內(nèi)的影響力可謂有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時(shí)間序列預(yù)測(cè))、SAS OR(運(yùn)籌學(xué))、SAS STAT(統(tǒng)計(jì)分析)、SAS QC(質(zhì)量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項(xiàng)產(chǎn)品。
微軟的SQL Server 2005在數(shù)據(jù)挖掘方面的突破與創(chuàng)新曾被人看作是最令人驚艷的地方。Microsoft SQL Server 2005 Data Mining 平臺(tái)的確引入了大量的數(shù)據(jù)挖掘功能,其本身就是一個(gè)開(kāi)發(fā)智能應(yīng)用程序的平臺(tái),而非一個(gè)獨(dú)立應(yīng)用程序。而且,這一平臺(tái)與所有 SQL Server 產(chǎn)品實(shí)現(xiàn)了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據(jù)稱(chēng),SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力,它允許模型對(duì)整個(gè)數(shù)據(jù)集運(yùn)行,從而消除了采樣方面的挑戰(zhàn)。
總起來(lái)看,像IBM、NCR、Oracle、微軟這些平臺(tái)工具廠(chǎng)商基本上都是以提供“整車(chē)”為己任。一句話(huà),只要用戶(hù)不是很挑剔,基本上都可以在某一家那里即可買(mǎi)全包括數(shù)據(jù)挖掘工具在內(nèi)的全套商業(yè)智能產(chǎn)品。而像SAS、SPSS、StatSoft等公司雖然也宣稱(chēng)提供工具平臺(tái),但提供“整車(chē)”的實(shí)力有限,其主要在統(tǒng)計(jì)分析和數(shù)據(jù)挖掘領(lǐng)域延伸提供盡可能多的工具組件。
相對(duì)于這些挖掘工具平臺(tái),專(zhuān)業(yè)挖掘工具可能在市場(chǎng)的聲勢(shì)并不大,但是像Fair Isaac 公司、Unica 公司的發(fā)展卻也相當(dāng)不錯(cuò)。比如像Fair Isaac 公司就已經(jīng)占據(jù)了全球信用卡積分市場(chǎng)70%~80%的份額,幾乎達(dá)到壟斷。該公司的創(chuàng)始人發(fā)明了一個(gè)信用評(píng)分卡(即費(fèi)寇分?jǐn)?shù),F(xiàn)ICO score),由此可以預(yù)測(cè)人的未來(lái)償付行為,為信用卡消費(fèi)提供一個(gè)有效的預(yù)測(cè)工具。同樣,美國(guó) Unica 公司的 Affinium Model 則是一款專(zhuān)注于市場(chǎng)營(yíng)銷(xiāo)自動(dòng)化的數(shù)據(jù)挖掘工具軟件。
那么,面對(duì)這兩種工具,用戶(hù)該如何選擇?換句話(huà)講,哪種工具才是未來(lái)的發(fā)展方向呢?
中國(guó)傳媒大學(xué)調(diào)查統(tǒng)計(jì)研究所副所長(zhǎng)、數(shù)據(jù)挖掘研究室主任沈浩認(rèn)為,平臺(tái)化肯定是將來(lái)的一個(gè)發(fā)展方向,而且,中國(guó)的市場(chǎng)足夠廣闊,也可以容得下一批這樣的平臺(tái)廠(chǎng)商。IBM軟件部中國(guó)區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒也表示,正與SAS進(jìn)行更多的合作,以便進(jìn)一步統(tǒng)一數(shù)據(jù)挖掘領(lǐng)域的技術(shù)標(biāo)準(zhǔn)。
而Teradata數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家盛秋戩博士則認(rèn)為,目前的平臺(tái)工具雖多,但從根本上講,都是在用橫向的數(shù)據(jù)挖掘工具解決縱向的行業(yè)業(yè)務(wù)問(wèn)題。他表示,如果從用戶(hù)出發(fā),用戶(hù)應(yīng)該更歡迎那些專(zhuān)業(yè)挖掘工具。
北京瑞斯泰得數(shù)據(jù)技術(shù)開(kāi)發(fā)公司蘇立民總經(jīng)理從事數(shù)據(jù)挖掘行業(yè)已有六年之久,他在采訪(fǎng)中表示,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的確存在平臺(tái)化趨勢(shì),但專(zhuān)業(yè)工具也占領(lǐng)了一些市場(chǎng)。比如Unica 公司就是選出并優(yōu)化某些算法,再加上行業(yè)經(jīng)驗(yàn),使建模過(guò)程更加優(yōu)化。
另?yè)?jù)Sybase商務(wù)智能總監(jiān)廖鋼城介紹,其實(shí)在日本,就有公司專(zhuān)門(mén)銷(xiāo)售一種類(lèi)似“黑匣子”的專(zhuān)業(yè)工具,銀行積累的數(shù)據(jù)在里面跑一遍,就直接出來(lái)結(jié)果。這種工具用得也很好。而在另一方面,他也認(rèn)為,提供平臺(tái)的廠(chǎng)商會(huì)越來(lái)越少。
如此看來(lái),業(yè)界對(duì)于工具的發(fā)展方向似乎并無(wú)太大異議,即平臺(tái)工具會(huì)保持在一個(gè)適當(dāng)?shù)臄?shù)量,而專(zhuān)業(yè)工具顯然更得用戶(hù)的寵愛(ài)。而現(xiàn)在,數(shù)據(jù)挖掘技術(shù)的發(fā)展剛好走到一個(gè)岔路口,一邊指向通用型,一邊指向?qū)I(yè)型,就看企業(yè)要往哪個(gè)方向走了。
技術(shù)篇:算法與模型
機(jī)關(guān)可曾“算”盡?
之所以說(shuō)數(shù)據(jù)挖掘是高等數(shù)學(xué)和計(jì)算機(jī)科學(xué)聯(lián)姻的產(chǎn)物,其中一大原因就在于,對(duì)各種算法的支持程度是衡量數(shù)據(jù)挖掘工具的一大標(biāo)準(zhǔn)。
在前期采訪(fǎng)中,筆者曾設(shè)想通過(guò)對(duì)比各種數(shù)據(jù)挖掘工具對(duì)算法的支持程度來(lái)分出高低。但在采訪(fǎng)之后,筆者發(fā)現(xiàn)這一對(duì)比實(shí)無(wú)必要,因?yàn)槟壳暗乃惴夹g(shù)已經(jīng)相當(dāng)成熟,而主流工具也基本上都提供了對(duì)主流算法的支持。
從算法上看,業(yè)界公認(rèn)主要有決策樹(shù)、分類(lèi)、聚類(lèi)、回歸、關(guān)聯(lián)分析等幾大主流算法。對(duì)于這些算法,IBM、NCR、Oracle等主流工具基本上都已經(jīng)支持,而像微軟的Microsoft SQL Server 2005 Data Mining ,它作為一個(gè)開(kāi)發(fā)智能應(yīng)用程序的平臺(tái),可以允許第三方添加自定義算法以支持特定的挖掘需求。
在支持的算法種類(lèi)和數(shù)量上,SAS、SPSS等傳統(tǒng)的統(tǒng)計(jì)分析廠(chǎng)商要比IBM、NCR、微軟、Oracle 等廠(chǎng)商更多一些。比如SAS Enterprise Miner就提供了決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、自動(dòng)神經(jīng)網(wǎng)絡(luò)、基于記憶的推理(MBR)、線(xiàn)性和對(duì)數(shù)回歸、聚類(lèi)、關(guān)聯(lián)分析等很多算法。SPSS公司在其AnswerTree工具中就提供了CHAID、Exhaustive CHAID、Classification & Regression Tree、Quest等四種計(jì)算法則。
在采訪(fǎng)中,無(wú)論廠(chǎng)商還是業(yè)內(nèi)專(zhuān)家大都認(rèn)為,目前的算法技術(shù)已臻成熟。北京瑞斯泰得數(shù)據(jù)技術(shù)開(kāi)發(fā)公司蘇立民總經(jīng)理就表示,近年來(lái)統(tǒng)計(jì)學(xué)領(lǐng)域新出現(xiàn)的算法很有限,大多是對(duì)舊算法的完善。而對(duì)于現(xiàn)存的算法而言,除了一些獨(dú)有的算法之外,主流算法都可以互相拷貝,并不存在太高的技術(shù)壁壘。(下轉(zhuǎn)42版)(上接41版)或許正是因?yàn)樽鳛閿?shù)據(jù)挖掘技術(shù)基石的算法技術(shù)已經(jīng)比較成熟,這也造成廠(chǎng)商開(kāi)始紛紛在其他領(lǐng)域開(kāi)拓新的技術(shù)亮點(diǎn)。比如NCR Teradata就認(rèn)為,除了算法指標(biāo),體系架構(gòu)也非常重要。相對(duì)于算法上的難分伯仲, NCR更強(qiáng)調(diào)通過(guò)其“庫(kù)內(nèi)挖掘”的優(yōu)勢(shì)來(lái)解決數(shù)據(jù)量、效率和質(zhì)量的難題。此外,蘇立民總經(jīng)理認(rèn)為,在算法成熟之后,更重要的工作就是在數(shù)據(jù)準(zhǔn)備階段。而商智通公司咨詢(xún)總監(jiān)匡宏波則認(rèn)為,雖然算法的速度業(yè)已越來(lái)越快,但更關(guān)鍵的是怎么用。無(wú)疑,這些都是需要業(yè)界跳出單純的算法技術(shù)并及早關(guān)注的重點(diǎn)。
從模型看未來(lái)
美國(guó)《商業(yè)周刊》在今年的一篇文章中指出,人類(lèi)將數(shù)學(xué)建模應(yīng)用于現(xiàn)實(shí)生活與工作肯定將是21世紀(jì)最偉大的事件之一。事實(shí)上,建構(gòu)模型也正是數(shù)據(jù)挖掘技術(shù)的重要內(nèi)容,正是通過(guò)建模,數(shù)據(jù)挖掘工具才可以準(zhǔn)確地告訴用戶(hù)那些隱藏在數(shù)據(jù)庫(kù)深處的重要信息,同時(shí)又對(duì)未來(lái)做出預(yù)測(cè)的。
那么,何為建模?簡(jiǎn)單來(lái)講,就是綜合運(yùn)用數(shù)學(xué)思想方法和IT技術(shù)建立一個(gè)適合當(dāng)前問(wèn)題的模型,用以解釋之前發(fā)生的事情并預(yù)測(cè)未來(lái)發(fā)生的事情。
“算法是刀,建模是刀法,而模型就是用刀切出來(lái)的東西。”蘇立民如此形容算法、建模和模型三者之間的關(guān)系。簡(jiǎn)單來(lái)講,如果算法是“y=a+bx”,那么模型就是“y=5+3x”。區(qū)別就在于已經(jīng)帶入了常變量。目前,業(yè)界探討較多的技術(shù)內(nèi)容主要有自動(dòng)建模和模型轉(zhuǎn)換兩點(diǎn)。
其一,自動(dòng)建模。
自動(dòng)建模是考查數(shù)據(jù)挖掘工具是否能夠自我優(yōu)化,從而方便一般用戶(hù)使用的重要功能指標(biāo)。在這項(xiàng)功能的幫助下,用戶(hù)無(wú)須深刻了解算法的優(yōu)缺點(diǎn),即可利用其靈活的參數(shù)設(shè)置及其幫助,從而增強(qiáng)建模的效率。
目前,諸多主流工具都在自動(dòng)建模方面有著較好表現(xiàn)。比如NCR就尤其強(qiáng)調(diào)其模型的并行性。據(jù)盛秋戩博士介紹, NCR的并行處理優(yōu)勢(shì)在于:比如用兩臺(tái)服務(wù)器(集群)來(lái)作挖掘,可能需要1分鐘的反應(yīng)時(shí)間;而如果再加兩臺(tái)服務(wù)器,則只需要半分鐘的反應(yīng)時(shí)間。當(dāng)然,這一優(yōu)勢(shì)要基于NCR自身的硬件設(shè)備。
SAS Enterprise Miner(EM)的自動(dòng)建模主要體現(xiàn)在自導(dǎo)向(SEMMA)數(shù)據(jù)挖掘進(jìn)程上。SEMMA為執(zhí)行數(shù)據(jù)挖掘的核心任務(wù)提供了一個(gè)靈活的框架,這些任務(wù)包括五個(gè)主要的步驟,亦即采樣(S),探索(E),修改(M),建模(M)和評(píng)估(A)。此外,專(zhuān)業(yè)工具廠(chǎng)商美國(guó) Unica 公司的 Affinium Model 的最大優(yōu)點(diǎn)也是體現(xiàn)在最大限度地將數(shù)學(xué)建模過(guò)程自動(dòng)化 ,使得那些數(shù)學(xué)基礎(chǔ)不好的業(yè)務(wù)人員可以方便地使用這個(gè)工具。
需要注意的是,雖然自動(dòng)建模被人們寄予厚望,但是還遠(yuǎn)未達(dá)到讓用戶(hù)手到擒來(lái)的地步。之所以這樣說(shuō),一方面是因?yàn)楣ぞ弑旧淼募夹g(shù)實(shí)現(xiàn)不夠,蘇立民就認(rèn)為,在這方面,專(zhuān)業(yè)型工具做得要比通用型工具相對(duì)較好;另一方面,自動(dòng)化本身并不能取代一切。中國(guó)傳媒大學(xué)調(diào)查統(tǒng)計(jì)研究所副所長(zhǎng)、數(shù)據(jù)挖掘研究室主任沈浩也解釋說(shuō),做好自動(dòng)建模,同樣需要對(duì)業(yè)務(wù)有深刻的了解,才能選擇更好的變量。比如在知道一批女孩的身高、體重?cái)?shù)據(jù)之后,要分析出女孩的漂亮程度,那么,選定“身高除以體重”來(lái)分析無(wú)疑還是要靠腦子想出來(lái)的。
其二,模型轉(zhuǎn)換。
數(shù)據(jù)挖掘工具的多樣性造成模型種類(lèi)也很多,這種情況下,不同工具生成的模型是否能夠共享或轉(zhuǎn)換就成為一大難題。目前,業(yè)界正通過(guò)對(duì)預(yù)測(cè)模型標(biāo)記語(yǔ)言(Predictive Model Markup Language ,PMML)的應(yīng)用來(lái)解決這一問(wèn)題。這一語(yǔ)言在1997年7月由DMG(Data Mining Group)發(fā)布,它利用XML描述和存儲(chǔ)數(shù)據(jù)挖掘模型,已是一種被W3C組織接受的標(biāo)準(zhǔn)?,F(xiàn)在來(lái)看,IBM、SAS和SPSS等廠(chǎng)商已經(jīng)在使用PMML標(biāo)準(zhǔn)導(dǎo)入數(shù)據(jù)挖掘模型,但也有些廠(chǎng)商仍未采用此種標(biāo)準(zhǔn),而從標(biāo)準(zhǔn)本身看,對(duì)數(shù)據(jù)仍然具有一定的依賴(lài)性,還未真正實(shí)現(xiàn)模型與數(shù)據(jù)的分離。
熱點(diǎn)篇:文本挖掘與網(wǎng)絡(luò)挖掘
算法和建模作為數(shù)據(jù)挖掘工具的核心技術(shù),從它誕生之日起就在得到不斷完善,而在最近兩年,也有一些新的技術(shù)和應(yīng)用熱點(diǎn)開(kāi)始引起人們的關(guān)注,比如文本挖掘、網(wǎng)絡(luò)挖掘和可視化挖掘就是其中比較重要的三種。
“文本挖掘是個(gè)太恐怖的事情。”中國(guó)傳媒大學(xué)調(diào)查統(tǒng)計(jì)研究所副所長(zhǎng)、數(shù)據(jù)挖掘研究室主任沈浩如此形容文本挖掘的威力。
文本挖掘(Text mining),顧名思義,就是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關(guān)系。在這項(xiàng)技術(shù)中,最關(guān)鍵的是分詞技術(shù),建立詞典。只有讓計(jì)算機(jī)依據(jù)詞典完成正確斷詞之后,才可以實(shí)現(xiàn)將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,然后就可以進(jìn)一步研究文本之間的關(guān)系。比如本文開(kāi)頭提到的通過(guò)分析Blog網(wǎng)頁(yè)來(lái)建立禽流感預(yù)警機(jī)制的例子,其實(shí)既利用了文本挖掘技術(shù),也是一個(gè)網(wǎng)絡(luò)挖掘案例。
到目前為止,像IBM、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用文本挖掘技術(shù)。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。
如果說(shuō)文本挖掘是一項(xiàng)技術(shù)熱點(diǎn)的話(huà),那么網(wǎng)絡(luò)挖掘可以稱(chēng)得上是數(shù)據(jù)挖掘領(lǐng)域中的一大應(yīng)用熱點(diǎn)了。
具體來(lái)講,網(wǎng)絡(luò)挖掘還可以細(xì)分為三種挖掘,一是前文提到的文本挖掘,二是結(jié)構(gòu)挖掘(Structure mining),主要解決網(wǎng)頁(yè)與網(wǎng)頁(yè)之間的鏈接關(guān)系,三是點(diǎn)擊挖掘(Hit mining),是針對(duì)點(diǎn)擊率的挖掘分析。總體而言,要實(shí)現(xiàn)網(wǎng)絡(luò)挖掘,從技術(shù)上講并沒(méi)有難度,大部分的問(wèn)題都可以用成熟方法來(lái)解決。
在采訪(fǎng)中,無(wú)論廠(chǎng)商、集成商還是學(xué)界都肯定了網(wǎng)絡(luò)挖掘的美好發(fā)展前景。“我個(gè)人比較看好網(wǎng)絡(luò)挖掘。”盛秋戩博士這樣說(shuō)。他認(rèn)為,網(wǎng)絡(luò)挖掘是施展數(shù)據(jù)挖掘技術(shù)很好的舞臺(tái),同時(shí)也會(huì)給挖掘工具廠(chǎng)商帶來(lái)不少商機(jī)。沈浩同樣也認(rèn)為,當(dāng)電子商務(wù)發(fā)展起來(lái)之后,網(wǎng)絡(luò)挖掘肯定大有可為。
但是業(yè)內(nèi)人士也指出,網(wǎng)絡(luò)挖掘目前尚存在一些瓶頸。
首先,一個(gè)關(guān)鍵問(wèn)題是電子商務(wù)的評(píng)估指標(biāo)(e-Metrics)還沒(méi)有形成一個(gè)完整的體系。所謂指標(biāo)體系就要設(shè)定幾個(gè)維度來(lái)衡量電子商務(wù)網(wǎng)站生意的好壞。目前,有些電子商務(wù)網(wǎng)站已經(jīng)開(kāi)始定義像潛在顧客率(reach)、招攬時(shí)間(Acquisition)、潛在顧客轉(zhuǎn)化率(Conversion)等一些評(píng)估指標(biāo),美國(guó)的一些技術(shù)會(huì)議也已經(jīng)開(kāi)始做一些整合工作,但是要形成體系還需要一段時(shí)間。
其次,缺錢(qián)。在采訪(fǎng)中,商智通公司咨詢(xún)總監(jiān)匡宏波表示,曾經(jīng)有一家醫(yī)藥類(lèi)電子商務(wù)網(wǎng)站主動(dòng)找上門(mén),提出要求想知道平臺(tái)的某類(lèi)藥品(比如盤(pán)尼西林)主要銷(xiāo)往哪里。但盛秋戩博士也指出,就電子商務(wù)領(lǐng)域的總體而言,除了像亞馬遜、eBay等一些國(guó)外大型電子商務(wù)網(wǎng)站開(kāi)始自己買(mǎi)工具進(jìn)行挖掘之外,國(guó)內(nèi)少數(shù)注意到數(shù)據(jù)挖掘技術(shù)的網(wǎng)站大多是自己開(kāi)發(fā)做此類(lèi)工作,舍得掏錢(qián)的人還不多。
在文本挖掘和網(wǎng)絡(luò)挖掘之外,可視化挖掘(Visual Data Mining)因?yàn)楹凸ぞ叩囊子眯月?lián)系在一起,因而也頗為重要。
簡(jiǎn)單來(lái)講,可視化包括了數(shù)據(jù)預(yù)處理和結(jié)果呈現(xiàn)兩個(gè)方面。比如StatSoft一直強(qiáng)調(diào)的完整的圖表工具庫(kù)以及高質(zhì)量的圖表呈現(xiàn)效果就是其優(yōu)勢(shì)所在。但是總體情況來(lái)看,可視化的內(nèi)含和標(biāo)準(zhǔn)近幾年一直沒(méi)有更新的內(nèi)容,而且,即便工具廠(chǎng)商自認(rèn)為做得再“可視化”,對(duì)于用戶(hù)來(lái)說(shuō),仍有難以理解和掌握的地方。
蘇立民介紹說(shuō),雖然現(xiàn)在挖掘結(jié)果的呈現(xiàn)已經(jīng)相當(dāng)易用,但是他接觸到的一些用戶(hù)依然會(huì)抱怨說(shuō),每回總是打印出那么多表格到底有什么用?其中的問(wèn)題就在于:工具的易用性是一回事,有沒(méi)有既懂業(yè)務(wù)又懂技術(shù)的人來(lái)用卻是另一回事。
應(yīng)用篇:瓜熟蒂不落?
在采訪(fǎng)中,筆者發(fā)現(xiàn),無(wú)論廠(chǎng)商、集成商還是學(xué)術(shù)界,基本上都認(rèn)同一個(gè)觀(guān)點(diǎn),即:數(shù)據(jù)挖掘在技術(shù)上已經(jīng)趨于成熟,現(xiàn)在更重要的就是如何拓展行業(yè)應(yīng)用。 IBM軟件部中國(guó)區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒表示說(shuō),數(shù)據(jù)挖掘技術(shù)已經(jīng)到了一個(gè)普及化的階段,現(xiàn)在關(guān)鍵是要讓數(shù)據(jù)挖掘從神壇上走下來(lái)。商智通公司咨詢(xún)總監(jiān)匡宏波也表示,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的問(wèn)題都不是技術(shù)問(wèn)題,也不是工具問(wèn)題,而是應(yīng)用問(wèn)題。那么,現(xiàn)在,數(shù)據(jù)挖掘工具在國(guó)內(nèi)的實(shí)際應(yīng)用處于什么階段呢?
從行業(yè)應(yīng)用來(lái)看,目前大多數(shù)的用戶(hù)都來(lái)自電信、銀行、保險(xiǎn)、稅務(wù)等領(lǐng)域,比如南京地稅、四川移動(dòng)兩個(gè)案例就做得相當(dāng)成功,應(yīng)用主題則主要包含:消費(fèi)者行為分析、信用評(píng)分與風(fēng)險(xiǎn)管理、欺詐行為偵測(cè)、購(gòu)物籃分析等方面。綜合國(guó)內(nèi)外的發(fā)展趨勢(shì),可以看到的是,大型連鎖商店和高科技制造產(chǎn)業(yè)也將成為應(yīng)用數(shù)據(jù)挖掘技術(shù)的重要領(lǐng)域。前者的記賬質(zhì)量之好為業(yè)內(nèi)公認(rèn),一旦開(kāi)始數(shù)據(jù)挖掘方面的應(yīng)用則前景不可限量;而在后一個(gè)領(lǐng)域,國(guó)外已經(jīng)開(kāi)始陸續(xù)導(dǎo)入數(shù)據(jù)挖掘技術(shù),類(lèi)似做法相信會(huì)很快為國(guó)內(nèi)制造業(yè)大廠(chǎng)所借鑒。
從應(yīng)用層次上看,大體可以分為三個(gè)層次,第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來(lái)用,偶爾用一下出具一個(gè)報(bào)告,不用專(zhuān)門(mén)建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,稱(chēng)為部門(mén)級(jí)應(yīng)用;第三層次是企業(yè)級(jí)應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個(gè)企業(yè)運(yùn)營(yíng)的CPU。目前,國(guó)內(nèi)的數(shù)據(jù)挖掘應(yīng)用是本來(lái)數(shù)量就比較少,即便是做了的,也有很多只是處于第一層次,偶爾某些用戶(hù)能夠做到第二層次。
如此一來(lái),問(wèn)題出現(xiàn)了:既然數(shù)據(jù)挖掘技術(shù)已經(jīng)趨于成熟,為什么在應(yīng)用上卻遲遲跟不上呢?筆者在采訪(fǎng)了幾家主流廠(chǎng)商和集成商以及業(yè)內(nèi)專(zhuān)家后發(fā)現(xiàn),問(wèn)題主要集中在以下幾個(gè)方面。
其一,工具易用性強(qiáng),那么是否用戶(hù)就會(huì)運(yùn)用呢?答案是否定的。
現(xiàn)在很多廠(chǎng)家都在強(qiáng)調(diào)工具的易用性,但是卻忽視了一個(gè)問(wèn)題,即工具易用性強(qiáng)和用戶(hù)會(huì)運(yùn)用完全是兩碼事。Sybase商務(wù)智能總監(jiān)廖鋼城表示,這兩者的關(guān)系,就像用Word寫(xiě)文章一樣,即便輸入法、界面等再友好,但是和使用者能否寫(xiě)出流暢的文章并無(wú)關(guān)系。
“用戶(hù)總是想像使用傻瓜相機(jī)一樣使用挖掘工具,事實(shí)上這是不可能的。”盛秋戩博士表示說(shuō)。據(jù)他介紹,目前很多號(hào)稱(chēng)已經(jīng)做完的項(xiàng)目,其實(shí)大部分工作仍然還都是由廠(chǎng)商代替客戶(hù)操作使用。
其二,復(fù)合型人才一將難求。
要成功完成一次數(shù)據(jù)挖掘過(guò)程,用戶(hù)首先要熟悉業(yè)務(wù),其次還要對(duì)算法和模型熟悉。兩者不可偏廢,才能知道拿來(lái)的數(shù)據(jù)代表什么,算出來(lái)的結(jié)果又代表了什么。然而,從目前電信、金融行業(yè)的人才結(jié)構(gòu)來(lái)看,如今主導(dǎo)建設(shè)數(shù)據(jù)挖掘系統(tǒng)的大都是工科出身,不但業(yè)務(wù)不熟悉,即便是對(duì)于數(shù)學(xué)領(lǐng)域中的統(tǒng)計(jì)學(xué)也都過(guò)于生疏??陀^(guān)地講,這種復(fù)合型人才的缺乏也在很大程度上造成了目前數(shù)據(jù)挖掘市場(chǎng)還不夠成熟。
那么,如何解決這個(gè)問(wèn)題?答案似乎很簡(jiǎn)單,沒(méi)有,那就只有培養(yǎng)了。比如現(xiàn)在一些電信用戶(hù)就在日常培訓(xùn)之外,還高薪聘請(qǐng)一些乙方(數(shù)據(jù)倉(cāng)庫(kù)解決方案供應(yīng)商)的咨詢(xún)師和顧問(wèn),專(zhuān)職負(fù)責(zé)自己的數(shù)據(jù)倉(cāng)庫(kù)和挖掘項(xiàng)目,試圖由此培養(yǎng)一批既懂業(yè)務(wù)又懂技術(shù)的專(zhuān)業(yè)人才。當(dāng)然,一開(kāi)始說(shuō)的是培養(yǎng),最后實(shí)在忙不過(guò)來(lái),用戶(hù)挖廠(chǎng)商墻角的事也不是沒(méi)有。
問(wèn)題是,同樣是培養(yǎng)人才,那到底是讓業(yè)務(wù)人員學(xué)技術(shù)好呢,還是讓技術(shù)人員學(xué)業(yè)務(wù)好呢?蘇立民和廖鋼城都表示,更贊成是業(yè)務(wù)人員去學(xué)習(xí)技術(shù)。因?yàn)闃I(yè)務(wù)人員是為了應(yīng)用而學(xué)習(xí),可以實(shí)現(xiàn)很好的結(jié)合。目前,像中國(guó)人民大學(xué)已經(jīng)開(kāi)始招收有計(jì)算機(jī)專(zhuān)業(yè)背景的統(tǒng)計(jì)博士,而中國(guó)傳媒大學(xué)的數(shù)據(jù)研發(fā)中心也是文理兼收,可以想見(jiàn),未來(lái)三四年內(nèi),人才缺乏的問(wèn)題將逐步得到緩解。
其三,轉(zhuǎn)變意識(shí)。與國(guó)外長(zhǎng)期的精細(xì)化管理相比,國(guó)內(nèi)用戶(hù)有些時(shí)候還不太習(xí)慣迅速走向精細(xì)化。沈浩就表示,國(guó)內(nèi)零售企業(yè)的記賬是最好的,也是被認(rèn)為最值得做數(shù)據(jù)挖掘的行業(yè),但迄今為止還沒(méi)有哪家開(kāi)始做,原因就在于沒(méi)有這方面的意識(shí)。
編看編想:從一錘子買(mǎi)賣(mài)到沿途下蛋
生意人都知道,一錘子的買(mǎi)賣(mài)做不得。但筆者卻發(fā)現(xiàn),在數(shù)據(jù)挖掘領(lǐng)域里,敲一錘子換個(gè)地方的現(xiàn)象卻似乎并不鮮見(jiàn)。為什么非要這樣做呢?原因是心里太著急。很多廠(chǎng)商總認(rèn)為,自己懷里揣著的是好產(chǎn)品,面前的中國(guó)又是一個(gè)大市場(chǎng)。如此一想,就感覺(jué)不趕快搶下幾個(gè)大單簡(jiǎn)直就沒(méi)天理了。
于是,搞售前的著急讓用戶(hù)簽單,拿到錢(qián)后又著急從用戶(hù)那里撤退。結(jié)果如何呢?還真像那句俏皮話(huà)說(shuō)的:有困難要上,沒(méi)有困難創(chuàng)造困難也要上。活活把一些簡(jiǎn)單問(wèn)題復(fù)雜化。有些買(mǎi)完工具的用戶(hù)其實(shí)需求都沒(méi)想明白,何談成功運(yùn)用;而那些能在忽悠中挺過(guò)來(lái)的用戶(hù)索性就不再理這個(gè)茬。
廠(chǎng)商著急,其實(shí)有些用戶(hù)也著急。廠(chǎng)商著急賣(mài)產(chǎn)品,而用戶(hù)卻在著急讓花大價(jià)錢(qián)買(mǎi)來(lái)的產(chǎn)品早日上線(xiàn)出效益。這種想法雖然也有問(wèn)題,但是可以理解。你想,誰(shuí)不擔(dān)心幾十萬(wàn)的資金打了水漂兒,誰(shuí)又不想讓領(lǐng)導(dǎo)說(shuō)這幾十萬(wàn)花得值、花得好呢?
那么,如何才能做到既能保證項(xiàng)目按周期實(shí)施、又不讓用戶(hù)心急火燎地難受呢?上海證券交易所信息網(wǎng)絡(luò)有限公司董事長(zhǎng)趙小平提出了一個(gè)“沿途下蛋”的理論。簡(jiǎn)單講,就是不要到最后才給用戶(hù)下一個(gè)大金蛋,很可能這個(gè)大金蛋還沒(méi)下來(lái),用戶(hù)就已經(jīng)下了逐客令。正確的辦法就是不斷出成果,這樣用戶(hù)才會(huì)安心等待并且積極配合。無(wú)疑,從“一錘子的買(mǎi)賣(mài)”到“沿途下蛋”這條路上還需要廠(chǎng)商和用戶(hù)慢慢琢磨。