來源:Wikibon社區(qū) 導讀 你想了解大數(shù)據(jù),卻對生澀的術語毫不知情?你想了解大數(shù)據(jù)的市場和應用,卻又沒有好的案例和解說?別擔心,這本來自Wikibon社區(qū)的小書想要幫你。 是的,這是一本小書而不是一篇文章,因為它詳實細致的讓你從一個完全不了解大數(shù)據(jù)技術及相關應用的門外漢,變成一個熟知其概念和意義的“內(nèi)行人”,所以它很棒! 主要內(nèi)容 1來自Wikibon社區(qū)的大數(shù)據(jù)宣言 5大數(shù)據(jù)方法的互補 6大數(shù)據(jù)供應商發(fā)展狀況 來自Wikibon社區(qū)的大數(shù)據(jù)宣言為公司提供有效的業(yè)務分析工具和技術是首席信息官的首要任務。有效的業(yè)務分析(從基本報告到高級的數(shù)據(jù)挖掘和預測分析)使得數(shù)據(jù)分析人員和業(yè)務人員都可以從數(shù)據(jù)中獲得見解,當這些見解轉(zhuǎn)化為行動,會給公司帶來更高的效率和盈利能力。 所有業(yè)務分析都是基于數(shù)據(jù)的。傳統(tǒng)意義上,這意味著企業(yè)自己創(chuàng)建和存儲的結(jié)構化數(shù)據(jù),如CRM系統(tǒng)中的客戶數(shù)據(jù),ERP系統(tǒng)中的運營數(shù)據(jù),以及會計數(shù)據(jù)庫中的財務數(shù)據(jù)。得益于社交媒體和網(wǎng)絡服務(如Facebook,Twitter),數(shù)據(jù)傳感器以及網(wǎng)絡設備,機器和人類產(chǎn)生的網(wǎng)上交易,以及其他來源的非結(jié)構化和半結(jié)構化的數(shù)據(jù)的普及,企業(yè)現(xiàn)有數(shù)據(jù)的體積和類型以及為追求最大商業(yè)價值而產(chǎn)生的近實時分析的需求正在迅速增加。我們稱這些為大數(shù)據(jù)。 傳統(tǒng)的數(shù)據(jù)管理和業(yè)務分析工具及技術都面臨大數(shù)據(jù)的壓力,與此同時幫助企業(yè)獲得來自大數(shù)據(jù)分析見解的新方法不斷涌現(xiàn)。這些新方法采取一種完全不同于傳統(tǒng)工具和技術的方式進行數(shù)據(jù)處理、分析和應用。這些新方法包括開源框架Hadoop,NoSQL數(shù)據(jù)庫(如Cassandra和Accumulo)以及大規(guī)模并行分析數(shù)據(jù)庫(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。這意味著,企業(yè)也需要從技術和文化兩個角度重新思考他們對待業(yè)務分析的方式。 對于大多數(shù)企業(yè)而言,這種轉(zhuǎn)變并不容易,但對于接受轉(zhuǎn)變并將大數(shù)據(jù)作為業(yè)務分析實踐基石的企業(yè)來說,他們會擁有遠遠超過膽小對手的顯著競爭優(yōu)勢。大數(shù)據(jù)助力復雜的業(yè)務分析可能為企業(yè)帶來前所未有的關于客戶行為以及動蕩的市場環(huán)境的深入洞察,使得他們能夠更快速的做出數(shù)據(jù)驅(qū)動業(yè)務的決策,從而比競爭對手更有效率。 從存儲及支持大數(shù)據(jù)處理的服務器端技術到為終端用戶帶來鮮活的新見解的前端數(shù)據(jù)可視化工具,大數(shù)據(jù)的出現(xiàn)也為硬件、軟件和服務供應商提供了顯著的機會。這些幫助企業(yè)過渡到大數(shù)據(jù)實踐者的供應商,無論是提供增加商業(yè)價值的大數(shù)據(jù)用例,還是發(fā)展讓大數(shù)據(jù)變?yōu)楝F(xiàn)實的技術和服務,都將得到茁壯成長。 大數(shù)據(jù)是所有行業(yè)新的權威的競爭優(yōu)勢。認為大數(shù)據(jù)是曇花一現(xiàn)的企業(yè)和技術供應商很快就會發(fā)現(xiàn)自己需要很辛苦才能跟上那些提前思考的競爭對手的步伐。在我們看來,他們是非常危險的。對于那些理解并擁抱大數(shù)據(jù)現(xiàn)實的企業(yè),新創(chuàng)新,高靈活性,以及高盈利能力的可能性幾乎是無止境的。 數(shù)據(jù)處理和分析:傳統(tǒng)方式傳統(tǒng)上,為了特定分析目的進行的數(shù)據(jù)處理都是基于相當靜態(tài)的藍圖。通過常規(guī)的業(yè)務流程,企業(yè)通過CRM、ERP和財務系統(tǒng)等應用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應用程序和事務型數(shù)據(jù)庫中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個臨時區(qū)域,在這個臨時區(qū)域進行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標準化,數(shù)據(jù)最終被模式化到整齊的行和表。這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級數(shù)據(jù)倉庫。這個過程會周期性發(fā)生,如每天或每周,有時會更頻繁。 在傳統(tǒng)數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫管理員創(chuàng)建計劃,定期計算倉庫中的標準化數(shù)據(jù),并將產(chǎn)生的報告分配到各業(yè)務部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。 同時,業(yè)務分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉庫進行高級分析,或者通常情況下,由于數(shù)據(jù)量的限制,將樣本數(shù)據(jù)導入到本地數(shù)據(jù)庫中。非專業(yè)用戶通過前端的商業(yè)智能工具(SAP的BusinessObjects和IBM的Cognos)對數(shù)據(jù)倉庫進行基礎的數(shù)據(jù)可視化和有限的分析。傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)量很少超過幾TB,因為大容量的數(shù)據(jù)會占用數(shù)據(jù)倉庫資源并且降低性能。 大數(shù)據(jù)性質(zhì)的變化Web、移動設備和其他技術的出現(xiàn)導致數(shù)據(jù)性質(zhì)的根本性變化。大數(shù)據(jù)具有重要而獨特的特性,這種特性使得它與“傳統(tǒng)”企業(yè)數(shù)據(jù)區(qū)分開來。不再集中化、高度結(jié)構化并且易于管理,與以往任何時候相比,現(xiàn)在的數(shù)據(jù)都是高度分散的、結(jié)構松散(如果存在結(jié)構的話)并且體積越來越大。 具體來說:
廣義地說,大數(shù)據(jù)由多個來源產(chǎn)生,包括:
從時間或成本效益上看,傳統(tǒng)的數(shù)據(jù)倉庫等數(shù)據(jù)管理工具都無法實現(xiàn)大數(shù)據(jù)的處理和分析工作。也就是說,必須將數(shù)據(jù)組織成關系表(整齊的行和列數(shù)據(jù)),傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫才可以處理。由于需要的時間和人力成本,對海量的非結(jié)構化數(shù)據(jù)應用這種結(jié)構是不切實際的。此外,擴展傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫使其適應潛在的PB級數(shù)據(jù)需要在新的專用硬件上投資巨額資金。而由于數(shù)據(jù)加載這一個瓶頸,傳統(tǒng)數(shù)據(jù)倉庫性能也會受到影響。 因此,需要處理和分析大數(shù)據(jù)的新方法。 大數(shù)據(jù)處理和分析的新方法存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點。即他們利用硬件的優(yōu)勢,使用擴展的、并行的處理技術,采用非關系型數(shù)據(jù)存儲處理非結(jié)構化和半結(jié)構化數(shù)據(jù),并對大數(shù)據(jù)運用高級分析和數(shù)據(jù)可視化技術,向終端用戶傳達見解。 1.Hadoop Hadoop是一個處理、存儲和分析海量的分布式、非結(jié)構化數(shù)據(jù)的開源框架。最初由雅虎的Doug Cutting創(chuàng)建,Hadoop的靈感來自于 MapReduce ,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁索引的用戶定義函數(shù)。它被設計用來處理分布在多個并行節(jié)點的PB級和EB級數(shù)據(jù)。 Hadoop集群運行在廉價的商用硬件上,這樣硬件擴展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(The Apache Software Foundation)的一個項目,數(shù)百名貢獻者不斷改進其核心技術?;靖拍睿号c將海量數(shù)據(jù)限定在一臺機器運行的方式不同,Hadoop將大數(shù)據(jù)分成多個部分,這樣每個部分都可以被同時處理和分析。 Hadoop如何工作客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲等來源獲得非結(jié)構化和半結(jié)構化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”,這些“部分”被載入到商用硬件的多個節(jié)點組成的文件系統(tǒng)。Hadoop的默認文件存儲系統(tǒng)是Hadoop分布式文件系統(tǒng)。文件系統(tǒng)(如HDFS)善于存儲大量非結(jié)構化和半結(jié)構化數(shù)據(jù),因為它們不需要將數(shù)據(jù)組織成關系型的行和列。 各“部分”被復制多次,并加載到文件系統(tǒng)。這樣,如果一個節(jié)點失效,另一個節(jié)點包含失效節(jié)點數(shù)據(jù)的副本。名稱節(jié)點充當調(diào)解人,負責溝通信息:如哪些節(jié)點是可用的,某些數(shù)據(jù)存儲在集群的什么地方,以及哪些節(jié)點失效。 一旦數(shù)據(jù)被加載到集群中,它就準備好通過MapReduce 框架進行分析??蛻籼峤灰粋€“匹配”的任務( 通常是用Java編寫的查詢語句)給到一個被稱為作業(yè)跟蹤器的節(jié)點。該作業(yè)跟蹤器引用名稱節(jié)點,以確定完成工作需要訪問哪些數(shù)據(jù),以及所需的數(shù)據(jù)在集群的存儲位置。一旦確定,作業(yè)跟蹤器向相關節(jié)點提交查詢。每個節(jié)點同時、并行處理,而非將所有數(shù)據(jù)集中到一個位置處理。這是Hadoop的一個本質(zhì)特征。 當每個節(jié)點處理完指定的作業(yè),它會存儲結(jié)果??蛻敉ㄟ^任務追蹤器啟動“Reduce”任務。匯總map階段存儲在各個節(jié)點上的結(jié)果數(shù)據(jù),獲得原始查詢的“答案”,然后將“答案”加載到集群的另一個節(jié)點中。客戶就可以訪問這些可以載入多種分析環(huán)境進行分析的結(jié)果了。MapReduce 的工作就完成了。 一旦MapReduce 階段完成,數(shù)據(jù)科學家和其他人就可以使用高級數(shù)據(jù)分析技巧對處理后的數(shù)據(jù)進一步分析。也可以對這些數(shù)據(jù)建模,將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關系型數(shù)據(jù)庫、數(shù)據(jù)倉庫等傳統(tǒng)IT系統(tǒng)進行進一步的分析。 Hadoop的技術組件Hadoop “?!庇啥鄠€組件組成。包括:
除了上述以外,Hadoop生態(tài)系統(tǒng)還包括許多免費子項目。NoSQL數(shù)據(jù)存儲系統(tǒng)(如Cassandra和HBase)也被用于存儲Hadoop的MapReduce作業(yè)結(jié)果。除了Java,很多 MapReduce 作業(yè)及其他Hadoop的功能都是用Pig語言寫的,Pig是專門針對Hadoop設計的開源語言。Hive最初是由Facebook開發(fā)的開源數(shù)據(jù)倉庫,可以在Hadoop中建立分析模型。 Hadoop:優(yōu)點和缺點Hadoop的主要好處是,它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構化和半結(jié)構化數(shù)據(jù),而這類數(shù)據(jù)迄今還沒有其他處理方式。因為Hadoop集群可以擴展到PB級甚至EB級數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關數(shù)據(jù)。數(shù)據(jù)科學家可以采用迭代的方法進行分析,不斷改進和測試查詢語句,從而發(fā)現(xiàn)以前未知的見解。使用Hadoop的成本也很廉價。開發(fā)者可以免費下載Apache的Hadoop 分布式平臺,并且在不到一天的時間內(nèi)開始體驗Hadoop。 Hadoop及其無數(shù)組件的不足之處是,他們還不成熟,仍處于發(fā)展階段。就像所有新的、原始的技術一樣,實施和管理Hadoop集群,對大量非結(jié)構化數(shù)據(jù)進行高級分析,都需要大量的專業(yè)知識、技能和培訓。不幸的是,目前Hadoop開發(fā)者和數(shù)據(jù)科學家的缺乏,使得眾多企業(yè)維持復雜的Hadoop集群并利用其優(yōu)勢變得很不現(xiàn)實。此外,由于Hadoop的眾多組件都是通過技術社區(qū)得到改善,并且新的組件不斷被創(chuàng)建,因此作為不成熟的開源技術,也存在失敗的風險。最后,Hadoop是一個面向批處理的框架,這意味著它不支持實時的數(shù)據(jù)處理和分析。 好消息是,一些聰明的IT人士不斷對Apache Hadoop項目做出貢獻,新一代的Hadoop開發(fā)者和數(shù)據(jù)科學家們正在走向成熟。因此,該技術的發(fā)展日新月異,逐漸變得更加強大而且更易于實施和管理。供應商(包括Hadoop的初創(chuàng)企業(yè)Cloudera和Hortonworks)以及成熟的IT中堅企業(yè)(如IBM和微軟)正在努力開發(fā)企業(yè)可用的商業(yè)Hadoop分布式平臺、工具和服務,讓部署和管理這項技術成為傳統(tǒng)企業(yè)可用的實際現(xiàn)實。其他初創(chuàng)企業(yè)正在努力完善NoSQL(不僅僅是SQL)數(shù)據(jù)系統(tǒng),結(jié)合Hadoop提供近實時的分析解決方案。 2.NoSQL 一種稱為NoSQL的新形式的數(shù)據(jù)庫(Not Only SQL)已經(jīng)出現(xiàn),像Hadoop一樣,可以處理大量的多結(jié)構化數(shù)據(jù)。但是,如果說Hadoop擅長支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL 數(shù)據(jù)庫的目的是為最終用戶和自動化的大數(shù)據(jù)應用程序提供大量存儲在多結(jié)構化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關系型數(shù)據(jù)庫欠缺的,它根本無法在大數(shù)據(jù)規(guī)模維持基本的性能水平。 在某些情況下,NoSQL和Hadoop協(xié)同工作。例如,HBase是流行的NoSQL數(shù)據(jù)庫,它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系統(tǒng))之上,為Hadoop提供低延遲的快速查找功能。 目前可用的NoSQL數(shù)據(jù)庫包括:
目前大多數(shù)NoSQL數(shù)據(jù)庫的缺點是,為了性能和可擴展性,他們遵從ACID(原子性,一致性,隔離性,持久性)原則。許多NoSQL數(shù)據(jù)庫還缺乏成熟的管理和監(jiān)控工具。這些缺點在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過程中,這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫。 3.大規(guī)模并行分析數(shù)據(jù)庫 不同于傳統(tǒng)的數(shù)據(jù)倉庫,大規(guī)模并行分析數(shù)據(jù)庫能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構化數(shù)據(jù),可以向外擴展以容納TB甚至PB級數(shù)據(jù)。 對最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫支持近乎實時的復雜SQL查詢結(jié)果,也叫交互式查詢功能 ,而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫在某些情況下支持近實時的大數(shù)據(jù)應用。大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括: 大規(guī)模并行處理的能力: 就像其名字表明的一樣,大規(guī)模并行分析數(shù)據(jù)庫采用大規(guī)模并行處理同時支持多臺機器上的數(shù)據(jù)采集、處理和查詢。相對傳統(tǒng)的數(shù)據(jù)倉庫具有更快的性能,傳統(tǒng)數(shù)據(jù)倉庫運行在單一機器上,會受到數(shù)據(jù)采集這個單一瓶頸點的限制。 無共享架構: 無共享架構可確保分析數(shù)據(jù)庫環(huán)境中沒有單點故障。在這種架構下,每個節(jié)點獨立于其他節(jié)點,所以如果一臺機器出現(xiàn)故障,其他機器可以繼續(xù)運行。對大規(guī)模并行處理環(huán)境而言,這點尤其重要,數(shù)百臺計算機并行處理數(shù)據(jù),偶爾出現(xiàn)一臺或多臺機器失敗是不可避免的。 列存儲結(jié)構: 大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫采用列存儲結(jié)構,而大多數(shù)關系型數(shù)據(jù)庫以行結(jié)構存儲和處理數(shù)據(jù)。在列存儲環(huán)境中,由包含必要數(shù)據(jù)的列決定查詢語句的“答案”,而不是由整行的數(shù)據(jù)決定,從而導致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關系數(shù)據(jù)庫那樣構造成整齊的表格。 強大的數(shù)據(jù)壓縮功能: 它們允許分析數(shù)據(jù)庫收集和存儲更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫相比占用更少的硬件資源。例如,具有10比1的壓縮功能的數(shù)據(jù)庫,可以將10 TB字節(jié)的數(shù)據(jù)壓縮到1 TB。數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關的技術)是有效的擴展到海量數(shù)據(jù)的關鍵。 商用硬件: 像Hadoop集群一樣,大多數(shù)(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫運行在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們能夠以具有成本效益的方式向外擴展。 在內(nèi)存中進行數(shù)據(jù)處理: 有些(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫使用動態(tài)RAM或閃存進行實時數(shù)據(jù)處理。有些(如SAP HANA和 Aerospike)完全在內(nèi)存中運行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動態(tài)RAM或閃存處理“熱”數(shù)據(jù)。 然而,大規(guī)模并行分析數(shù)據(jù)庫確實有一些盲點。最值得注意的是,他們并非被設計用來存儲、處理和分析大量的半結(jié)構化和非結(jié)構化數(shù)據(jù)。 大數(shù)據(jù)方法的互補Hadoop,NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫不是相互排斥的。相反的,Wikibon 認為這三種方法是互補的,彼此可以而且應該共存于許多企業(yè)。Hadoop擅長處理和分析大量分布式的非結(jié)構化數(shù)據(jù),以分批的方式進行歷史分析。NoSQL 數(shù)據(jù)庫擅長為基于Web的大數(shù)據(jù)應用程序提供近實時地多結(jié)構化數(shù)據(jù)存儲和處理。而大規(guī)模并行分析數(shù)據(jù)庫最擅長對大容量的主流結(jié)構化數(shù)據(jù)提供接近實時的分析。 例如,Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫供進一步分析,或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫的結(jié)構化數(shù)據(jù)進行集成。從大數(shù)據(jù)分析得到的見解可以而且應該通過大數(shù)據(jù)應用實現(xiàn)產(chǎn)品化。企業(yè)的目標應該是實現(xiàn)一個靈活的大數(shù)據(jù)架構,在該架構中,三種技術可以盡可能無縫地共享數(shù)據(jù)和見解。 很多預建的連接器可以幫助Hadoop開發(fā)者和管理員實現(xiàn)這種數(shù)據(jù)集成,同時也有很多廠商(包括Pivotal Initiative-原EMC的Greenplum,CETAS-和Teradata Aster)提供大數(shù)據(jù)應用。這些大數(shù)據(jù)應用將Hadoop、分析數(shù)據(jù)庫和預配置的硬件進行捆綁,可以達到以最小的調(diào)整實現(xiàn)快速部署的目的。另外一種情況,Hadapt提供了一個單一平臺,這個平臺在相同的集群上同時提供SQL和Hadoop/MapReduce的處理功能。Cloudera也在Impala和Hortonworks項目上通過開源倡議推行這一策略。 但是,為了充分利用大數(shù)據(jù),企業(yè)必須采取進一步措施。也就是說,他們必須使用高級分析技術處理數(shù)據(jù),并以此得出有意義的見解。數(shù)據(jù)科學家通過屈指可數(shù)的語言或方法(包括SAS和R)執(zhí)行這項復雜的工作。分析的結(jié)果可以通過Tableau這樣的工具可視化,也可以通過大數(shù)據(jù)應用程序進行操作,這些大數(shù)據(jù)應用程序包括自己開發(fā)的應用程序和現(xiàn)成的應用程序。其他廠商(包括 Platfora和Datameer)正在開發(fā)商業(yè)智能型的應用程序,這種應用程序允許非核心用戶與大數(shù)據(jù)直接交互。 底層的大數(shù)據(jù)方法(如Hadoop,NoSQL和大規(guī)模并行分析數(shù)據(jù)庫)不僅本身是互補的,而且與大部分大型企業(yè)現(xiàn)有的數(shù)據(jù)管理技術互補。Wikibon并不建議企業(yè)CIO們?yōu)榱舜髷?shù)據(jù)方法而“淘汰并更換”企業(yè)現(xiàn)有的全部的數(shù)據(jù)倉庫、數(shù)據(jù)集成和其他數(shù)據(jù)管理技術。 相反,Wikibon認為首席信息官必須像投資組合經(jīng)理那樣思考,重新權衡優(yōu)先級,為企業(yè)走向創(chuàng)新和發(fā)展奠定基礎,同時采取必要的措施減輕風險因素。用大數(shù)據(jù)方法替換現(xiàn)有的數(shù)據(jù)管理技術,只有當它的商業(yè)意義和發(fā)展計劃與現(xiàn)有的數(shù)據(jù)管理基礎設施盡可能無縫地整合時才有意義。最終目標應該是轉(zhuǎn)型為現(xiàn)代數(shù)據(jù)架構(見圖3和文章鏈接)。 大數(shù)據(jù)供應商發(fā)展狀況大數(shù)據(jù)供應商正在迅速發(fā)展。參見圖4對一個細分市場的概述,對于大數(shù)據(jù)市場的詳細分析,包括市場規(guī)模(現(xiàn)狀及到2017年的五年預測)和供應商之間的大數(shù)據(jù)收入數(shù)字。 大數(shù)據(jù):實際使用案例讓Hadoop和其他大數(shù)據(jù)技術如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。這可能會產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運營效率的方法。不過,也有一些已經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)。它們包括: 推薦引擎:網(wǎng)絡資源和在線零售商使用Hadoop根據(jù)用戶的個人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務。LinkedIn使用此方法增強其“你可能認識的人”這一功能,而亞馬遜利用該方法為網(wǎng)上消費者推薦相關產(chǎn)品。 情感分析: Hadoop與先進的文本分析工具結(jié)合,分析社會化媒體和社交網(wǎng)絡發(fā)布的非結(jié)構化的文本,包括Tweets和Facebook,以確定用戶對特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細分到個人用戶的情緒。 風險建模: 財務公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風險,模擬市場行為為潛在的“假設”方案做準備,并根據(jù)風險為潛在客戶打分。 欺詐檢測: 金融公司、零售商等使用大數(shù)據(jù)技術將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術識別可能的被盜卡的交易行為。 營銷活動分析:各行業(yè)的營銷部門長期使用技術手段監(jiān)測和確定營銷活動的有效性。大數(shù)據(jù)讓營銷團隊擁有更大量的越來越精細的數(shù)據(jù),如點擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù),以提高分析的準確性。 客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關系的供應商或服務商。企業(yè)就能采取最有效的措施挽留欲流失客戶。 社交圖譜分析: Hadoop和下一代數(shù)據(jù)倉庫相結(jié)合,通過挖掘社交網(wǎng)絡數(shù)據(jù),可以確定社交網(wǎng)絡中哪些客戶對其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶,不總是那些購買最多產(chǎn)品或花最多錢的,而是那些最能夠影響他人購買行為的客戶。 用戶體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術將之前單一 客戶互動渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, ,以獲得對客戶體驗的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個客戶生命周期的用戶體驗。 網(wǎng)絡監(jiān)控:Hadoop 和其他大數(shù)據(jù)技術被用來獲取,分析和顯示來自服務器,存儲設備和其他IT硬件的數(shù)據(jù),使管理員能夠監(jiān)視網(wǎng)絡活動,診斷瓶頸等問題。這種類型的分析,也可應用到交通網(wǎng)絡,以提高燃料效率,當然也可以應用到其他網(wǎng)絡。 研究與發(fā)展: 有些企業(yè)(如制藥商)使用Hadoop技術進行大量文本及歷史數(shù)據(jù)的研究,以協(xié)助新產(chǎn)品的開發(fā)。 當然,上述這些都只是大數(shù)據(jù)用例的舉例。事實上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。 大數(shù)據(jù)技能差距企業(yè)運用大數(shù)據(jù)的最大障礙是缺乏相關的技能,如Hadoop管理技能、大數(shù)據(jù)分析技能或數(shù)據(jù)科學。為了讓大數(shù)據(jù)真正被大量采用,并且實現(xiàn)其全部潛力,縮小技能上的差距就至關重要了。這需要從兩條戰(zhàn)線進行攻擊: 首先,這意味著開源社區(qū)和商業(yè)大數(shù)據(jù)廠商必須開發(fā)易于使用的大數(shù)據(jù)管理和分析工具和技術,為傳統(tǒng)的IT和商業(yè)智能專業(yè)人士降低進入的門檻。這些工具和技術,必須從底層數(shù)據(jù)處理框架抽象掉盡可能多的復雜性??梢酝ㄟ^圖形用戶界面,類似于向?qū)У陌惭b功能和日常任務自動化的組合方式實現(xiàn)。 其次,社會必須開發(fā)更多的教育資源,培養(yǎng)現(xiàn)有的IT和商業(yè)智能專業(yè)人士以及高中生和大學生成為我們未來所需要的大數(shù)據(jù)從業(yè)者。 據(jù)麥肯錫公司研究,到2018年僅美國就有可能面臨14萬?19萬具備專業(yè)分析技能的人才,以及懂得使用大數(shù)據(jù)分析做出有效決策的150萬經(jīng)理和分析師的短缺。造成短缺的部分原因是數(shù)據(jù)科學本身的規(guī)律導致的,因為數(shù)據(jù)科學要求各種綜合技能。 具體來說,數(shù)據(jù)科學家必須具備的技術技能側(cè)重于統(tǒng)計、計算機科學和數(shù)學。但他們還必須具有商業(yè)頭腦,即了解現(xiàn)有業(yè)務,并且能找到大數(shù)據(jù)可以業(yè)務提供最大價值的方向?;蛟S同樣重要的是,數(shù)據(jù)科學家必須具備專業(yè)的溝通技巧,以及通過大數(shù)據(jù)的可視化,向業(yè)務同事講故事的能力。 正如本報告中提到的,一些大數(shù)據(jù)廠商開始提供大數(shù)據(jù)培訓課程。IT從業(yè)者具有極好的機會,利用這些培訓和教育活動的優(yōu)勢磨練自己的數(shù)據(jù)分析技能,并可以在企業(yè)內(nèi)部確定新的職業(yè)道路。同樣,在南加州大學、北卡羅來納州立大學、紐約大學和其他地方,幾門關于大數(shù)據(jù)和高級分析技術的大學級別的課程也應運而生。但大數(shù)據(jù)的發(fā)展和普及還是需要更多的課程。 只有通過兩條戰(zhàn)線-更好的工具和技術,更好的教育和培訓-才能克服大數(shù)據(jù)技術差距。 大數(shù)據(jù):企業(yè)和供應商的后續(xù)動作對企業(yè)和為他們服務的供應商雙方而言,大數(shù)據(jù)都具有很大的潛力,但首先必須先采取行動。Wikibon的建議如下。 行動項目:各個行業(yè)的企業(yè)應評估現(xiàn)有和潛在的大數(shù)據(jù)用例,參與大數(shù)據(jù)社區(qū)了解最新的技術發(fā)展。與大數(shù)據(jù)社區(qū)里志趣相投的企業(yè)和供應商一起識別大數(shù)據(jù)能夠提供商業(yè)價值的領域。接下來,考慮企業(yè)內(nèi)部的大數(shù)據(jù)技術水平,確定是否開始大數(shù)據(jù)方法,如Hadoop的試驗。如果是這樣,與IT部門和業(yè)務部門一起制定計劃,將大數(shù)據(jù)工具、技術和方法整合到企業(yè)現(xiàn)有的IT基礎架構。 最重要的是,首先要在所有工作人員中培養(yǎng)數(shù)據(jù)驅(qū)動的文化,鼓勵數(shù)據(jù)實驗。當這個基礎已經(jīng)奠定,開始使用大數(shù)據(jù)的技術和方法提供最大的業(yè)務價值,并不斷地重新評估新成熟的大數(shù)據(jù)方法。 近期精彩活動(直接點擊查看): 福利 · 閱讀 | 免費申請讀大數(shù)據(jù)新書 第12期 版權聲明: |
|
來自: 小馬過河717 > 《數(shù)據(jù)分析》