一文讀懂大數(shù)據(jù)：Hadoop，大數(shù)據(jù)技術及相關應用

小馬過河717 2016-09-20

展開全文

來源：Wikibon社區(qū)

導讀

你想了解大數(shù)據(jù)，卻對生澀的術語毫不知情？你想了解大數(shù)據(jù)的市場和應用，卻又沒有好的案例和解說？別擔心，這本來自Wikibon社區(qū)的小書想要幫你。

是的，這是一本小書而不是一篇文章，因為它詳實細致的讓你從一個完全不了解大數(shù)據(jù)技術及相關應用的門外漢，變成一個熟知其概念和意義的“內(nèi)行人”，所以它很棒！

主要內(nèi)容

1來自Wikibon社區(qū)的大數(shù)據(jù)宣言
2數(shù)據(jù)處理與分析：傳統(tǒng)方式
3大數(shù)據(jù)性質(zhì)的變化
4大數(shù)據(jù)處理和分析的新方法

5大數(shù)據(jù)方法的互補

6大數(shù)據(jù)供應商發(fā)展狀況
7大數(shù)據(jù)：實際使用案例
8大數(shù)據(jù)技能差距
9大數(shù)據(jù)：企業(yè)和供應商的后續(xù)動作

來自Wikibon社區(qū)的大數(shù)據(jù)宣言

為公司提供有效的業(yè)務分析工具和技術是首席信息官的首要任務。有效的業(yè)務分析（從基本報告到高級的數(shù)據(jù)挖掘和預測分析）使得數(shù)據(jù)分析人員和業(yè)務人員都可以從數(shù)據(jù)中獲得見解，當這些見解轉(zhuǎn)化為行動，會給公司帶來更高的效率和盈利能力。

所有業(yè)務分析都是基于數(shù)據(jù)的。傳統(tǒng)意義上，這意味著企業(yè)自己創(chuàng)建和存儲的結(jié)構化數(shù)據(jù)，如CRM系統(tǒng)中的客戶數(shù)據(jù)，ERP系統(tǒng)中的運營數(shù)據(jù)，以及會計數(shù)據(jù)庫中的財務數(shù)據(jù)。得益于社交媒體和網(wǎng)絡服務（如Facebook，Twitter），數(shù)據(jù)傳感器以及網(wǎng)絡設備，機器和人類產(chǎn)生的網(wǎng)上交易，以及其他來源的非結(jié)構化和半結(jié)構化的數(shù)據(jù)的普及，企業(yè)現(xiàn)有數(shù)據(jù)的體積和類型以及為追求最大商業(yè)價值而產(chǎn)生的近實時分析的需求正在迅速增加。我們稱這些為大數(shù)據(jù)。

傳統(tǒng)的數(shù)據(jù)管理和業(yè)務分析工具及技術都面臨大數(shù)據(jù)的壓力，與此同時幫助企業(yè)獲得來自大數(shù)據(jù)分析見解的新方法不斷涌現(xiàn)。這些新方法采取一種完全不同于傳統(tǒng)工具和技術的方式進行數(shù)據(jù)處理、分析和應用。這些新方法包括開源框架Hadoop，NoSQL數(shù)據(jù)庫（如Cassandra和Accumulo）以及大規(guī)模并行分析數(shù)據(jù)庫（如EMC的Greenplum，惠普的Vertica和TeradataASTERData）。這意味著，企業(yè)也需要從技術和文化兩個角度重新思考他們對待業(yè)務分析的方式。

對于大多數(shù)企業(yè)而言，這種轉(zhuǎn)變并不容易，但對于接受轉(zhuǎn)變并將大數(shù)據(jù)作為業(yè)務分析實踐基石的企業(yè)來說，他們會擁有遠遠超過膽小對手的顯著競爭優(yōu)勢。大數(shù)據(jù)助力復雜的業(yè)務分析可能為企業(yè)帶來前所未有的關于客戶行為以及動蕩的市場環(huán)境的深入洞察，使得他們能夠更快速的做出數(shù)據(jù)驅(qū)動業(yè)務的決策，從而比競爭對手更有效率。

從存儲及支持大數(shù)據(jù)處理的服務器端技術到為終端用戶帶來鮮活的新見解的前端數(shù)據(jù)可視化工具，大數(shù)據(jù)的出現(xiàn)也為硬件、軟件和服務供應商提供了顯著的機會。這些幫助企業(yè)過渡到大數(shù)據(jù)實踐者的供應商，無論是提供增加商業(yè)價值的大數(shù)據(jù)用例，還是發(fā)展讓大數(shù)據(jù)變?yōu)楝F(xiàn)實的技術和服務，都將得到茁壯成長。

大數(shù)據(jù)是所有行業(yè)新的權威的競爭優(yōu)勢。認為大數(shù)據(jù)是曇花一現(xiàn)的企業(yè)和技術供應商很快就會發(fā)現(xiàn)自己需要很辛苦才能跟上那些提前思考的競爭對手的步伐。在我們看來，他們是非常危險的。對于那些理解并擁抱大數(shù)據(jù)現(xiàn)實的企業(yè)，新創(chuàng)新，高靈活性，以及高盈利能力的可能性幾乎是無止境的。

數(shù)據(jù)處理和分析：傳統(tǒng)方式

傳統(tǒng)上，為了特定分析目的進行的數(shù)據(jù)處理都是基于相當靜態(tài)的藍圖。通過常規(guī)的業(yè)務流程，企業(yè)通過CRM、ERP和財務系統(tǒng)等應用程序，創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應用程序和事務型數(shù)據(jù)庫中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個臨時區(qū)域，在這個臨時區(qū)域進行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標準化，數(shù)據(jù)最終被模式化到整齊的行和表。這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級數(shù)據(jù)倉庫。這個過程會周期性發(fā)生，如每天或每周，有時會更頻繁。

在傳統(tǒng)數(shù)據(jù)倉庫中，數(shù)據(jù)倉庫管理員創(chuàng)建計劃，定期計算倉庫中的標準化數(shù)據(jù)，并將產(chǎn)生的報告分配到各業(yè)務部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。

同時，業(yè)務分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉庫進行高級分析，或者通常情況下，由于數(shù)據(jù)量的限制，將樣本數(shù)據(jù)導入到本地數(shù)據(jù)庫中。非專業(yè)用戶通過前端的商業(yè)智能工具（SAP的BusinessObjects和IBM的Cognos）對數(shù)據(jù)倉庫進行基礎的數(shù)據(jù)可視化和有限的分析。傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)量很少超過幾TB，因為大容量的數(shù)據(jù)會占用數(shù)據(jù)倉庫資源并且降低性能。

大數(shù)據(jù)性質(zhì)的變化

Web、移動設備和其他技術的出現(xiàn)導致數(shù)據(jù)性質(zhì)的根本性變化。大數(shù)據(jù)具有重要而獨特的特性，這種特性使得它與“傳統(tǒng)”企業(yè)數(shù)據(jù)區(qū)分開來。不再集中化、高度結(jié)構化并且易于管理，與以往任何時候相比，現(xiàn)在的數(shù)據(jù)都是高度分散的、結(jié)構松散（如果存在結(jié)構的話）并且體積越來越大。

具體來說：

·體積-通過Web、移動設備、IT基礎設施和其他來源產(chǎn)生的企業(yè)內(nèi)部和防火墻外的數(shù)據(jù)量每年都在成倍增加。
·類型-數(shù)據(jù)類型的多樣性增加，包括非結(jié)構化文本數(shù)據(jù)以及半結(jié)構化數(shù)據(jù)（如社交媒體數(shù)據(jù)，基于位置的數(shù)據(jù)和日志文件數(shù)據(jù)）。
·速度-得益于數(shù)字化交易、移動計算以及互聯(lián)網(wǎng)和移動設備的高用戶量，新數(shù)據(jù)被創(chuàng)建的速度以及實時分析的需求正在增加。

廣義地說，大數(shù)據(jù)由多個來源產(chǎn)生，包括：

·社交網(wǎng)絡和媒體：目前有超過7億Facebook用戶，2.5億Twitter用戶和1.56億面向公眾開放的博客。Facebook上的每個更新、Tweet和博客上文章的發(fā)布及評論都會創(chuàng)建多個新的數(shù)據(jù)點（包含結(jié)構化、半結(jié)構化和非結(jié)構化的），這些數(shù)據(jù)點有時被稱為“數(shù)據(jù)廢氣”。
·移動設備：全球有超過50億正在使用中的移動電話。每次呼叫、短信和即時消息都被記錄為數(shù)據(jù)。移動設備（尤其是智能手機和平板電腦）讓使用社交媒體等應用程序更容易，而社會媒體的使用會產(chǎn)生大量數(shù)據(jù)。移動設備也收集和傳送位置數(shù)據(jù)。
·網(wǎng)上交易：數(shù)十億的網(wǎng)上購物、股票交易等每天都在發(fā)生，包括無數(shù)的自動交易。每次交易都產(chǎn)生了大量數(shù)據(jù)點，這些數(shù)據(jù)點會被零售商、銀行、信用卡、信貸機構和其他機構收集。
·網(wǎng)絡設備和傳感器：各種類型的電子設備（包括服務器和其他IT硬件、智能電表和溫度傳感器）都會創(chuàng)建半結(jié)構化的日志數(shù)據(jù)記錄每一個動作。

從時間或成本效益上看，傳統(tǒng)的數(shù)據(jù)倉庫等數(shù)據(jù)管理工具都無法實現(xiàn)大數(shù)據(jù)的處理和分析工作。也就是說，必須將數(shù)據(jù)組織成關系表（整齊的行和列數(shù)據(jù)），傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫才可以處理。由于需要的時間和人力成本，對海量的非結(jié)構化數(shù)據(jù)應用這種結(jié)構是不切實際的。此外，擴展傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫使其適應潛在的PB級數(shù)據(jù)需要在新的專用硬件上投資巨額資金。而由于數(shù)據(jù)加載這一個瓶頸，傳統(tǒng)數(shù)據(jù)倉庫性能也會受到影響。

因此，需要處理和分析大數(shù)據(jù)的新方法。

大數(shù)據(jù)處理和分析的新方法

存在多種方法處理和分析大數(shù)據(jù)，但多數(shù)都有一些共同的特點。即他們利用硬件的優(yōu)勢，使用擴展的、并行的處理技術，采用非關系型數(shù)據(jù)存儲處理非結(jié)構化和半結(jié)構化數(shù)據(jù)，并對大數(shù)據(jù)運用高級分析和數(shù)據(jù)可視化技術，向終端用戶傳達見解。

1.Hadoop

Hadoop是一個處理、存儲和分析海量的分布式、非結(jié)構化數(shù)據(jù)的開源框架。最初由雅虎的Doug Cutting創(chuàng)建，Hadoop的靈感來自于 MapReduce ，MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁索引的用戶定義函數(shù)。它被設計用來處理分布在多個并行節(jié)點的PB級和EB級數(shù)據(jù)。

Hadoop集群運行在廉價的商用硬件上，這樣硬件擴展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(The Apache Software Foundation)的一個項目，數(shù)百名貢獻者不斷改進其核心技術?；靖拍睿号c將海量數(shù)據(jù)限定在一臺機器運行的方式不同，Hadoop將大數(shù)據(jù)分成多個部分，這樣每個部分都可以被同時處理和分析。

Hadoop如何工作

客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲等來源獲得非結(jié)構化和半結(jié)構化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”，這些“部分”被載入到商用硬件的多個節(jié)點組成的文件系統(tǒng)。Hadoop的默認文件存儲系統(tǒng)是Hadoop分布式文件系統(tǒng)。文件系統(tǒng)（如HDFS）善于存儲大量非結(jié)構化和半結(jié)構化數(shù)據(jù)，因為它們不需要將數(shù)據(jù)組織成關系型的行和列。

各“部分”被復制多次，并加載到文件系統(tǒng)。這樣，如果一個節(jié)點失效，另一個節(jié)點包含失效節(jié)點數(shù)據(jù)的副本。名稱節(jié)點充當調(diào)解人，負責溝通信息：如哪些節(jié)點是可用的，某些數(shù)據(jù)存儲在集群的什么地方，以及哪些節(jié)點失效。

一旦數(shù)據(jù)被加載到集群中，它就準備好通過MapReduce 框架進行分析?？蛻籼峤灰粋€“匹配”的任務（通常是用Java編寫的查詢語句）給到一個被稱為作業(yè)跟蹤器的節(jié)點。該作業(yè)跟蹤器引用名稱節(jié)點，以確定完成工作需要訪問哪些數(shù)據(jù)，以及所需的數(shù)據(jù)在集群的存儲位置。一旦確定，作業(yè)跟蹤器向相關節(jié)點提交查詢。每個節(jié)點同時、并行處理，而非將所有數(shù)據(jù)集中到一個位置處理。這是Hadoop的一個本質(zhì)特征。

當每個節(jié)點處理完指定的作業(yè)，它會存儲結(jié)果?？蛻敉ㄟ^任務追蹤器啟動“Reduce”任務。匯總map階段存儲在各個節(jié)點上的結(jié)果數(shù)據(jù)，獲得原始查詢的“答案”，然后將“答案”加載到集群的另一個節(jié)點中。客戶就可以訪問這些可以載入多種分析環(huán)境進行分析的結(jié)果了。MapReduce 的工作就完成了。

一旦MapReduce 階段完成，數(shù)據(jù)科學家和其他人就可以使用高級數(shù)據(jù)分析技巧對處理后的數(shù)據(jù)進一步分析。也可以對這些數(shù)據(jù)建模，將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關系型數(shù)據(jù)庫、數(shù)據(jù)倉庫等傳統(tǒng)IT系統(tǒng)進行進一步的分析。

Hadoop的技術組件

Hadoop “?！庇啥鄠€組件組成。包括：

· Hadoop分布式文件系統(tǒng)（HDFS）：所有Hadoop集群的默認存儲層;
· 名稱節(jié)點：在Hadoop集群中，提供數(shù)據(jù)存儲位置以及節(jié)點失效信息的節(jié)點。
· 二級節(jié)點：名稱節(jié)點的備份，它會定期復制和存儲名稱節(jié)點的數(shù)據(jù)，以防名稱節(jié)點失效。
· 作業(yè)跟蹤器：Hadoop集群中發(fā)起和協(xié)調(diào)MapReduce作業(yè)或數(shù)據(jù)處理任務的節(jié)點。
· 從節(jié)點：Hadoop集群的普通節(jié)點，從節(jié)點存儲數(shù)據(jù)并且從作業(yè)跟蹤器那里獲取數(shù)據(jù)處理指令。

除了上述以外，Hadoop生態(tài)系統(tǒng)還包括許多免費子項目。NoSQL數(shù)據(jù)存儲系統(tǒng)（如Cassandra和HBase）也被用于存儲Hadoop的MapReduce作業(yè)結(jié)果。除了Java，很多 MapReduce 作業(yè)及其他Hadoop的功能都是用Pig語言寫的，Pig是專門針對Hadoop設計的開源語言。Hive最初是由Facebook開發(fā)的開源數(shù)據(jù)倉庫，可以在Hadoop中建立分析模型。

Hadoop：優(yōu)點和缺點

Hadoop的主要好處是，它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構化和半結(jié)構化數(shù)據(jù)，而這類數(shù)據(jù)迄今還沒有其他處理方式。因為Hadoop集群可以擴展到PB級甚至EB級數(shù)據(jù)，企業(yè)不再必須依賴于樣本數(shù)據(jù)集，而可以處理和分析所有相關數(shù)據(jù)。數(shù)據(jù)科學家可以采用迭代的方法進行分析，不斷改進和測試查詢語句，從而發(fā)現(xiàn)以前未知的見解。使用Hadoop的成本也很廉價。開發(fā)者可以免費下載Apache的Hadoop 分布式平臺，并且在不到一天的時間內(nèi)開始體驗Hadoop。

Hadoop及其無數(shù)組件的不足之處是，他們還不成熟，仍處于發(fā)展階段。就像所有新的、原始的技術一樣，實施和管理Hadoop集群，對大量非結(jié)構化數(shù)據(jù)進行高級分析，都需要大量的專業(yè)知識、技能和培訓。不幸的是，目前Hadoop開發(fā)者和數(shù)據(jù)科學家的缺乏，使得眾多企業(yè)維持復雜的Hadoop集群并利用其優(yōu)勢變得很不現(xiàn)實。此外，由于Hadoop的眾多組件都是通過技術社區(qū)得到改善，并且新的組件不斷被創(chuàng)建，因此作為不成熟的開源技術，也存在失敗的風險。最后，Hadoop是一個面向批處理的框架，這意味著它不支持實時的數(shù)據(jù)處理和分析。

好消息是，一些聰明的IT人士不斷對Apache Hadoop項目做出貢獻，新一代的Hadoop開發(fā)者和數(shù)據(jù)科學家們正在走向成熟。因此，該技術的發(fā)展日新月異，逐漸變得更加強大而且更易于實施和管理。供應商（包括Hadoop的初創(chuàng)企業(yè)Cloudera和Hortonworks）以及成熟的IT中堅企業(yè)（如IBM和微軟）正在努力開發(fā)企業(yè)可用的商業(yè)Hadoop分布式平臺、工具和服務，讓部署和管理這項技術成為傳統(tǒng)企業(yè)可用的實際現(xiàn)實。其他初創(chuàng)企業(yè)正在努力完善NoSQL（不僅僅是SQL）數(shù)據(jù)系統(tǒng)，結(jié)合Hadoop提供近實時的分析解決方案。

2.NoSQL

一種稱為NoSQL的新形式的數(shù)據(jù)庫（Not Only SQL）已經(jīng)出現(xiàn)，像Hadoop一樣，可以處理大量的多結(jié)構化數(shù)據(jù)。但是，如果說Hadoop擅長支持大規(guī)模、批量式的歷史分析，在大多數(shù)情況下（雖然也有一些例外），NoSQL 數(shù)據(jù)庫的目的是為最終用戶和自動化的大數(shù)據(jù)應用程序提供大量存儲在多結(jié)構化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關系型數(shù)據(jù)庫欠缺的，它根本無法在大數(shù)據(jù)規(guī)模維持基本的性能水平。

在某些情況下，NoSQL和Hadoop協(xié)同工作。例如，HBase是流行的NoSQL數(shù)據(jù)庫，它仿照谷歌的BigTable，通常部署在HDFS（Hadoop分布式文件系統(tǒng)）之上，為Hadoop提供低延遲的快速查找功能。

目前可用的NoSQL數(shù)據(jù)庫包括：

· HBase
· Cassandra
· MarkLogic
· Aerospike
· MongoDB
· Accumulo
· Riak
· CouchDB
· DynamoDB

目前大多數(shù)NoSQL數(shù)據(jù)庫的缺點是，為了性能和可擴展性，他們遵從ACID（原子性，一致性，隔離性，持久性）原則。許多NoSQL數(shù)據(jù)庫還缺乏成熟的管理和監(jiān)控工具。這些缺點在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過程中，這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase，他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫。

3.大規(guī)模并行分析數(shù)據(jù)庫

不同于傳統(tǒng)的數(shù)據(jù)倉庫，大規(guī)模并行分析數(shù)據(jù)庫能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構化數(shù)據(jù)，可以向外擴展以容納TB甚至PB級數(shù)據(jù)。

對最終用戶而言最重要的是，大規(guī)模并行分析數(shù)據(jù)庫支持近乎實時的復雜SQL查詢結(jié)果，也叫交互式查詢功能，而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫在某些情況下支持近實時的大數(shù)據(jù)應用。大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括：

大規(guī)模并行處理的能力：就像其名字表明的一樣，大規(guī)模并行分析數(shù)據(jù)庫采用大規(guī)模并行處理同時支持多臺機器上的數(shù)據(jù)采集、處理和查詢。相對傳統(tǒng)的數(shù)據(jù)倉庫具有更快的性能，傳統(tǒng)數(shù)據(jù)倉庫運行在單一機器上，會受到數(shù)據(jù)采集這個單一瓶頸點的限制。

無共享架構： 無共享架構可確保分析數(shù)據(jù)庫環(huán)境中沒有單點故障。在這種架構下，每個節(jié)點獨立于其他節(jié)點，所以如果一臺機器出現(xiàn)故障，其他機器可以繼續(xù)運行。對大規(guī)模并行處理環(huán)境而言，這點尤其重要，數(shù)百臺計算機并行處理數(shù)據(jù)，偶爾出現(xiàn)一臺或多臺機器失敗是不可避免的。

列存儲結(jié)構： 大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫采用列存儲結(jié)構，而大多數(shù)關系型數(shù)據(jù)庫以行結(jié)構存儲和處理數(shù)據(jù)。在列存儲環(huán)境中，由包含必要數(shù)據(jù)的列決定查詢語句的“答案”，而不是由整行的數(shù)據(jù)決定，從而導致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關系數(shù)據(jù)庫那樣構造成整齊的表格。

強大的數(shù)據(jù)壓縮功能： 它們允許分析數(shù)據(jù)庫收集和存儲更大量的數(shù)據(jù)，而且與傳統(tǒng)數(shù)據(jù)庫相比占用更少的硬件資源。例如，具有10比1的壓縮功能的數(shù)據(jù)庫，可以將10 TB字節(jié)的數(shù)據(jù)壓縮到1 TB。數(shù)據(jù)編碼（包括數(shù)據(jù)壓縮以及相關的技術）是有效的擴展到海量數(shù)據(jù)的關鍵。

商用硬件：像Hadoop集群一樣，大多數(shù)（肯定不是全部）大規(guī)模并行分析數(shù)據(jù)庫運行在戴爾、IBM等廠商現(xiàn)成的商用硬件上，這使他們能夠以具有成本效益的方式向外擴展。

在內(nèi)存中進行數(shù)據(jù)處理： 有些（肯定不是全部）大規(guī)模并行分析數(shù)據(jù)庫使用動態(tài)RAM或閃存進行實時數(shù)據(jù)處理。有些(如SAP HANA和 Aerospike)完全在內(nèi)存中運行數(shù)據(jù)，而其他則采用混合的方式，即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù)，用動態(tài)RAM或閃存處理“熱”數(shù)據(jù)。

然而，大規(guī)模并行分析數(shù)據(jù)庫確實有一些盲點。最值得注意的是，他們并非被設計用來存儲、處理和分析大量的半結(jié)構化和非結(jié)構化數(shù)據(jù)。

大數(shù)據(jù)方法的互補

Hadoop，NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫不是相互排斥的。相反的，Wikibon 認為這三種方法是互補的，彼此可以而且應該共存于許多企業(yè)。Hadoop擅長處理和分析大量分布式的非結(jié)構化數(shù)據(jù)，以分批的方式進行歷史分析。NoSQL 數(shù)據(jù)庫擅長為基于Web的大數(shù)據(jù)應用程序提供近實時地多結(jié)構化數(shù)據(jù)存儲和處理。而大規(guī)模并行分析數(shù)據(jù)庫最擅長對大容量的主流結(jié)構化數(shù)據(jù)提供接近實時的分析。

例如，Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫供進一步分析，或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫的結(jié)構化數(shù)據(jù)進行集成。從大數(shù)據(jù)分析得到的見解可以而且應該通過大數(shù)據(jù)應用實現(xiàn)產(chǎn)品化。企業(yè)的目標應該是實現(xiàn)一個靈活的大數(shù)據(jù)架構，在該架構中，三種技術可以盡可能無縫地共享數(shù)據(jù)和見解。

很多預建的連接器可以幫助Hadoop開發(fā)者和管理員實現(xiàn)這種數(shù)據(jù)集成，同時也有很多廠商（包括Pivotal Initiative-原EMC的Greenplum，CETAS-和Teradata Aster）提供大數(shù)據(jù)應用。這些大數(shù)據(jù)應用將Hadoop、分析數(shù)據(jù)庫和預配置的硬件進行捆綁，可以達到以最小的調(diào)整實現(xiàn)快速部署的目的。另外一種情況，Hadapt提供了一個單一平臺，這個平臺在相同的集群上同時提供SQL和Hadoop/MapReduce的處理功能。Cloudera也在Impala和Hortonworks項目上通過開源倡議推行這一策略。

但是，為了充分利用大數(shù)據(jù)，企業(yè)必須采取進一步措施。也就是說，他們必須使用高級分析技術處理數(shù)據(jù)，并以此得出有意義的見解。數(shù)據(jù)科學家通過屈指可數(shù)的語言或方法（包括SAS和R）執(zhí)行這項復雜的工作。分析的結(jié)果可以通過Tableau這樣的工具可視化，也可以通過大數(shù)據(jù)應用程序進行操作，這些大數(shù)據(jù)應用程序包括自己開發(fā)的應用程序和現(xiàn)成的應用程序。其他廠商（包括 Platfora和Datameer）正在開發(fā)商業(yè)智能型的應用程序，這種應用程序允許非核心用戶與大數(shù)據(jù)直接交互。

底層的大數(shù)據(jù)方法（如Hadoop，NoSQL和大規(guī)模并行分析數(shù)據(jù)庫）不僅本身是互補的，而且與大部分大型企業(yè)現(xiàn)有的數(shù)據(jù)管理技術互補。Wikibon并不建議企業(yè)CIO們?yōu)榱舜髷?shù)據(jù)方法而“淘汰并更換”企業(yè)現(xiàn)有的全部的數(shù)據(jù)倉庫、數(shù)據(jù)集成和其他數(shù)據(jù)管理技術。

相反，Wikibon認為首席信息官必須像投資組合經(jīng)理那樣思考，重新權衡優(yōu)先級，為企業(yè)走向創(chuàng)新和發(fā)展奠定基礎，同時采取必要的措施減輕風險因素。用大數(shù)據(jù)方法替換現(xiàn)有的數(shù)據(jù)管理技術，只有當它的商業(yè)意義和發(fā)展計劃與現(xiàn)有的數(shù)據(jù)管理基礎設施盡可能無縫地整合時才有意義。最終目標應該是轉(zhuǎn)型為現(xiàn)代數(shù)據(jù)架構（見圖3和文章鏈接）。

大數(shù)據(jù)供應商發(fā)展狀況

大數(shù)據(jù)供應商正在迅速發(fā)展。參見圖4對一個細分市場的概述，對于大數(shù)據(jù)市場的詳細分析，包括市場規(guī)模（現(xiàn)狀及到2017年的五年預測）和供應商之間的大數(shù)據(jù)收入數(shù)字。

大數(shù)據(jù)：實際使用案例

讓Hadoop和其他大數(shù)據(jù)技術如此引人注目的部分原因是，他們讓企業(yè)找到問題的答案，而在此之前他們甚至不知道問題是什么。這可能會產(chǎn)生引出新產(chǎn)品的想法，或者幫助確定改善運營效率的方法。不過，也有一些已經(jīng)明確的大數(shù)據(jù)用例，無論是互聯(lián)網(wǎng)巨頭如谷歌，F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)。它們包括：

推薦引擎：網(wǎng)絡資源和在線零售商使用Hadoop根據(jù)用戶的個人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務。LinkedIn使用此方法增強其“你可能認識的人”這一功能，而亞馬遜利用該方法為網(wǎng)上消費者推薦相關產(chǎn)品。

情感分析： Hadoop與先進的文本分析工具結(jié)合，分析社會化媒體和社交網(wǎng)絡發(fā)布的非結(jié)構化的文本，包括Tweets和Facebook，以確定用戶對特定公司，品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒，也可以細分到個人用戶的情緒。

風險建模： 財務公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù)，以確定金融資產(chǎn)的風險，模擬市場行為為潛在的“假設”方案做準備，并根據(jù)風險為潛在客戶打分。

欺詐檢測： 金融公司、零售商等使用大數(shù)據(jù)技術將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為。例如，信用卡公司使用大數(shù)據(jù)技術識別可能的被盜卡的交易行為。

營銷活動分析：各行業(yè)的營銷部門長期使用技術手段監(jiān)測和確定營銷活動的有效性。大數(shù)據(jù)讓營銷團隊擁有更大量的越來越精細的數(shù)據(jù)，如點擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù)，以提高分析的準確性。

客戶流失分析： 企業(yè)使用Hadoop和大數(shù)據(jù)技術分析客戶行為數(shù)據(jù)并確定分析模型，該模型指出哪些客戶最有可能流向存在競爭關系的供應商或服務商。企業(yè)就能采取最有效的措施挽留欲流失客戶。

社交圖譜分析： Hadoop和下一代數(shù)據(jù)倉庫相結(jié)合，通過挖掘社交網(wǎng)絡數(shù)據(jù)，可以確定社交網(wǎng)絡中哪些客戶對其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶，不總是那些購買最多產(chǎn)品或花最多錢的，而是那些最能夠影響他人購買行為的客戶。

用戶體驗分析：面向消費者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術將之前單一客戶互動渠道（如呼叫中心，網(wǎng)上聊天，微博等）數(shù)據(jù)整合在一起，，以獲得對客戶體驗的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響，從而優(yōu)化整個客戶生命周期的用戶體驗。

網(wǎng)絡監(jiān)控：Hadoop 和其他大數(shù)據(jù)技術被用來獲取，分析和顯示來自服務器，存儲設備和其他IT硬件的數(shù)據(jù)，使管理員能夠監(jiān)視網(wǎng)絡活動，診斷瓶頸等問題。這種類型的分析，也可應用到交通網(wǎng)絡，以提高燃料效率，當然也可以應用到其他網(wǎng)絡。

研究與發(fā)展：有些企業(yè)（如制藥商）使用Hadoop技術進行大量文本及歷史數(shù)據(jù)的研究，以協(xié)助新產(chǎn)品的開發(fā)。

當然，上述這些都只是大數(shù)據(jù)用例的舉例。事實上，在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。

大數(shù)據(jù)技能差距

企業(yè)運用大數(shù)據(jù)的最大障礙是缺乏相關的技能，如Hadoop管理技能、大數(shù)據(jù)分析技能或數(shù)據(jù)科學。為了讓大數(shù)據(jù)真正被大量采用，并且實現(xiàn)其全部潛力，縮小技能上的差距就至關重要了。這需要從兩條戰(zhàn)線進行攻擊：

首先，這意味著開源社區(qū)和商業(yè)大數(shù)據(jù)廠商必須開發(fā)易于使用的大數(shù)據(jù)管理和分析工具和技術，為傳統(tǒng)的IT和商業(yè)智能專業(yè)人士降低進入的門檻。這些工具和技術，必須從底層數(shù)據(jù)處理框架抽象掉盡可能多的復雜性?？梢酝ㄟ^圖形用戶界面，類似于向?qū)У陌惭b功能和日常任務自動化的組合方式實現(xiàn)。

其次，社會必須開發(fā)更多的教育資源，培養(yǎng)現(xiàn)有的IT和商業(yè)智能專業(yè)人士以及高中生和大學生成為我們未來所需要的大數(shù)據(jù)從業(yè)者。

據(jù)麥肯錫公司研究，到2018年僅美國就有可能面臨14萬?19萬具備專業(yè)分析技能的人才，以及懂得使用大數(shù)據(jù)分析做出有效決策的150萬經(jīng)理和分析師的短缺。造成短缺的部分原因是數(shù)據(jù)科學本身的規(guī)律導致的，因為數(shù)據(jù)科學要求各種綜合技能。

具體來說，數(shù)據(jù)科學家必須具備的技術技能側(cè)重于統(tǒng)計、計算機科學和數(shù)學。但他們還必須具有商業(yè)頭腦，即了解現(xiàn)有業(yè)務，并且能找到大數(shù)據(jù)可以業(yè)務提供最大價值的方向?；蛟S同樣重要的是，數(shù)據(jù)科學家必須具備專業(yè)的溝通技巧，以及通過大數(shù)據(jù)的可視化，向業(yè)務同事講故事的能力。

正如本報告中提到的，一些大數(shù)據(jù)廠商開始提供大數(shù)據(jù)培訓課程。IT從業(yè)者具有極好的機會，利用這些培訓和教育活動的優(yōu)勢磨練自己的數(shù)據(jù)分析技能，并可以在企業(yè)內(nèi)部確定新的職業(yè)道路。同樣，在南加州大學、北卡羅來納州立大學、紐約大學和其他地方，幾門關于大數(shù)據(jù)和高級分析技術的大學級別的課程也應運而生。但大數(shù)據(jù)的發(fā)展和普及還是需要更多的課程。

只有通過兩條戰(zhàn)線-更好的工具和技術，更好的教育和培訓-才能克服大數(shù)據(jù)技術差距。

大數(shù)據(jù)：企業(yè)和供應商的后續(xù)動作

對企業(yè)和為他們服務的供應商雙方而言，大數(shù)據(jù)都具有很大的潛力，但首先必須先采取行動。Wikibon的建議如下。

行動項目：各個行業(yè)的企業(yè)應評估現(xiàn)有和潛在的大數(shù)據(jù)用例，參與大數(shù)據(jù)社區(qū)了解最新的技術發(fā)展。與大數(shù)據(jù)社區(qū)里志趣相投的企業(yè)和供應商一起識別大數(shù)據(jù)能夠提供商業(yè)價值的領域。接下來，考慮企業(yè)內(nèi)部的大數(shù)據(jù)技術水平，確定是否開始大數(shù)據(jù)方法，如Hadoop的試驗。如果是這樣，與IT部門和業(yè)務部門一起制定計劃，將大數(shù)據(jù)工具、技術和方法整合到企業(yè)現(xiàn)有的IT基礎架構。

最重要的是，首先要在所有工作人員中培養(yǎng)數(shù)據(jù)驅(qū)動的文化，鼓勵數(shù)據(jù)實驗。當這個基礎已經(jīng)奠定，開始使用大數(shù)據(jù)的技術和方法提供最大的業(yè)務價值，并不斷地重新評估新成熟的大數(shù)據(jù)方法。

近期精彩活動（直接點擊查看）：

福利 · 閱讀 | 免費申請讀大數(shù)據(jù)新書第12期

END