亞馬遜的云BI服務QuickSight,旨在讓他們的企業(yè)用戶更加便捷、快速低成本的分析數(shù)據(jù)。在這款直接面向企業(yè)商業(yè)決策人員的工具發(fā)布之前,AWS上已經擁有了一整套大數(shù)據(jù)的解決方案——開發(fā)了數(shù)據(jù)從采集、存儲到分析的全部工具,不僅有離線計算方案,也有流數(shù)據(jù)處理方案。 其大數(shù)據(jù)服務的整體架構如下: 數(shù)據(jù)采集(Collect)方面:AWS Direct Connect / AWS Import/Export / Amzon Kinesis 數(shù)據(jù)存儲(Store)方面:Amazon S3 / Amazon RDS/Aurora / Amazon Glacier / Amazon DynamoDB / Amazon CloudSearch / Amazon Elasticsearch 數(shù)據(jù)分析(Analyze)方面:Amazon EMR / Amazon EC2 / Amazon Redshift / Amazon Machine / Amazon kinesis Analytics 這些服務能夠解決企業(yè)大數(shù)據(jù)分析中的大部分問題: Amazon RDS 解決管理數(shù)據(jù)庫的困難與苦楚; Amazon DynamoDB 解決SQL類數(shù)據(jù)庫在大數(shù)據(jù)量下性能的問題; Amazon EMR 解決Hadoop集群部署和管理的難題; Amazon Redshif 大幅降低了數(shù)據(jù)倉庫部署和使用的復雜度、減少了花費而且提升了效率; Amazon Aurora 讓用戶可以低成本的享受擁有商用數(shù)據(jù)速度和可用性的數(shù)據(jù)庫產品; Amazon Kinesis 讓實時數(shù)據(jù)的捕捉與分析變得不再困難。 應該說,亞馬遜的AWS的大數(shù)據(jù)服務已經是非常的齊全,生態(tài)也很完善。那么這個時候推出Amazon QuickSight,是出于什么樣的目的呢? 數(shù)據(jù)的采集和生產最終是為了決策 提到數(shù)據(jù)分析和可視化的BI工具,很多朋友可能會想到對用戶非常友好的Tableau和QlikView。這兩款產品直接面向決策段用戶,讓不懂底層數(shù)據(jù)邏輯,沒有任何代碼基礎的用戶,可以高效的用大數(shù)據(jù)分析業(yè)務,做出商業(yè)決策。它們解決了大數(shù)據(jù)的“最后一公里”問題——結果數(shù)據(jù)的整理、可視化和Insight共享。 大家可以再回頭去看看剛才我列舉的AWS的大數(shù)據(jù)服務,就會發(fā)現(xiàn),現(xiàn)有的所有服務全部在數(shù)據(jù)采集、存儲和計算端——均為工程師們處理海量數(shù)據(jù)提供服務的。然而這些都讓數(shù)據(jù)變成成本,我的數(shù)據(jù)越多,我需要花費的錢越多。那么如何讓數(shù)據(jù)產生價值呢?數(shù)據(jù)產生自業(yè)務,自然也得回歸業(yè)務、驅動業(yè)務創(chuàng)造價值,從成本轉變?yōu)樯a資料,這才是產生數(shù)據(jù)、挖掘數(shù)據(jù)的唯一目標。 之前很多企業(yè)內部數(shù)據(jù)的使用方式一般有這幾種: 1.產品/運營/市場將需求提給數(shù)據(jù)分析師/數(shù)據(jù)分析工程師/數(shù)據(jù)挖掘工程師/ETL工程師——統(tǒng)稱人肉SQL手,由這些熟練操作數(shù)據(jù)庫的人員完成數(shù)據(jù)的提取工作,之后結果數(shù)據(jù)反饋回業(yè)務方,業(yè)務方再對數(shù)據(jù)進行整理、制表、繪圖并分析產生Bussiness Insight。 2.產品/運營/市場將需求提給公司的數(shù)據(jù)平臺/數(shù)據(jù)中心,數(shù)據(jù)平臺/數(shù)據(jù)中心的接口人/數(shù)據(jù)產品經理將需求統(tǒng)一整理和拆分,制作成固定的報表,定期發(fā)送郵件或者展示到前端中,供大家日常查詢和使用。臨時需求?請抽象成報表需求,否則請排期,謝謝合作! 3.產品/運營/市場將需求自己消化,實踐人人都是數(shù)據(jù)分析師的偉大理念。人人都有Hive或者MySQL權限,人人都是SQL小能手,自力更生,豐衣足食。 這些方法,都可以生產數(shù)據(jù)進行決策,但是各有利弊: 第一種方式會產生大量的冗余需求,降低決策效率。實際工作情況中,特別是業(yè)務比較復雜、產品線較多的公司,因為業(yè)務人員對數(shù)據(jù)不清楚,SQL工程師對業(yè)務不了解,雙方的信息差會讓整體的數(shù)據(jù)提取效率變得非常低。在這種情況下,提需求的成本非常低——轉腦袋的速度可比跑SQL的速度要快上許多。結果就是需求冗余,產生Insight的周期通常以天,周甚至月來計算。 第二種方式在產品初期有很好的效果,但是到產品中后期進入精細化運營的時候,效率就會急速下降。后期,大量的報表冗余,無人使用,卻每天消耗服務器資源。在數(shù)據(jù)平臺/數(shù)據(jù)中心的組織架構下,臨時需求的解決流程長、速度慢,導致決策效率低下。業(yè)務方出于無奈,只能通過不斷建報表的方式,滿足自己的臨時需求。 第三種方式非常適合創(chuàng)業(yè)型公司,但是不適合高速成長和大型公司。有產品設計能力同時有商業(yè)Sence,不僅能做日常決策,還能自己從數(shù)據(jù)庫直接提取數(shù)據(jù)來輔助自己做決策——這種人才請聯(lián)系我!這種人很難規(guī)模化的培養(yǎng)和招聘,而且在知識繼承上非常的低效。導致公司在快速成長和精細化運營階段,因為需要做決策的地方過多,而產生大量的精英人力浪費,最終拖累整個公司的決策效率和發(fā)展速度。 于是QuickSight應運而生。 Quicksight是整個AWS生態(tài)中離商業(yè)決策最近的服務,直接解決大數(shù)據(jù)應用的“最后一公里”問題。其在整個生態(tài)中的定位如下: 它不需要用戶有代碼能力,自動識別和整合各種不同的數(shù)據(jù)源,提供實時交互式的數(shù)據(jù)查詢方式,并且自動進行數(shù)據(jù)可視化。最大程度降低了商業(yè)決策端用戶使用大數(shù)據(jù)的成本,也有望解決業(yè)務方和數(shù)據(jù)中心方一直存在矛盾。 作為一項服務,QuickSight并不是傳統(tǒng)的產品形態(tài)。它將數(shù)據(jù)作為一項服務,交付給使用方,使用方可以按需使用。這與提供整個解決方案的整合型產品完全不同,成本低、使用方便,而這也是云服務的特點和優(yōu)勢。 整個QuickSight服務分為QuickSight API和QuickSight UI兩個部分——前者負責數(shù)據(jù)的連接、準備、轉化和計算的工作,后者負責用戶端的數(shù)據(jù)可視化與決策分享。與傳統(tǒng)BI的內部循環(huán)不同,QuickSight的數(shù)據(jù)連接、準備、轉化和計算的服務不僅可以連接AWS體系內的數(shù)據(jù)系統(tǒng),也可以通過JDBC、Oauth等方式連接其他的數(shù)據(jù)源。在數(shù)據(jù)輸出方面,除了QuickSight自帶的UI進行可視化與分析之外,還可以連接Tableau、DOMO、TIBC與QlickView等數(shù)據(jù)分析和可視化產品,非常靈活。 官方給出的整體框架如下: 這些API中,Connectors,Data Prep和SPICE是核心。Connectors能夠自動識別不同數(shù)據(jù)源并進行連接;Data Prep能夠快速的將不同數(shù)據(jù)源的數(shù)據(jù)高效的準備好;SPICE則是一個基于內存的數(shù)據(jù)查詢引擎,提供實時交互式的快速查詢能力。 亞馬遜官方對其的總結和描述如下:QuickSight是一個高效的、易用的、低成本的和基于云的商業(yè)決策服務。它可以讓毫無代碼基礎的用戶方便的進行可視化和高效的Ad-hoc查詢功能進行數(shù)據(jù)分析,從海量數(shù)據(jù)快速獲取商業(yè)決策。QuickSigh完美整合了AWS的數(shù)據(jù)存儲系統(tǒng)、單獨的數(shù)據(jù)文件和第三方數(shù)據(jù)源,同時能夠在海量數(shù)據(jù),高并發(fā)查詢的情況下快速的得出分析結果。 下面我將會對QuickSight API和QuickSight UI的體驗進行詳細解讀。 產品整體分為三個部分: 數(shù)據(jù)源整合工具Connector和Data Prep 基于內存的快速分析引擎SPICE 可視化工具QuickSight UI 數(shù)據(jù)整合方面:Connector和Data Prep Connector毫無懸念的提供了與自己云服務中的數(shù)據(jù)無縫對接的功能。同時提供直接上傳文件以及連接第三方數(shù)據(jù)應用方的數(shù)據(jù),比如Salesforce、Google Analytics等。不過從之前體驗PowerBI的第三方的數(shù)據(jù)連接功能來看,這類工具比較雞肋——一個是連接很容易出錯,其次是第三方應用的數(shù)據(jù)只有部分可以接入,第三數(shù)據(jù)更新也是個大問題。 數(shù)據(jù)分析中難度最大、最耗費資源的地方在于數(shù)據(jù)源的整合、數(shù)據(jù)的清洗與更新以及元數(shù)據(jù)管理,而QuickSIght使用自有體系內的數(shù)據(jù)可控性高,管理成本低,因此,如果沒有使用亞馬遜的服務,它后面提供的那些“炫酷”的能力,也許就只是鏡中水月了。 Data Prep提供數(shù)據(jù)預處理能力: 提供數(shù)據(jù)在內聯(lián)變化(In-line transformation)和類型強制轉換(type coercions)之后的數(shù)據(jù)預覽; 提供對字符串、日期、數(shù)字和運算邏輯的處理能力; 數(shù)據(jù)處理的每一步規(guī)則都可以保存為模版,以便重復操作; 支持Join、Filters、Hierarchies以及Attribute/Measures的操作; 直接對接S3文件。 這里的Data Prep,我理解上類似于一個ETL的過程,不過這個過程被模塊化、可視化,讓我想起了Tableau的數(shù)據(jù)連接過程。 數(shù)據(jù)分析方面:SPICE快速分析引擎 SPICE全稱是Supre-fast, Parallel, In-memmory optimized, Calculation Engine ——超快的、并行的、基于內存優(yōu)化的計算引擎。 2-4倍壓縮列數(shù)據(jù); Compiled queries with machine code generation(不會翻譯。。。); Rich calculations(不會翻譯。。。); 類SQL查詢語法; 查詢速度非常快; 全部自有產權,不需要擔心任何軟件或者硬件的授權問題(只能編輯喝管理,并不開源)。 可視化工具QuickSight UI QuickSight UI提供了一個類Tableau的可視化界面,從Demo中看,對用戶非常友好。為了讓用戶能快速對結果數(shù)據(jù)進行可視化,它提供了一個AutoGraph的自動繪圖功能。 AutoGraph能夠自動識別數(shù)據(jù)類型——這里面Connector和Data Prep的功勞可能更大一些。借助SPICE的快速分析能力,它能快速的根據(jù)推薦的圖表把結果數(shù)據(jù)算完,然后根據(jù)數(shù)據(jù)類型進行展示。用戶還可以根據(jù)計算結果,快速的切換圖表類型——從柱狀圖切到折線圖等。 筆者沒有體驗過QuickSight UI的AutoGraph功能,但是接觸過Tableau和Power BI的Suggestion功能。目前的產品,在簡單的二維數(shù)據(jù)戰(zhàn)線上表現(xiàn)不錯,但是一旦維度變多,推薦出來的圖表還是比較奇怪。如果繪圖速度不是特別的快,還不如自己直接做。 總體來看,AutoGraph是一個把QuickSight的數(shù)據(jù)源處理和分析引擎進行了再包裝的一個可視化產品,我覺得這個產品能夠讓看不見的數(shù)據(jù)處理部分讓用戶可以直觀的感受到,是一個比較不錯的特點。 為了迎合移動辦公的趨勢,QuickSight提供了iOS、Android雙平臺的Native應用。同其他的閹割版移動端不同,亞馬遜宣稱移動端和PC端擁有一樣的體驗(你想知道閹割版的話,可以去試試GA和Tableau的移動端)。 在團隊協(xié)作方面,QuickSight提供了一個可編輯的Dashboard功能,允許用戶直接將分析結果、截圖,甚至是整個分析邏輯分享給同事,讓同事不僅能夠看到靜態(tài)的保鏢,還能看到動態(tài)的數(shù)據(jù)視圖。 End. 作者:劉洋(中國統(tǒng)計網特邀認證作者) 本文為中國統(tǒng)計網原創(chuàng)文章,需要轉載請聯(lián)系中國統(tǒng)計網(小編微信:itongjilove),轉載時請注明作者及出處,并保留本文鏈接。 |
|
來自: 【點石成金】 > 《中國統(tǒng)計網》