小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

干貨:大數(shù)據(jù)分析平臺架構(gòu)(Big Data Analytics Platform)

 haosunzhe 2015-04-02
請選中您要保存的內(nèi)容,粘貼到此文本框


一、數(shù)據(jù)分析平臺層次解析


大數(shù)據(jù)分析處理架構(gòu)圖


數(shù)據(jù)源: 除該種方法之外,還可以分為離線數(shù)據(jù)、近似實時數(shù)據(jù)和實時數(shù)據(jù)。按照圖中的分類其實就是說明了數(shù)據(jù)存儲的結(jié)構(gòu),而特別要說的是流數(shù)據(jù),它的核心就是數(shù)據(jù)的連續(xù)性和快速分析性;


計算層: 內(nèi)存計算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有內(nèi)存將要處理的數(shù)據(jù)加載其中,省掉很多I/O開銷和硬盤拖累,從而加快計算。而Impala思想來源于Google Dremel,充分利用分布式的集群和高效存儲方式來加快大數(shù)據(jù)集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的文件系統(tǒng)當(dāng)然是HDFS獨大,也就是Hadoop的底層存儲,現(xiàn)在大數(shù)據(jù)的技術(shù)除了微軟系的意外,基本都是HDFS作為底層的存儲技術(shù)。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本?;谥系膽?yīng)用有Hive,Pig Latin,這兩個是利用了SQL的思想來查詢Hadoop上的數(shù)據(jù)。


關(guān)鍵: 利用大數(shù)據(jù)做決策支持。R可以幫你在大數(shù)據(jù)上做統(tǒng)計分析,利用R語言和框架可以實現(xiàn)很專業(yè)的統(tǒng)計分析功能,并且能利用圖形的方式展現(xiàn);而Mahout就是一個集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實現(xiàn)的經(jīng)典算法,拿這個作為數(shù)據(jù)分析的核心算法集來參考還是很好的。


如此一個決策支持系統(tǒng)要怎么展現(xiàn)呢?其實這個和數(shù)據(jù)挖掘過程中的展現(xiàn)一樣,無非就是通過表格和圖標(biāo)圖形來進(jìn)行展示,其實一份分類詳細(xì)、顏色艷麗、數(shù)據(jù)權(quán)威的數(shù)據(jù)圖標(biāo)報告就是呈現(xiàn)給客戶的最好方式!至于用什么工具來實現(xiàn),有兩個是最好的數(shù)據(jù)展現(xiàn)工具,Tableau和Pentaho,利用他們最為數(shù)據(jù)展現(xiàn)層絕對是最好的選擇。


二、規(guī)劃的數(shù)據(jù)平臺產(chǎn)品AE(Accelerate Engine)


支持下一代企業(yè)計算關(guān)鍵技術(shù)的大數(shù)據(jù)處理平臺:包括計算引擎、開發(fā)工具、管理工具及數(shù)據(jù)服務(wù)。計算引擎是AE的核心部分,提供支持從多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行實時數(shù)據(jù)集成、提供分布式環(huán)境下的消息總線、通過Service Gateway能夠與第三方系統(tǒng)進(jìn)行服務(wù)整合訪問;設(shè)計了一個分布式計算框架,可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并提供內(nèi)存計算、規(guī)劃計算、數(shù)據(jù)挖掘、流計算等各種企業(yè)計算服務(wù)。Data Studio包括了數(shù)據(jù)建模、開發(fā)、測試等集成開發(fā)環(huán)境。管理工具包括了實施、客戶化及系統(tǒng)管理類工具。AE平臺還可以通過UAP開發(fā)者社區(qū)提供豐富的數(shù)據(jù)服務(wù)。


AE架構(gòu)圖


新規(guī)劃將BAP平臺拆分為兩部分,底層技術(shù)平臺發(fā)展內(nèi)存計算和數(shù)據(jù)處理,上層BI展現(xiàn)端重點發(fā)展儀表盤、web和移動設(shè)備展現(xiàn)。

兩大產(chǎn)品通過數(shù)據(jù)處理接口和嵌入式應(yīng)用服務(wù)于業(yè)務(wù)系統(tǒng)。


生態(tài)系統(tǒng)圖


大數(shù)據(jù)處理平臺擔(dān)負(fù)著為BI系統(tǒng)提供語義層/OLAP引擎等底層技術(shù)支撐、BI及ERP系統(tǒng)的性能提升、以及數(shù)據(jù)挖掘、非結(jié)構(gòu)化數(shù)據(jù)處理等系列數(shù)據(jù)整合與處理的解決方案。


具體模塊包括:


語義層:為統(tǒng)一的查詢建模平臺和數(shù)據(jù)訪問接口。除提供標(biāo)準(zhǔn)的查詢建模能力外,還有語義驅(qū)動、語義規(guī)則、語義函數(shù)、描述器等等擴展方式,滿足不同層面的擴展要求。


OLAP引擎:OLAP引擎提供全面的多維建模與分析能力。多維模型包括維度、層次、級別、屬性、指標(biāo)、計算成員等;同時預(yù)置系列分析函數(shù),包括同比/環(huán)比/期比/基比等時間序列分析、占比/排名/方差等統(tǒng)計分析、指數(shù)回歸和線性回歸分析等;提供標(biāo)準(zhǔn)的MDX解析與執(zhí)行,與數(shù)據(jù)倉庫等模塊結(jié)合,提供針對海量數(shù)據(jù)的實時分析和處理能力。


數(shù)據(jù)集成:能夠勝任在大數(shù)據(jù)量、高并發(fā)、多維分析等環(huán)境背景下的實時分析。通過實時數(shù)據(jù)集成(RDI)提供的數(shù)據(jù)實時復(fù)制與DW的列式存儲引擎,解決了以往在傳統(tǒng)架構(gòu)模式下,普通行式存儲引擎無法實現(xiàn)的業(yè)務(wù)場景。


數(shù)據(jù)挖掘:支持運行于分布式文件系統(tǒng)和分布式計算平臺之上的分布式數(shù)據(jù)挖掘算法,具體包括:邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實現(xiàn);K均值、譜聚類算法及其分布式實現(xiàn);潛在狄利克雷分配語義挖掘算法及其分布式實現(xiàn);頻繁模式挖掘分析算法及其分布式實現(xiàn);協(xié)同過濾、概率矩陣分解推薦算法及其分布式實現(xiàn);提供分布式挖掘算法的統(tǒng)一操作原語和執(zhí)行引擎。


數(shù)據(jù)倉庫:數(shù)據(jù)倉庫提供針對海量數(shù)據(jù)進(jìn)行高效的查詢和分析。包括同時支持關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、以及分布式文件系統(tǒng)進(jìn)行數(shù)據(jù)存儲和加載的多存儲引擎,基于MapReduce框架針對海量數(shù)據(jù)的高性能查詢和分析,以及MapReduce 框架本身具有的高擴展性和容錯性。


非結(jié)構(gòu)化數(shù)據(jù)管理:非結(jié)構(gòu)化數(shù)據(jù)不包含內(nèi)嵌的語義結(jié)構(gòu)描述信息,而信息系統(tǒng)需要結(jié)合其“內(nèi)容”而不僅僅是數(shù)據(jù)本身進(jìn)行查詢、檢索、分析與挖掘,因此非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)需要實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)提取,提取的非結(jié)構(gòu)化數(shù)據(jù)是進(jìn)行后續(xù)處理的基礎(chǔ),具體包括結(jié)構(gòu)化信息和底層/高層特征的提取兩個。非結(jié)構(gòu)化數(shù)據(jù)提取組件依賴于分布式文件系統(tǒng)和非結(jié)構(gòu)化數(shù)據(jù)存儲提供的原始數(shù)據(jù)作為數(shù)據(jù)源數(shù)據(jù),依賴于非結(jié)構(gòu)化數(shù)據(jù)存儲來存儲提取的元數(shù)據(jù)或者特征數(shù)據(jù),依賴于并行計算框架來分布化執(zhí)行過程,加快執(zhí)行速度。


消息總線:包括主數(shù)據(jù)管理、集中身份管理、應(yīng)用集成開發(fā)環(huán)境、集成監(jiān)控管理等。滿足集成平臺的應(yīng)用需求,支持界面集成、信息集成、服務(wù)集成、流程集成等集成方式。


分布式計算系統(tǒng):包括分布式文件系統(tǒng)和分布式計算框架。分布式文件系統(tǒng)以高可靠的容錯機制為核心,系統(tǒng)架構(gòu)包括多元數(shù)據(jù)服務(wù)器、多數(shù)據(jù)存儲服務(wù)器、多監(jiān)管者、多客戶端,支持大文件和大數(shù)據(jù)塊的分布式存儲與管理;分布式計算框架基于MapReduce與MPI計算模型,提供了一套并行計算框架;并利用物理機以及虛擬機的監(jiān)控信息,實現(xiàn)對計算資源的合理分配,支持對大量工作任務(wù)的靈活切分和分布式調(diào)度。


流計算引擎:流計算引擎是為解決系統(tǒng)的實時性和一致性的高要求的實時數(shù)據(jù)處理框架,具備高可拓展性,能處理高頻數(shù)據(jù)和大規(guī)模數(shù)據(jù),實時流計算解決方案被應(yīng)用于實時搜索、高頻交易的大數(shù)據(jù)系統(tǒng)上。


參考文獻(xiàn)


  1. 知乎: 如何利用大數(shù)據(jù)進(jìn)行輔助決策?


  2. 規(guī)劃的數(shù)據(jù)平臺產(chǎn)品AE(Accelerate Engine)


作者:Joe Jiang

點擊下方“閱讀原文”查看更多內(nèi)容
↓↓↓

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多