小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

大數(shù)據(jù)治理系列,第一部分: 大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略

 shawnsun007 2016-04-17

大數(shù)據(jù)治理專題詳細(xì)闡述了什么是大數(shù)據(jù)治理、為何要做大數(shù)據(jù)治理,并結(jié)合實(shí)際業(yè)務(wù)問題介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型的實(shí)施步驟,以及 IBM 相關(guān)的大數(shù)據(jù)治理的產(chǎn)品介紹。

大數(shù)據(jù)治理概述

(狹義)大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)處理或分析的信息,這些信息將用來幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個(gè)類型:Web 和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。

  • Web 和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購(gòu)物網(wǎng)站中的數(shù)據(jù)和內(nèi)容。
  • M2M 數(shù)據(jù):也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù),比如 RFID 數(shù)據(jù)、GPS 數(shù)據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。
  • 海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如電信行業(yè)的 CDR、3G 上網(wǎng)記錄等,金融行業(yè)的網(wǎng)上交易記錄、core banking 記錄、理財(cái)記錄等,保險(xiǎn)行業(yè)的各種理賠等。
  • 生物計(jì)量學(xué)數(shù)據(jù):是指和人體識(shí)別相關(guān)的生物識(shí)別信息,如指紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。
  • 人工生成的數(shù)據(jù):比如各種調(diào)查問卷、電子郵件、紙質(zhì)文件、掃描件、錄音和電子病歷等。

在各行各業(yè)中,隨處可見因數(shù)量、速度、種類和準(zhǔn)確性結(jié)合帶來的大數(shù)據(jù)問題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢和分析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求非常高,需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、MPP 數(shù)據(jù)庫(kù)、Hadoop 平臺(tái)、各種 NoSQL 數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)我們稱之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)車的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問題時(shí)及時(shí)告警。再比如在電信行業(yè),基于用戶通信行為的精準(zhǔn)營(yíng)銷、位置營(yíng)銷等,都會(huì)實(shí)時(shí)的采集用戶數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷活動(dòng)。

大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和幫助。相信隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在 IBM 數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,整個(gè)參考模型分為必選步驟和可選步驟兩部分。

回頁(yè)首

大數(shù)據(jù)治理統(tǒng)一流程參考模型

如圖 1 所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量值。在 11 個(gè)必要步驟的基礎(chǔ)上,企業(yè)可以在 7 個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。

圖 1. 大數(shù)據(jù)治理統(tǒng)一流程參考模型
圖 1. 大數(shù)據(jù)治理統(tǒng)一流程參考模型

回頁(yè)首

第一步:明確元數(shù)據(jù)管理策略

在最開始的時(shí)候,元數(shù)據(jù)(Meta Data)是指描述數(shù)據(jù)的數(shù)據(jù),通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展,比如 UML 模型、數(shù)據(jù)交易規(guī)則、用 Java,.NET,C++等編寫的 APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)則、術(shù)語(yǔ)和定義等 [1]。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類型的描述,如對(duì)位置、名字、用戶點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法則和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等,主要使用者是業(yè)務(wù)用戶。技術(shù)元數(shù)據(jù)主要用來定義信息供應(yīng)鏈(Information Supply Chain,ISC)各類組成部分元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴性等,以及存儲(chǔ)過程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息,比如其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。

從整個(gè)企業(yè)層面來說,各種工具軟件和應(yīng)用程序越來越復(fù)雜,相互依存度逐年增加,相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和上下文的需求越來越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過程中,元數(shù)據(jù)管理也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來看,整個(gè)企業(yè)的元數(shù)據(jù)越來越多,光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬的表,同時(shí)還有更多的模型等著上線,同時(shí)隨著大數(shù)據(jù)時(shí)代的來臨,企業(yè)需要處理的數(shù)據(jù)類型越來越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。

為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略,而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的,無論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需要定義元數(shù)據(jù)管理策略。

元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略等,依據(jù)企業(yè)自身當(dāng)前以及未來的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)目標(biāo)成熟度的路線圖,完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的安全策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類,制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策,確保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨國(guó)數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件中語(yǔ)義上保持一致,也就是語(yǔ)義等效(semantic equivalence)。語(yǔ)義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語(yǔ)義等效(平均)越強(qiáng)則整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共享和重用。

本體(人工智能和計(jì)算機(jī)科學(xué))

本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲學(xué)中“形而上學(xué)”分支。本體有時(shí)也被翻譯成本體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于上世紀(jì) 70 年代中期,隨著人工智能的發(fā)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵,于是開始將新的本體創(chuàng)建為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類型的自動(dòng)化推理。之后到了上世紀(jì) 80 年代,人工智能領(lǐng)域開始使用本體表示模型化時(shí)間的一種理論以及知識(shí)系統(tǒng)的一種組件,認(rèn)為本體(人工智能)是一種應(yīng)用哲學(xué)。

最早的本體(人工智能和計(jì)算機(jī)科學(xué))定義是 Neches 等人在 1991 給出的:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和關(guān)系以及定義詞匯外延的規(guī)則”。而第一次被業(yè)界廣泛接受的本體定義出自 Tom Gruber,其在 1993 年提出:“本體是概念化的顯式的表示(規(guī)格說明)”。Borst 在 1997 年對(duì) Tom Gruber 的本體定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:“本體是共享的、概念化的一個(gè)形式的規(guī)范說明”。在前人的基礎(chǔ)上,Studer 在 1998 年進(jìn)一步擴(kuò)展了本體的定義,這也是今天被廣泛接受的一個(gè)定義:“本體是共享概念模型的明確形式化規(guī)范說明”。本體提供一個(gè)共享詞匯表,可以用來對(duì)一個(gè)領(lǐng)域建模,具體包括那些存在的對(duì)象或概念的類型、以及他們的屬性和關(guān)系 [2]。一個(gè)簡(jiǎn)單的本體示例發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖 2 所示:

圖 2. 簡(jiǎn)單本體(發(fā)票)示例
圖 2. 簡(jiǎn)單本體(發(fā)票)示例

隨著時(shí)間的推移和技術(shù)的發(fā)展,本體從最開始的人工智能領(lǐng)域逐漸擴(kuò)展到圖書館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來越多的學(xué)科。與哲學(xué)本體論類似,本體(人工智能和計(jì)算機(jī)科學(xué))依賴某種類別體系來表達(dá)實(shí)體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用,通過減少特定領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持語(yǔ)義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。

根據(jù)研究層次可以將本體的種類劃分為“頂級(jí)本體”(top-level ontology)、應(yīng)用本體(application ontology)、領(lǐng)域本體(domain ontology)和任務(wù)本體(task ontology),各個(gè)種類之間的層次關(guān)系如圖 3 所示。

圖 3. 本體層次關(guān)系
圖 3. 本體層次關(guān)系
  • 頂級(jí)本體,也被稱為上層本體(upper ontolog)或基礎(chǔ)本體(foundation ontology),是指獨(dú)立于具體的問題或領(lǐng)域,在所有領(lǐng)域都適用的共同對(duì)象或概念所構(gòu)成的模型,主要用來描述高級(jí)別且通用的概念以及概念之間的關(guān)系。
  • 領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模,顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)域知識(shí)的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域的術(shù)語(yǔ)的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適用。在同一領(lǐng)域內(nèi),由于文化背景、語(yǔ)言差異、受教育程度或意識(shí)形態(tài)的差異,也可能會(huì)出現(xiàn)不同的本體。很多時(shí)候,隨著依賴領(lǐng)域本體系統(tǒng)的擴(kuò)展,需要將不同的領(lǐng)域本體合并為更通用的規(guī)范說明,對(duì)并非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)非常具有挑戰(zhàn)的任務(wù),很多時(shí)候需要靠手工來完成,相反,對(duì)那些基于同一頂級(jí)本體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。
  • 任務(wù)本體是針對(duì)任務(wù)元素及其之間關(guān)系的規(guī)范說明或詳細(xì)說明,用來解釋任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)通用術(shù)語(yǔ)的集合用來描述關(guān)于任務(wù)的定義和概念等。
  • 應(yīng)用本體: 描述依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系,是用于特定應(yīng)用或用途的本體,其范疇可以通過可測(cè)試的用例來指定。

從詳細(xì)程度上來分,本體又可以分為參考本體(reference ontologies)和共享本體(share ontologies),參考本體的詳細(xì)程度高,而共享本體的詳細(xì)程度低。

本體(哲學(xué))

哲學(xué)中的本體(ontology)也被稱為存在論,源自哲學(xué)中“形而上學(xué)”分支,主要探討存在的本質(zhì),也就是存在的存在。英文 ontology 實(shí)際上就是來源于希臘文“ον”(存在)和“λ?γο?”(學(xué)科)的組合。本體是由早期希臘哲學(xué)在公元前 6 世紀(jì)到公元前 4 世紀(jì)提出的“始基”延伸出來的。始基(Principle,又稱本原)最早由泰勒斯(米利都學(xué)派)最早提出來,認(rèn)為萬物由水而生,其學(xué)生阿那克西曼德認(rèn)為萬物由一種簡(jiǎn)單的原質(zhì)組成,該原質(zhì)不是水 [3]。而畢達(dá)哥拉斯(學(xué)派)認(rèn)為“萬物都是數(shù)”,數(shù)不僅被看作萬物的本原,而且被看作萬物的原型、世界的本體。后來巴門尼德(愛利亞學(xué)派)提出了“存在”的概念,認(rèn)為存在才是唯一真正存在的真理,其創(chuàng)造了一種形而上學(xué)論證方式,之后的哲學(xué)一直到近時(shí)期為止,都從巴門尼德處接受了其“實(shí)體的不可毀滅性”。蘇格拉底繼承了巴門尼德的存在概念,主張“真正的善”并完善了巴門尼德弟子芝諾的辯證法,其學(xué)生柏拉圖提出了“理念論”,認(rèn)為只要若干個(gè)個(gè)體擁有一個(gè)共同的名字,它們就有一個(gè)共同的理念或形式。亞里士多德(柏拉圖學(xué)生)總結(jié)了先哲們的思想,完成了《形而上學(xué)》,并將本體總結(jié)為:對(duì)世界上客觀存在事物的系統(tǒng)的描述,即存在論,也就是最形而上學(xué)的知識(shí)。形而上學(xué)不是指孤立、靜止之類的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問。

回頁(yè)首

第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)

在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM(Common Warehouse MetaModel,公共倉(cāng)庫(kù)元模型)模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。

針對(duì)信息供應(yīng)鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成,最開始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過一個(gè)獨(dú)立的元數(shù)據(jù)橋(metadata bridge)進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)據(jù)映射 [4]。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過程中,也暴露了很多問題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大,對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶來說都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無法在構(gòu)建其他元數(shù)據(jù)橋時(shí)進(jìn)行重用,因此開發(fā)和維護(hù)費(fèi)用大幅度增加,用戶投資回報(bào)率(ROI)不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖 4 所示,信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。

圖 4. 點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)
圖 4. 點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)

通過使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)(central metadata repository)取代各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層(也是一種橋),可以有效降低總成本,減少建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。信息供應(yīng)鏈各組件可以從存儲(chǔ)庫(kù)訪問元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-and-spoke meta data architecture),具體如圖 5 所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自身的元模型、接口和交付服務(wù)建立的,所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與 ISC 各組件的互相訪問。

圖 5. 中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)
圖 5. 中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)

采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法(比如使用 CWM)可以有效降低元數(shù)據(jù)集成的成本和復(fù)雜度,無論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過使用基于模型的方法可以不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每個(gè)產(chǎn)品只需要提供一個(gè)適配器(adapter)即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖 6 所示,基于 CWM 模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)產(chǎn)品之間通過適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。

圖 6. 基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)
圖 6. 基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 7 所示,在基于模型驅(qū)動(dòng)(比如 CWM)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)中,中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域(domain)用到的該元模型的各個(gè)實(shí)例(模型)、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型(公共元模型和自身元模型)的適配器層,當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。

圖 7. 基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)
圖 7. 基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 8 所示,這種體系架構(gòu)是基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接起來,也被稱為分布式(Distributed)或聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫(kù)之間通過元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口,也可以使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。

圖 8. 分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)
圖 8. 分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 9 所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模型的公共部分(橫跨整個(gè)企業(yè)),葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶可以主要訪問其感興趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù),也可以訪問其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體系結(jié)構(gòu)被稱為層次或星型拓?fù)浣Y(jié)構(gòu)。

圖 9. 層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)
圖 9. 層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)

回頁(yè)首

結(jié)束語(yǔ)

本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講述了元數(shù)據(jù)的基本概念以及本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種示例,分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM 發(fā)展史、OMG 的模型驅(qū)動(dòng)體系結(jié)構(gòu)(Model Driven Architecture,MDA)。

回頁(yè)首

參考文獻(xiàn)

  1. David Frankel Consulting,”Using Model Driven Architecture? to Manage Metadata”,P3;
  2. Fredrik Arvidsson and Annika Flycht-Eriksson,2008,Ontologies I,”An ontology provide a shared vocabulary,which can be used to model a domain,thatis,the type of objects and/or concepts thatexist,and their properties and relations”;
  3. 更多內(nèi)容請(qǐng)參考: [專著] /(英)伯特蘭. 羅素/著 孫紹武/主編 <<西方哲學(xué)史 >>;
  4. John Poole,Dan Chang,Douglas Tolbert and David Mellor,2002,Common Warehouse Metamodel,p18-32,p180-202;
  5. 本系列文章參考了 Sunil Soares 編寫的《The IBM Data Governance Unified Process》和《Bigdata Governance》書中內(nèi)容。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多