大數(shù)據(jù)治理系列，第一部分: 大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略

shawnsun007 2016-04-17

展開全文

大數(shù)據(jù)治理專題詳細(xì)闡述了什么是大數(shù)據(jù)治理、為何要做大數(shù)據(jù)治理，并結(jié)合實(shí)際業(yè)務(wù)問題介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型的實(shí)施步驟，以及 IBM 相關(guān)的大數(shù)據(jù)治理的產(chǎn)品介紹。

大數(shù)據(jù)治理概述

（狹義）大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)處理或分析的信息，這些信息將用來幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù)，包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。（廣義）大數(shù)據(jù)可以分為五個(gè)類型：Web 和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器（M2M）數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。

Web 和社交媒體數(shù)據(jù)：比如各種微博、博客、社交網(wǎng)站、購(gòu)物網(wǎng)站中的數(shù)據(jù)和內(nèi)容。
M2M 數(shù)據(jù)：也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù)，比如 RFID 數(shù)據(jù)、GPS 數(shù)據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。
海量交易數(shù)據(jù)：是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，比如電信行業(yè)的 CDR、3G 上網(wǎng)記錄等，金融行業(yè)的網(wǎng)上交易記錄、core banking 記錄、理財(cái)記錄等，保險(xiǎn)行業(yè)的各種理賠等。
生物計(jì)量學(xué)數(shù)據(jù)：是指和人體識(shí)別相關(guān)的生物識(shí)別信息，如指紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。
人工生成的數(shù)據(jù)：比如各種調(diào)查問卷、電子郵件、紙質(zhì)文件、掃描件、錄音和電子病歷等。

在各行各業(yè)中，隨處可見因數(shù)量、速度、種類和準(zhǔn)確性結(jié)合帶來的大數(shù)據(jù)問題，為了更好地利用大數(shù)據(jù)，大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中，數(shù)據(jù)需要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢和分析，這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代，除了靜態(tài)數(shù)據(jù)以外，還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求非常高，需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理，處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、MPP 數(shù)據(jù)庫(kù)、Hadoop 平臺(tái)、各種 NoSQL 數(shù)據(jù)庫(kù)等，這些數(shù)據(jù)我們稱之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)車的關(guān)鍵零部件上裝有成百上千的傳感器，每時(shí)每刻都在生成設(shè)備狀態(tài)信息，企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析，當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問題時(shí)及時(shí)告警。再比如在電信行業(yè)，基于用戶通信行為的精準(zhǔn)營(yíng)銷、位置營(yíng)銷等，都會(huì)實(shí)時(shí)的采集用戶數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷活動(dòng)。

大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與企業(yè)高層管理人員進(jìn)行溝通，保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和幫助。相信隨著時(shí)間的推移，大數(shù)據(jù)將成為主流，企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價(jià)值，而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理，筆者在 IBM 數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn)，整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型，整個(gè)參考模型分為必選步驟和可選步驟兩部分。

回頁(yè)首

大數(shù)據(jù)治理統(tǒng)一流程參考模型

如圖 1 所示，大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向：一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的元數(shù)據(jù)管理，另一條子線是在定義業(yè)務(wù)問題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量值。在 11 個(gè)必要步驟的基礎(chǔ)上，企業(yè)可以在 7 個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理，可選步驟為：主數(shù)據(jù)監(jiān)管、（狹義）大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。

圖 1. 大數(shù)據(jù)治理統(tǒng)一流程參考模型

回頁(yè)首

第一步：明確元數(shù)據(jù)管理策略

在最開始的時(shí)候，元數(shù)據(jù)（Meta Data）是指描述數(shù)據(jù)的數(shù)據(jù)，通常由信息結(jié)構(gòu)的描述組成，隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展，比如 UML 模型、數(shù)據(jù)交易規(guī)則、用 Java，.NET，C++等編寫的 APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)則、術(shù)語(yǔ)和定義等 [1]。在大數(shù)據(jù)時(shí)代，元數(shù)據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類型的描述，如對(duì)位置、名字、用戶點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法則和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等，主要使用者是業(yè)務(wù)用戶。技術(shù)元數(shù)據(jù)主要用來定義信息供應(yīng)鏈（Information Supply Chain，ISC）各類組成部分元數(shù)據(jù)結(jié)構(gòu)，具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴性等，以及存儲(chǔ)過程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息，比如其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。

從整個(gè)企業(yè)層面來說，各種工具軟件和應(yīng)用程序越來越復(fù)雜，相互依存度逐年增加，相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和上下文的需求越來越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過程中，元數(shù)據(jù)管理也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來看，整個(gè)企業(yè)的元數(shù)據(jù)越來越多，光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬的表，同時(shí)還有更多的模型等著上線，同時(shí)隨著大數(shù)據(jù)時(shí)代的來臨，企業(yè)需要處理的數(shù)據(jù)類型越來越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn)，企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)，依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)管理，并有步驟的提升其元數(shù)據(jù)管理成熟度。

為了實(shí)現(xiàn)大數(shù)據(jù)治理，構(gòu)建智慧的分析洞察，企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的元數(shù)據(jù)集成，建立完整且一致的元數(shù)據(jù)管理策略，該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略，而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的，無論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元數(shù)據(jù)管理策略，反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需要定義元數(shù)據(jù)管理策略。

元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略等，依據(jù)企業(yè)自身當(dāng)前以及未來的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)目標(biāo)成熟度的路線圖，完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建，確定元數(shù)據(jù)管理的安全策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類，制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策，確保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī)，如果企業(yè)有跨國(guó)數(shù)據(jù)交換、元數(shù)據(jù)交換的需求，也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件中語(yǔ)義上保持一致，也就是語(yǔ)義等效（semantic equivalence）。語(yǔ)義等效可以強(qiáng)也可以弱，在一個(gè)元數(shù)據(jù)集成方案中，語(yǔ)義等效（平均）越強(qiáng)則整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共享和重用。

本體（人工智能和計(jì)算機(jī)科學(xué)）

本體（Ontology）源自哲學(xué)本體論，而哲學(xué)本體論則是源自哲學(xué)中“形而上學(xué)”分支。本體有時(shí)也被翻譯成本體論，在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于上世紀(jì) 70 年代中期，隨著人工智能的發(fā)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵，于是開始將新的本體創(chuàng)建為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類型的自動(dòng)化推理。之后到了上世紀(jì) 80 年代，人工智能領(lǐng)域開始使用本體表示模型化時(shí)間的一種理論以及知識(shí)系統(tǒng)的一種組件，認(rèn)為本體（人工智能）是一種應(yīng)用哲學(xué)。

最早的本體（人工智能和計(jì)算機(jī)科學(xué)）定義是 Neches 等人在 1991 給出的：“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語(yǔ)和關(guān)系，以及用于組合術(shù)語(yǔ)和關(guān)系以及定義詞匯外延的規(guī)則”。而第一次被業(yè)界廣泛接受的本體定義出自 Tom Gruber，其在 1993 年提出：“本體是概念化的顯式的表示（規(guī)格說明）”。Borst 在 1997 年對(duì) Tom Gruber 的本體定義做了進(jìn)一步的擴(kuò)展，認(rèn)為：“本體是共享的、概念化的一個(gè)形式的規(guī)范說明”。在前人的基礎(chǔ)上，Studer 在 1998 年進(jìn)一步擴(kuò)展了本體的定義，這也是今天被廣泛接受的一個(gè)定義：“本體是共享概念模型的明確形式化規(guī)范說明”。本體提供一個(gè)共享詞匯表，可以用來對(duì)一個(gè)領(lǐng)域建模，具體包括那些存在的對(duì)象或概念的類型、以及他們的屬性和關(guān)系 [2]。一個(gè)簡(jiǎn)單的本體示例發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖 2 所示：

圖 2. 簡(jiǎn)單本體（發(fā)票）示例

隨著時(shí)間的推移和技術(shù)的發(fā)展，本體從最開始的人工智能領(lǐng)域逐漸擴(kuò)展到圖書館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來越多的學(xué)科。與哲學(xué)本體論類似，本體（人工智能和計(jì)算機(jī)科學(xué)）依賴某種類別體系來表達(dá)實(shí)體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用，通過減少特定領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧，使不同的用戶之間可以順暢的溝通和交流并保持語(yǔ)義等效性，同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。

根據(jù)研究層次可以將本體的種類劃分為“頂級(jí)本體”（top-level ontology）、應(yīng)用本體（application ontology）、領(lǐng)域本體（domain ontology）和任務(wù)本體（task ontology），各個(gè)種類之間的層次關(guān)系如圖 3 所示。

圖 3. 本體層次關(guān)系

頂級(jí)本體，也被稱為上層本體（upper ontolog）或基礎(chǔ)本體（foundation ontology），是指獨(dú)立于具體的問題或領(lǐng)域，在所有領(lǐng)域都適用的共同對(duì)象或概念所構(gòu)成的模型，主要用來描述高級(jí)別且通用的概念以及概念之間的關(guān)系。
領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模，顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義，確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等，提供對(duì)該領(lǐng)域知識(shí)的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域的術(shù)語(yǔ)的特定含義，缺乏兼容性，因而在其他領(lǐng)域往往不適用。在同一領(lǐng)域內(nèi)，由于文化背景、語(yǔ)言差異、受教育程度或意識(shí)形態(tài)的差異，也可能會(huì)出現(xiàn)不同的本體。很多時(shí)候，隨著依賴領(lǐng)域本體系統(tǒng)的擴(kuò)展，需要將不同的領(lǐng)域本體合并為更通用的規(guī)范說明，對(duì)并非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)非常具有挑戰(zhàn)的任務(wù)，很多時(shí)候需要靠手工來完成，相反，對(duì)那些基于同一頂級(jí)本體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。
任務(wù)本體是針對(duì)任務(wù)元素及其之間關(guān)系的規(guī)范說明或詳細(xì)說明，用來解釋任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)通用術(shù)語(yǔ)的集合用來描述關(guān)于任務(wù)的定義和概念等。
應(yīng)用本體：描述依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系，是用于特定應(yīng)用或用途的本體，其范疇可以通過可測(cè)試的用例來指定。

從詳細(xì)程度上來分，本體又可以分為參考本體（reference ontologies）和共享本體（share ontologies），參考本體的詳細(xì)程度高，而共享本體的詳細(xì)程度低。

本體（哲學(xué)）

哲學(xué)中的本體（ontology）也被稱為存在論，源自哲學(xué)中“形而上學(xué)”分支，主要探討存在的本質(zhì)，也就是存在的存在。英文 ontology 實(shí)際上就是來源于希臘文“ον”（存在）和“λ?γο?”（學(xué)科）的組合。本體是由早期希臘哲學(xué)在公元前 6 世紀(jì)到公元前 4 世紀(jì)提出的“始基”延伸出來的。始基（Principle，又稱本原）最早由泰勒斯（米利都學(xué)派）最早提出來，認(rèn)為萬物由水而生，其學(xué)生阿那克西曼德認(rèn)為萬物由一種簡(jiǎn)單的原質(zhì)組成，該原質(zhì)不是水 [3]。而畢達(dá)哥拉斯（學(xué)派）認(rèn)為“萬物都是數(shù)”，數(shù)不僅被看作萬物的本原，而且被看作萬物的原型、世界的本體。后來巴門尼德（愛利亞學(xué)派）提出了“存在”的概念，認(rèn)為存在才是唯一真正存在的真理，其創(chuàng)造了一種形而上學(xué)論證方式，之后的哲學(xué)一直到近時(shí)期為止，都從巴門尼德處接受了其“實(shí)體的不可毀滅性”。蘇格拉底繼承了巴門尼德的存在概念，主張“真正的善”并完善了巴門尼德弟子芝諾的辯證法，其學(xué)生柏拉圖提出了“理念論”，認(rèn)為只要若干個(gè)個(gè)體擁有一個(gè)共同的名字，它們就有一個(gè)共同的理念或形式。亞里士多德（柏拉圖學(xué)生）總結(jié)了先哲們的思想，完成了《形而上學(xué)》，并將本體總結(jié)為：對(duì)世界上客觀存在事物的系統(tǒng)的描述，即存在論，也就是最形而上學(xué)的知識(shí)。形而上學(xué)不是指孤立、靜止之類的意思，而是指超越具體形態(tài)的抽象意思，是關(guān)于物質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問。

回頁(yè)首

第二步：元數(shù)據(jù)集成體系結(jié)構(gòu)

在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu)，即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較大，因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM（Common Warehouse MetaModel，公共倉(cāng)庫(kù)元模型）模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式（聯(lián)邦式）元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。

針對(duì)信息供應(yīng)鏈中不同的組件，為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成，最開始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行，也就是每一對(duì)組件之間通過一個(gè)獨(dú)立的元數(shù)據(jù)橋（metadata bridge）進(jìn)行元數(shù)據(jù)交換，橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)據(jù)映射 [4]。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換，對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過程中，也暴露了很多問題，比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大，對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶來說都是一個(gè)巨大的挑戰(zhàn)，而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無法在構(gòu)建其他元數(shù)據(jù)橋時(shí)進(jìn)行重用，因此開發(fā)和維護(hù)費(fèi)用大幅度增加，用戶投資回報(bào)率（ROI）不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例，其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖 4 所示，信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流，實(shí)心箭頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。

圖 4. 點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)

通過使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)（central metadata repository）取代各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式，改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層（也是一種橋），可以有效降低總成本，減少建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作，提高投資回報(bào)率。信息供應(yīng)鏈各組件可以從存儲(chǔ)庫(kù)訪問元數(shù)據(jù)，不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)（hub-and-spoke meta data architecture），具體如圖 5 所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自身的元模型、接口和交付服務(wù)建立的，所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與 ISC 各組件的互相訪問。

圖 5. 中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)

采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法（比如使用 CWM）可以有效降低元數(shù)據(jù)集成的成本和復(fù)雜度，無論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中，通過使用基于模型的方法可以不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋，每個(gè)產(chǎn)品只需要提供一個(gè)適配器（adapter）即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換，適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖 6 所示，基于 CWM 模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型，不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋，在各個(gè)產(chǎn)品之間通過適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。

圖 6. 基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 7 所示，在基于模型驅(qū)動(dòng)（比如 CWM）的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)中，中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域（domain）用到的該元模型的各個(gè)實(shí)例（模型）、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型（公共元模型和自身元模型）的適配器層，當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。

圖 7. 基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 8 所示，這種體系架構(gòu)是基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)的一個(gè)變種，兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接起來，也被稱為分布式（Distributed）或聯(lián)邦（Federated）體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫(kù)之間通過元數(shù)據(jù)橋連接，兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口，也可以使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種，比如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用，每個(gè)區(qū)域有自己的數(shù)據(jù)中心。

圖 8. 分布式（聯(lián)邦式）元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖 9 所示，這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體，根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模型的公共部分（橫跨整個(gè)企業(yè)），葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模型子集，并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶可以主要訪問其感興趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù)，也可以訪問其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體系結(jié)構(gòu)被稱為層次或星型拓?fù)浣Y(jié)構(gòu)。

圖 9. 層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)

回頁(yè)首

結(jié)束語(yǔ)

本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型，并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講述了元數(shù)據(jù)的基本概念以及本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種示例，分別為：點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式（聯(lián)邦式）元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”，具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型（CWM）、CWM 發(fā)展史、OMG 的模型驅(qū)動(dòng)體系結(jié)構(gòu)（Model Driven Architecture，MDA）。

回頁(yè)首

參考文獻(xiàn)

David Frankel Consulting，”Using Model Driven Architecture? to Manage Metadata”，P3；
Fredrik Arvidsson and Annika Flycht-Eriksson，2008，Ontologies I，”An ontology provide a shared vocabulary，which can be used to model a domain，thatis，the type of objects and/or concepts thatexist，and their properties and relations”；
更多內(nèi)容請(qǐng)參考： [專著] /（英）伯特蘭. 羅素/著孫紹武/主編 <<西方哲學(xué)史 >>；
John Poole，Dan Chang，Douglas Tolbert and David Mellor，2002，Common Warehouse Metamodel，p18-32，p180-202；
本系列文章參考了 Sunil Soares 編寫的《The IBM Data Governance Unified Process》和《Bigdata Governance》書中內(nèi)容。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

大數(shù)據(jù)治理系列，第一部分: 大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略

大數(shù)據(jù)治理概述

大數(shù)據(jù)治理統(tǒng)一流程參考模型

圖 1. 大數(shù)據(jù)治理統(tǒng)一流程參考模型

第一步：明確元數(shù)據(jù)管理策略

圖 2. 簡(jiǎn)單本體（發(fā)票）示例

圖 3. 本體層次關(guān)系

第二步：元數(shù)據(jù)集成體系結(jié)構(gòu)

圖 4. 點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)

圖 5. 中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)

圖 6. 基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)

圖 7. 基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)

圖 8. 分布式（聯(lián)邦式）元數(shù)據(jù)集成體系結(jié)構(gòu)

圖 9. 層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)

結(jié)束語(yǔ)

參考文獻(xiàn)

大數(shù)據(jù)治理系列，第一部分: 大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略