大數(shù)據(jù)治理專題詳細(xì)闡述了什么是大數(shù)據(jù)治理、為何要做大數(shù)據(jù)治理,并結(jié)合實(shí)際業(yè)務(wù)問題介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型的實(shí)施步驟,以及 IBM 相關(guān)的大數(shù)據(jù)治理的產(chǎn)品介紹。 大數(shù)據(jù)治理概述(狹義)大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)處理或分析的信息,這些信息將用來幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個(gè)類型:Web 和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。
在各行各業(yè)中,隨處可見因數(shù)量、速度、種類和準(zhǔn)確性結(jié)合帶來的大數(shù)據(jù)問題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢和分析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求非常高,需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、MPP 數(shù)據(jù)庫(kù)、Hadoop 平臺(tái)、各種 NoSQL 數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)我們稱之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)車的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問題時(shí)及時(shí)告警。再比如在電信行業(yè),基于用戶通信行為的精準(zhǔn)營(yíng)銷、位置營(yíng)銷等,都會(huì)實(shí)時(shí)的采集用戶數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷活動(dòng)。 大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和幫助。相信隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在 IBM 數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,整個(gè)參考模型分為必選步驟和可選步驟兩部分。 大數(shù)據(jù)治理統(tǒng)一流程參考模型如圖 1 所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量值。在 11 個(gè)必要步驟的基礎(chǔ)上,企業(yè)可以在 7 個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。 圖 1. 大數(shù)據(jù)治理統(tǒng)一流程參考模型第一步:明確元數(shù)據(jù)管理策略在最開始的時(shí)候,元數(shù)據(jù)(Meta Data)是指描述數(shù)據(jù)的數(shù)據(jù),通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展,比如 UML 模型、數(shù)據(jù)交易規(guī)則、用 Java,.NET,C++等編寫的 APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)則、術(shù)語(yǔ)和定義等 [1]。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類型的描述,如對(duì)位置、名字、用戶點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法則和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等,主要使用者是業(yè)務(wù)用戶。技術(shù)元數(shù)據(jù)主要用來定義信息供應(yīng)鏈(Information Supply Chain,ISC)各類組成部分元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴性等,以及存儲(chǔ)過程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息,比如其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。 從整個(gè)企業(yè)層面來說,各種工具軟件和應(yīng)用程序越來越復(fù)雜,相互依存度逐年增加,相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和上下文的需求越來越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過程中,元數(shù)據(jù)管理也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來看,整個(gè)企業(yè)的元數(shù)據(jù)越來越多,光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬的表,同時(shí)還有更多的模型等著上線,同時(shí)隨著大數(shù)據(jù)時(shí)代的來臨,企業(yè)需要處理的數(shù)據(jù)類型越來越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。 為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略,而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的,無論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需要定義元數(shù)據(jù)管理策略。 元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略等,依據(jù)企業(yè)自身當(dāng)前以及未來的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)目標(biāo)成熟度的路線圖,完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的安全策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類,制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策,確保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨國(guó)數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件中語(yǔ)義上保持一致,也就是語(yǔ)義等效(semantic equivalence)。語(yǔ)義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語(yǔ)義等效(平均)越強(qiáng)則整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共享和重用。 本體(人工智能和計(jì)算機(jī)科學(xué)) 本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲學(xué)中“形而上學(xué)”分支。本體有時(shí)也被翻譯成本體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于上世紀(jì) 70 年代中期,隨著人工智能的發(fā)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵,于是開始將新的本體創(chuàng)建為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類型的自動(dòng)化推理。之后到了上世紀(jì) 80 年代,人工智能領(lǐng)域開始使用本體表示模型化時(shí)間的一種理論以及知識(shí)系統(tǒng)的一種組件,認(rèn)為本體(人工智能)是一種應(yīng)用哲學(xué)。 最早的本體(人工智能和計(jì)算機(jī)科學(xué))定義是 Neches 等人在 1991 給出的:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和關(guān)系以及定義詞匯外延的規(guī)則”。而第一次被業(yè)界廣泛接受的本體定義出自 Tom Gruber,其在 1993 年提出:“本體是概念化的顯式的表示(規(guī)格說明)”。Borst 在 1997 年對(duì) Tom Gruber 的本體定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:“本體是共享的、概念化的一個(gè)形式的規(guī)范說明”。在前人的基礎(chǔ)上,Studer 在 1998 年進(jìn)一步擴(kuò)展了本體的定義,這也是今天被廣泛接受的一個(gè)定義:“本體是共享概念模型的明確形式化規(guī)范說明”。本體提供一個(gè)共享詞匯表,可以用來對(duì)一個(gè)領(lǐng)域建模,具體包括那些存在的對(duì)象或概念的類型、以及他們的屬性和關(guān)系 [2]。一個(gè)簡(jiǎn)單的本體示例發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖 2 所示: 圖 2. 簡(jiǎn)單本體(發(fā)票)示例隨著時(shí)間的推移和技術(shù)的發(fā)展,本體從最開始的人工智能領(lǐng)域逐漸擴(kuò)展到圖書館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來越多的學(xué)科。與哲學(xué)本體論類似,本體(人工智能和計(jì)算機(jī)科學(xué))依賴某種類別體系來表達(dá)實(shí)體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用,通過減少特定領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持語(yǔ)義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。 根據(jù)研究層次可以將本體的種類劃分為“頂級(jí)本體”(top-level ontology)、應(yīng)用本體(application ontology)、領(lǐng)域本體(domain ontology)和任務(wù)本體(task ontology),各個(gè)種類之間的層次關(guān)系如圖 3 所示。 圖 3. 本體層次關(guān)系
從詳細(xì)程度上來分,本體又可以分為參考本體(reference ontologies)和共享本體(share ontologies),參考本體的詳細(xì)程度高,而共享本體的詳細(xì)程度低。 本體(哲學(xué)) 哲學(xué)中的本體(ontology)也被稱為存在論,源自哲學(xué)中“形而上學(xué)”分支,主要探討存在的本質(zhì),也就是存在的存在。英文 ontology
實(shí)際上就是來源于希臘文“ον”(存在)和“λ 第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM(Common Warehouse MetaModel,公共倉(cāng)庫(kù)元模型)模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。 針對(duì)信息供應(yīng)鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成,最開始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過一個(gè)獨(dú)立的元數(shù)據(jù)橋(metadata bridge)進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)據(jù)映射 [4]。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過程中,也暴露了很多問題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大,對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶來說都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無法在構(gòu)建其他元數(shù)據(jù)橋時(shí)進(jìn)行重用,因此開發(fā)和維護(hù)費(fèi)用大幅度增加,用戶投資回報(bào)率(ROI)不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖 4 所示,信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。 圖 4. 點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)通過使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)(central metadata repository)取代各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層(也是一種橋),可以有效降低總成本,減少建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。信息供應(yīng)鏈各組件可以從存儲(chǔ)庫(kù)訪問元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-and-spoke meta data architecture),具體如圖 5 所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自身的元模型、接口和交付服務(wù)建立的,所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與 ISC 各組件的互相訪問。 圖 5. 中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法(比如使用 CWM)可以有效降低元數(shù)據(jù)集成的成本和復(fù)雜度,無論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過使用基于模型的方法可以不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每個(gè)產(chǎn)品只需要提供一個(gè)適配器(adapter)即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖 6 所示,基于 CWM 模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)產(chǎn)品之間通過適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。 圖 6. 基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖 7 所示,在基于模型驅(qū)動(dòng)(比如 CWM)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)中,中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域(domain)用到的該元模型的各個(gè)實(shí)例(模型)、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型(公共元模型和自身元模型)的適配器層,當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。 圖 7. 基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖 8 所示,這種體系架構(gòu)是基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接起來,也被稱為分布式(Distributed)或聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫(kù)之間通過元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口,也可以使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。 圖 8. 分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖 9 所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模型的公共部分(橫跨整個(gè)企業(yè)),葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶可以主要訪問其感興趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù),也可以訪問其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體系結(jié)構(gòu)被稱為層次或星型拓?fù)浣Y(jié)構(gòu)。 圖 9. 層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講述了元數(shù)據(jù)的基本概念以及本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種示例,分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于 CWM 模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM 發(fā)展史、OMG 的模型驅(qū)動(dòng)體系結(jié)構(gòu)(Model Driven Architecture,MDA)。 參考文獻(xiàn)
|
|