文 | 樂天 編輯 | 萱草 劉能 本文約 2779 字,預計閱讀時間 10 分鐘 這篇文章主要從數(shù)據(jù)治理的基礎和核心之一:元數(shù)據(jù)入手,從以下幾個角度展開具體講解:
1.元數(shù)據(jù)到底是個啥?如果我說:元數(shù)據(jù)(Meta Data),就是描述數(shù)據(jù)的數(shù)據(jù)。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現(xiàn)這樣的想法: 簡單點,其實元數(shù)據(jù)相當于數(shù)據(jù)的戶口本。 戶口本是什么?它除了包含個人姓名、年齡、性別、身份證號碼等各種基本描述信息外,還有這個人和家人的血緣關系,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述,也可以稱之為這個人的元數(shù)據(jù)。 同樣的,如果我們要描述清楚一個實際的數(shù)據(jù),以某張表為例,我們需要知道表名、表別名、表的所有者、數(shù)據(jù)存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關系等等。所有的這些信息加起來,就是這張表的元數(shù)據(jù)。這么一類比,我們對元數(shù)據(jù)的概念可能就清楚很多了:元數(shù)據(jù)是數(shù)據(jù)的戶口本。 2.元數(shù)據(jù)管理,是數(shù)據(jù)治理的核心和基礎如果讓你帶兵打仗,現(xiàn)在你必須要掌握的信息是什么?沒錯,一張戰(zhàn)場的地圖必不可少!而元數(shù)據(jù)在數(shù)據(jù)治理當中,就相當于所有數(shù)據(jù)的地圖。 在這張關于數(shù)據(jù)的地圖中,我們可以知道:
所以,如果我們做數(shù)據(jù)治理,卻沒有掌握這張地圖,就猶如瞎子摸象。后續(xù)的文章中我們要講到的數(shù)據(jù)資產管理,知識圖譜,其實大部分也是建立在元數(shù)據(jù)之上的。所以我們說:元數(shù)據(jù)是一個組織內的數(shù)據(jù)地圖,它是數(shù)據(jù)治理的核心和基礎。 3.元模型又是誰?元模型(Meta Model),是描述元數(shù)據(jù)的數(shù)據(jù)。它與元數(shù)據(jù)、數(shù)據(jù)之間的關系,可以用下面這張圖來描述。 對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些:元數(shù)據(jù)本身的數(shù)據(jù)結構也是需要被定義和規(guī)范的,定義和規(guī)范元數(shù)據(jù)的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數(shù)據(jù)管理工具,需要支持 CWM 標準。 ↓以下內容理解難度升級,請各位技術小白謹慎閱讀 4.元數(shù)據(jù)從哪來?在大數(shù)據(jù)平臺中,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺數(shù)據(jù)流動的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務層元數(shù)據(jù)、應用層元數(shù)據(jù)等。下圖以一個數(shù)據(jù)中心為例,展示了元數(shù)據(jù)的分布范圍: 業(yè)內通常把元數(shù)據(jù)分為以下類型:
元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對元數(shù)據(jù)進行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。使用包括數(shù)據(jù)庫直連、接口、日志文件等技術手段,對結構化數(shù)據(jù)的數(shù)據(jù)字典、非結構化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務指標、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進行自動化和手動采集。元數(shù)據(jù)采集完成后,被組織成符合 CWM 模型的結構,存儲在關系型數(shù)據(jù)庫中。 5.有了元數(shù)據(jù),我們能做些什么?先看一張元數(shù)據(jù)管理的整體功能架構圖,有了元數(shù)據(jù),我們能做些什么,從這張圖里一目了然: (如果你沒看懂,請來評論區(qū)告訴我) ① 元數(shù)據(jù)查看 一般是以樹形結構組織元數(shù)據(jù),按不同類型對元數(shù)據(jù)進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數(shù)據(jù)模型、指標信息等。通過合理的權限分配,元數(shù)據(jù)查看可以大大提升信息在組織內的共享。 ② 數(shù)據(jù)血緣和影響性分析 數(shù)據(jù)血緣和影響性分析主要解決「數(shù)據(jù)之間有什么關系」的問題。因其重要價值,有的廠商會從元數(shù)據(jù)管理中單獨提取出來,作為一個獨立的重要功能。但是考慮到數(shù)據(jù)血緣和影響性分析其實是來自于元數(shù)據(jù)信息,所以還是放在元數(shù)據(jù)管理中來描述。 血緣分析指的是獲取到數(shù)據(jù)的血緣關系,以歷史事實的方式記錄數(shù)據(jù)的來源,處理過程等。以某張表的血緣關系為例,血緣分析展示如下信息: 數(shù)據(jù)血緣分析對于用戶具有重要的價值,如:當在數(shù)據(jù)分析中發(fā)現(xiàn)問題數(shù)據(jù)的時候,可以依賴血緣關系,追根溯源,快速地定位到問題數(shù)據(jù)的來源和加工流程,減少分析的時間和難度。 數(shù)據(jù)血緣分析的典型應用場景:某業(yè)務人員發(fā)現(xiàn)「月度營銷分析」報表數(shù)據(jù)存在質量問題,于是向 IT 部門提出異議,技術人員通過元數(shù)據(jù)血緣分析發(fā)現(xiàn)「月度營銷分析」報表受到上游 FDM 層四張不同的數(shù)據(jù)表的影響,從而快速定位問題的源頭,低成本地解決問題。 除了血緣分析之外,還有一種影響性分析,它能分析出數(shù)據(jù)的下游流向。當系統(tǒng)進行升級改造的時候,如果修改了數(shù)據(jù)結構、ETL 程序等元數(shù)據(jù)信息,依賴數(shù)據(jù)的影響性分析,可以快速定位出元數(shù)據(jù)修改會影響到哪些下游系統(tǒng),從而減少系統(tǒng)升級改造帶來的風險。從上面的描述可以知道:數(shù)據(jù)影響性分析和血緣分析正好相反,血緣分析指向數(shù)據(jù)的上游來源,影響性分析指向數(shù)據(jù)的下游。 影響性分析的典型應用場景:某機構因業(yè)務系統(tǒng)升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD 長度由 8 修改為 64,需要分析本次升級對后續(xù)相關系統(tǒng)的影響。對元數(shù)據(jù)“FINAL_ZENT”進行影響性分析,發(fā)現(xiàn)對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響之后,及時修改下游的相應程序和表結構,避免了問題的發(fā)生。由此可見,數(shù)據(jù)的影響性分析有利于快速鎖定元數(shù)據(jù)變更帶來的影響,將可能發(fā)生的問題提前消滅在萌芽之中。 ③ 數(shù)據(jù)冷熱度分析 冷熱度分析主要是對數(shù)據(jù)表的被使用情況進行統(tǒng)計,如:表與ETL 程序、表與分析應用、表與其他表的關系情況等,從訪問頻次和業(yè)務需求角度出發(fā),進行數(shù)據(jù)冷熱度分析,用圖表的方式,展現(xiàn)表的重要性指數(shù)。 數(shù)據(jù)的冷熱度分析對于用戶有巨大的價值,典型應用場景:我們觀察到某些數(shù)據(jù)資源處于長期閑置,沒有被任何應用調用,也沒有別的程序去使用的狀態(tài),這時候,用戶就可以參考數(shù)據(jù)的冷熱度報告,結合人工分析,對冷熱度不同的數(shù)據(jù)做分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數(shù)據(jù)做下線處理,以節(jié)省數(shù)據(jù)存儲空間。 ④ 數(shù)據(jù)資產地圖 通過對元數(shù)據(jù)的加工,可以形成數(shù)據(jù)資產地圖等應用。數(shù)據(jù)資產地圖一般用于在宏觀層面組織信息,以全局視角對信息進行歸并、整理,展現(xiàn)數(shù)據(jù)量、數(shù)據(jù)變化情況、數(shù)據(jù)存儲情況、整體數(shù)據(jù)質量等信息,為數(shù)據(jù)管理部門和決策者提供參考。 ⑤ 元數(shù)據(jù)管理的其他應用 元數(shù)據(jù)管理中還有其他一些重要功能,如:元數(shù)據(jù)變更管理,對元數(shù)據(jù)的變更歷史進行查詢,對變更前后的版本進行比對等等;元數(shù)據(jù)對比分析,對相似的元數(shù)據(jù)進行比對;元數(shù)據(jù)統(tǒng)計分析,用于統(tǒng)計各類元數(shù)據(jù)的數(shù)量,如各類數(shù)據(jù)的種類,數(shù)量等,方便用戶掌握元數(shù)據(jù)的匯總信息。諸如此類的應用,不一一列舉。 6.做個總結關于數(shù)瀾 數(shù)瀾科技成立于 2016 年 6 月,致力于成為客戶信賴的數(shù)據(jù)應用基礎設施供應商,目前已獲得云鋒基金、IDG 資本、洪泰基金等知名投資機構三輪共計 2 億元投資。 自成立之日起,數(shù)瀾團隊即堅持以“數(shù)據(jù)中臺”作為核心戰(zhàn)略構建和培養(yǎng)團隊,目前已有成員 200+, 并建成以數(shù)據(jù)科學家、算法專家、數(shù)據(jù)產品專家、業(yè)務架構專家及數(shù)據(jù)處理專家為核心的平臺技術團隊,核心團隊成員均來自阿里、華為、金蝶及運營商等大型 B 端企業(yè),擁有大數(shù)據(jù)業(yè)務和技術多年實戰(zhàn)經驗,是國內最早一批大數(shù)據(jù)服務創(chuàng)新實踐者。 目前,數(shù)瀾已為萬科地產、方太集團、雪松控股、百果園、中信云網、時尚集團、溫州檢察院、一呼百應等超過 1000 家企業(yè)和政府用戶提供大數(shù)據(jù)相關服務,并取得卓越數(shù)據(jù)業(yè)務效果。 |
|
來自: 昵稱16619343 > 《科學技術》