小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

「數(shù)據(jù)治理那點事」2:手握數(shù)據(jù)「戶口本」,數(shù)據(jù)治理肯定穩(wěn)!

 昵稱16619343 2019-05-16

文 | 樂天

編輯 | 萱草 劉能

本文約 2779 字,預計閱讀時間 10 分鐘

這篇文章主要從數(shù)據(jù)治理的基礎和核心之一:元數(shù)據(jù)入手,從以下幾個角度展開具體講解:

  • 元數(shù)據(jù)概念
  • 元數(shù)據(jù)的分布和采集
  • 元數(shù)據(jù)的一些實際應用場景

1.元數(shù)據(jù)到底是個啥?

如果我說:元數(shù)據(jù)(Meta Data),就是描述數(shù)據(jù)的數(shù)據(jù)。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現(xiàn)這樣的想法:

簡單點,其實元數(shù)據(jù)相當于數(shù)據(jù)的戶口本。

戶口本是什么?它除了包含個人姓名、年齡、性別、身份證號碼等各種基本描述信息外,還有這個人和家人的血緣關系,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述,也可以稱之為這個人的元數(shù)據(jù)。

同樣的,如果我們要描述清楚一個實際的數(shù)據(jù),以某張表為例,我們需要知道表名、表別名、表的所有者、數(shù)據(jù)存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關系等等。所有的這些信息加起來,就是這張表的元數(shù)據(jù)。這么一類比,我們對元數(shù)據(jù)的概念可能就清楚很多了:元數(shù)據(jù)是數(shù)據(jù)的戶口本。

2.元數(shù)據(jù)管理,是數(shù)據(jù)治理的核心和基礎

如果讓你帶兵打仗,現(xiàn)在你必須要掌握的信息是什么?沒錯,一張戰(zhàn)場的地圖必不可少!而元數(shù)據(jù)在數(shù)據(jù)治理當中,就相當于所有數(shù)據(jù)的地圖。

在這張關于數(shù)據(jù)的地圖中,我們可以知道:

  • 我們有哪些數(shù)據(jù)?數(shù)據(jù)分布在哪里?這些數(shù)據(jù)分別是什么類型?數(shù)據(jù)之間有什么關系?哪些數(shù)據(jù)經常被引用?哪些數(shù)據(jù)無人光顧?
  • ……

所以,如果我們做數(shù)據(jù)治理,卻沒有掌握這張地圖,就猶如瞎子摸象。后續(xù)的文章中我們要講到的數(shù)據(jù)資產管理,知識圖譜,其實大部分也是建立在元數(shù)據(jù)之上的。所以我們說:元數(shù)據(jù)是一個組織內的數(shù)據(jù)地圖,它是數(shù)據(jù)治理的核心和基礎。

3.元模型又是誰?

元模型(Meta Model),是描述元數(shù)據(jù)的數(shù)據(jù)。它與元數(shù)據(jù)、數(shù)據(jù)之間的關系,可以用下面這張圖來描述。

對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些:元數(shù)據(jù)本身的數(shù)據(jù)結構也是需要被定義和規(guī)范的,定義和規(guī)范元數(shù)據(jù)的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數(shù)據(jù)管理工具,需要支持 CWM 標準。

↓以下內容理解難度升級,請各位技術小白謹慎閱讀

4.元數(shù)據(jù)從哪來?

在大數(shù)據(jù)平臺中,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺數(shù)據(jù)流動的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務層元數(shù)據(jù)、應用層元數(shù)據(jù)等。下圖以一個數(shù)據(jù)中心為例,展示了元數(shù)據(jù)的分布范圍:

業(yè)內通常把元數(shù)據(jù)分為以下類型:

  • 技術元數(shù)據(jù):庫表結構、字段約束、數(shù)據(jù)模型、ETL 程序、SQL 程序等。
  • 業(yè)務元數(shù)據(jù):業(yè)務指標、業(yè)務代碼、業(yè)務術語等。
  • 管理元數(shù)據(jù):數(shù)據(jù)所有者、數(shù)據(jù)質量定責、數(shù)據(jù)安全等級等。

元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對元數(shù)據(jù)進行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。使用包括數(shù)據(jù)庫直連、接口、日志文件等技術手段,對結構化數(shù)據(jù)的數(shù)據(jù)字典、非結構化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務指標、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進行自動化和手動采集。元數(shù)據(jù)采集完成后,被組織成符合 CWM 模型的結構,存儲在關系型數(shù)據(jù)庫中。

5.有了元數(shù)據(jù),我們能做些什么?

先看一張元數(shù)據(jù)管理的整體功能架構圖,有了元數(shù)據(jù),我們能做些什么,從這張圖里一目了然:

(如果你沒看懂,請來評論區(qū)告訴我)

① 元數(shù)據(jù)查看

一般是以樹形結構組織元數(shù)據(jù),按不同類型對元數(shù)據(jù)進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數(shù)據(jù)模型、指標信息等。通過合理的權限分配,元數(shù)據(jù)查看可以大大提升信息在組織內的共享。

② 數(shù)據(jù)血緣和影響性分析

數(shù)據(jù)血緣和影響性分析主要解決「數(shù)據(jù)之間有什么關系」的問題。因其重要價值,有的廠商會從元數(shù)據(jù)管理中單獨提取出來,作為一個獨立的重要功能。但是考慮到數(shù)據(jù)血緣和影響性分析其實是來自于元數(shù)據(jù)信息,所以還是放在元數(shù)據(jù)管理中來描述。

血緣分析指的是獲取到數(shù)據(jù)的血緣關系,以歷史事實的方式記錄數(shù)據(jù)的來源,處理過程等。以某張表的血緣關系為例,血緣分析展示如下信息:

數(shù)據(jù)血緣分析對于用戶具有重要的價值,如:當在數(shù)據(jù)分析中發(fā)現(xiàn)問題數(shù)據(jù)的時候,可以依賴血緣關系,追根溯源,快速地定位到問題數(shù)據(jù)的來源和加工流程,減少分析的時間和難度。

數(shù)據(jù)血緣分析的典型應用場景:某業(yè)務人員發(fā)現(xiàn)「月度營銷分析」報表數(shù)據(jù)存在質量問題,于是向 IT 部門提出異議,技術人員通過元數(shù)據(jù)血緣分析發(fā)現(xiàn)「月度營銷分析」報表受到上游 FDM 層四張不同的數(shù)據(jù)表的影響,從而快速定位問題的源頭,低成本地解決問題。

除了血緣分析之外,還有一種影響性分析,它能分析出數(shù)據(jù)的下游流向。當系統(tǒng)進行升級改造的時候,如果修改了數(shù)據(jù)結構、ETL 程序等元數(shù)據(jù)信息,依賴數(shù)據(jù)的影響性分析,可以快速定位出元數(shù)據(jù)修改會影響到哪些下游系統(tǒng),從而減少系統(tǒng)升級改造帶來的風險。從上面的描述可以知道:數(shù)據(jù)影響性分析和血緣分析正好相反,血緣分析指向數(shù)據(jù)的上游來源,影響性分析指向數(shù)據(jù)的下游。

影響性分析的典型應用場景:某機構因業(yè)務系統(tǒng)升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD 長度由 8 修改為 64,需要分析本次升級對后續(xù)相關系統(tǒng)的影響。對元數(shù)據(jù)“FINAL_ZENT”進行影響性分析,發(fā)現(xiàn)對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響之后,及時修改下游的相應程序和表結構,避免了問題的發(fā)生。由此可見,數(shù)據(jù)的影響性分析有利于快速鎖定元數(shù)據(jù)變更帶來的影響,將可能發(fā)生的問題提前消滅在萌芽之中。

③ 數(shù)據(jù)冷熱度分析

冷熱度分析主要是對數(shù)據(jù)表的被使用情況進行統(tǒng)計,如:表與ETL 程序、表與分析應用、表與其他表的關系情況等,從訪問頻次和業(yè)務需求角度出發(fā),進行數(shù)據(jù)冷熱度分析,用圖表的方式,展現(xiàn)表的重要性指數(shù)。

數(shù)據(jù)的冷熱度分析對于用戶有巨大的價值,典型應用場景:我們觀察到某些數(shù)據(jù)資源處于長期閑置,沒有被任何應用調用,也沒有別的程序去使用的狀態(tài),這時候,用戶就可以參考數(shù)據(jù)的冷熱度報告,結合人工分析,對冷熱度不同的數(shù)據(jù)做分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數(shù)據(jù)做下線處理,以節(jié)省數(shù)據(jù)存儲空間。

④ 數(shù)據(jù)資產地圖

通過對元數(shù)據(jù)的加工,可以形成數(shù)據(jù)資產地圖等應用。數(shù)據(jù)資產地圖一般用于在宏觀層面組織信息,以全局視角對信息進行歸并、整理,展現(xiàn)數(shù)據(jù)量、數(shù)據(jù)變化情況、數(shù)據(jù)存儲情況、整體數(shù)據(jù)質量等信息,為數(shù)據(jù)管理部門和決策者提供參考

⑤ 元數(shù)據(jù)管理的其他應用

元數(shù)據(jù)管理中還有其他一些重要功能,如:元數(shù)據(jù)變更管理,對元數(shù)據(jù)的變更歷史進行查詢,對變更前后的版本進行比對等等;元數(shù)據(jù)對比分析,對相似的元數(shù)據(jù)進行比對;元數(shù)據(jù)統(tǒng)計分析,用于統(tǒng)計各類元數(shù)據(jù)的數(shù)量,如各類數(shù)據(jù)的種類,數(shù)量等,方便用戶掌握元數(shù)據(jù)的匯總信息。諸如此類的應用,不一一列舉。

6.做個總結

關于數(shù)瀾

數(shù)瀾科技成立于 2016 年 6 月,致力于成為客戶信賴的數(shù)據(jù)應用基礎設施供應商,目前已獲得云鋒基金、IDG 資本、洪泰基金等知名投資機構三輪共計 2 億元投資。

自成立之日起,數(shù)瀾團隊即堅持以“數(shù)據(jù)中臺”作為核心戰(zhàn)略構建和培養(yǎng)團隊,目前已有成員 200+, 并建成以數(shù)據(jù)科學家、算法專家、數(shù)據(jù)產品專家、業(yè)務架構專家及數(shù)據(jù)處理專家為核心的平臺技術團隊,核心團隊成員均來自阿里、華為、金蝶及運營商等大型 B 端企業(yè),擁有大數(shù)據(jù)業(yè)務和技術多年實戰(zhàn)經驗,是國內最早一批大數(shù)據(jù)服務創(chuàng)新實踐者。

目前,數(shù)瀾已為萬科地產、方太集團、雪松控股、百果園、中信云網、時尚集團、溫州檢察院、一呼百應等超過 1000 家企業(yè)和政府用戶提供大數(shù)據(jù)相關服務,并取得卓越數(shù)據(jù)業(yè)務效果。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多