數(shù)據(jù)資產(chǎn)管理--非常重要--了解數(shù)據(jù)資產(chǎn)管理主要能做什么和要做什么
數(shù)據(jù)資產(chǎn)的定義
- 數(shù)據(jù)資產(chǎn)定義:企業(yè)擁有或控制的,能夠?yàn)槠髽I(yè)帶來(lái)未來(lái)經(jīng)濟(jì)利益的、以物理或電子方式記錄的數(shù)據(jù)資源,eg:文件資料、電子數(shù)據(jù);
- 數(shù)據(jù)資產(chǎn)管理定義:規(guī)劃、控制和提供數(shù)據(jù)及信息資產(chǎn)的一組業(yè)務(wù)職能,包括開發(fā)、執(zhí)行和監(jiān)督有關(guān)數(shù)據(jù)的計(jì)劃、政策、方案、項(xiàng)目、流程、方法和程序,從而控制、保護(hù)、交付和條數(shù)據(jù)資產(chǎn)價(jià)值;
- 數(shù)據(jù)資產(chǎn)管理目的:數(shù)據(jù)資產(chǎn)管理是通過(guò)一系列手段、以控制、保護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價(jià)值
數(shù)據(jù)資產(chǎn)管理現(xiàn)狀和挑戰(zhàn)
- ·缺乏統(tǒng)一的數(shù)據(jù)視圖:數(shù)據(jù)資源分布在企業(yè)的多個(gè)業(yè)務(wù)系統(tǒng)中,分布在線上和線下,甚至分布在企業(yè)的外部。由于缺乏統(tǒng)一的數(shù)據(jù)視圖,數(shù)據(jù)的管理人員和使用人員無(wú)法準(zhǔn)確快速地找到自己需要的數(shù)據(jù)。數(shù)據(jù)管理人員也無(wú)法從宏觀層面掌握自己擁有哪些數(shù)據(jù)資產(chǎn),擁有多少數(shù)據(jù)資產(chǎn),這些數(shù)據(jù)資產(chǎn)分布在哪里,以及變化情況怎樣等
- 數(shù)據(jù)基礎(chǔ)薄弱:大部分企業(yè)的數(shù)據(jù)基礎(chǔ)還很薄弱,存在數(shù)據(jù)標(biāo)準(zhǔn)混亂、數(shù)據(jù)質(zhì)量參差不齊、各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)孤島化嚴(yán)重、沒有進(jìn)行數(shù)據(jù)資產(chǎn)的萃取等現(xiàn)象,阻礙了數(shù)據(jù)的有效應(yīng)用
- 數(shù)據(jù)應(yīng)用不足:受限于數(shù)據(jù)基礎(chǔ)薄弱和應(yīng)用能力不足,數(shù)據(jù)應(yīng)用的深度不夠
- 數(shù)據(jù)價(jià)值難估:難以對(duì)數(shù)據(jù)對(duì)業(yè)務(wù)的貢獻(xiàn)進(jìn)行評(píng)估,一是沒有建立合理的數(shù)據(jù)價(jià)值評(píng)估模型,二是數(shù)據(jù)價(jià)值與企業(yè)的商業(yè)模式密不可分,在不同應(yīng)用場(chǎng)景下,同一項(xiàng)數(shù)據(jù)資產(chǎn)的價(jià)值可能截然不同
- 缺乏安全的數(shù)據(jù)環(huán)境:安全管理制度不完善、缺乏相應(yīng)的數(shù)據(jù)安全管控措施
- 數(shù)據(jù)管理浮于表面:沒有建立一套數(shù)據(jù)驅(qū)動(dòng)的組織管理制度和流程,沒有建設(shè)先進(jìn)的數(shù)據(jù)管理平臺(tái)工具,導(dǎo)致數(shù)據(jù)管理工作難落地
數(shù)據(jù)資產(chǎn)管理的4個(gè)目標(biāo)
- 可見:通過(guò)數(shù)據(jù)資產(chǎn)盤點(diǎn),形成數(shù)據(jù)資產(chǎn)地圖;對(duì)數(shù)據(jù)生成者、管理者、使用者等不同的角色,用數(shù)據(jù)資產(chǎn)目錄共享數(shù)據(jù)資產(chǎn),用戶可快速、精確的查找自己關(guān)心的數(shù)據(jù)資產(chǎn);
- 可懂:通過(guò)元數(shù)據(jù)管理,完善對(duì)數(shù)據(jù)資產(chǎn)的描述;同時(shí)在數(shù)據(jù)資產(chǎn)的建設(shè)過(guò)程中,注重?cái)?shù)據(jù)資產(chǎn)業(yè)務(wù)含義的提煉,將數(shù)據(jù)加工和組織成人人能懂、無(wú)歧義的數(shù)據(jù)資產(chǎn),即標(biāo)簽化(標(biāo)簽是面向業(yè)務(wù)視角的數(shù)據(jù)組織方式);
- 可用:通過(guò)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全等措施,增加數(shù)據(jù)的可信度,讓數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析人員沒有后顧之憂;
- 可運(yùn)營(yíng):通過(guò)建立一套符合數(shù)據(jù)驅(qū)動(dòng)的組織管理制度流程和價(jià)值評(píng)估體系,改進(jìn)數(shù)據(jù)資產(chǎn)建設(shè)過(guò)程,提升數(shù)據(jù)資產(chǎn)管理的水平,提升數(shù)據(jù)資產(chǎn)的價(jià)值;
數(shù)據(jù)資產(chǎn)管理在數(shù)據(jù)中臺(tái)架構(gòu)中的位置
- 數(shù)據(jù)資產(chǎn)管理在數(shù)據(jù)中臺(tái)架構(gòu)處于數(shù)據(jù)開發(fā)和數(shù)據(jù)應(yīng)用之間;
- 數(shù)據(jù)資產(chǎn)管理對(duì)上支撐以價(jià)值挖掘和業(yè)務(wù)賦能為導(dǎo)向的數(shù)據(jù)應(yīng)用開發(fā),對(duì)下依托大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)生命周期管理;
- 對(duì)企業(yè)數(shù)據(jù)資產(chǎn)的價(jià)值、質(zhì)量進(jìn)行評(píng)估,促進(jìn)企業(yè)數(shù)據(jù)資產(chǎn)不斷自我完善,持續(xù)向業(yè)務(wù)輸出動(dòng)力 ;
數(shù)據(jù)治理
數(shù)據(jù)治理6個(gè)目標(biāo)
- 提升數(shù)據(jù)質(zhì)量,幫助做出基于數(shù)據(jù)的更高效、更準(zhǔn)確的決策;
- 構(gòu)建統(tǒng)一的、可執(zhí)行的數(shù)據(jù)標(biāo)準(zhǔn);
- 良好的響應(yīng)數(shù)據(jù)生成者、消費(fèi)者、數(shù)據(jù)處理技術(shù)人員等數(shù)據(jù)利益相關(guān)者的需求;
- 培訓(xùn)組織內(nèi)所有的管理層和員工,讓大家采用共同的解決數(shù)據(jù)問(wèn)題的辦法;
- 實(shí)現(xiàn)可重復(fù)的數(shù)據(jù)管理流程,并確保流程透明;
- 實(shí)現(xiàn)數(shù)據(jù)的可持續(xù)性運(yùn)營(yíng)、數(shù)據(jù)資產(chǎn)的增值;
數(shù)據(jù)治理6個(gè)原則
- 標(biāo)準(zhǔn)化原則:數(shù)據(jù)標(biāo)準(zhǔn)化是實(shí)現(xiàn)高價(jià)值數(shù)據(jù)、支撐以數(shù)據(jù)為基礎(chǔ)的相關(guān)業(yè)務(wù)的先決條件;必須制定可參考、可落地的標(biāo)準(zhǔn);當(dāng)產(chǎn)生爭(zhēng)議的時(shí)候,有權(quán)威的標(biāo)準(zhǔn)可供仲裁參考。
- 透明原則:除了一些需要保密的安全措施之外,數(shù)據(jù)治理相關(guān)的文件、數(shù)據(jù)問(wèn)題的發(fā)現(xiàn)等,應(yīng)公開透明,相關(guān)人員應(yīng)清楚正在發(fā)現(xiàn)的事情,以及事情發(fā)生后應(yīng)如何按照原則處理。
- 數(shù)據(jù)的認(rèn)責(zé)和問(wèn)責(zé):數(shù)據(jù)治理必須先解決數(shù)據(jù)無(wú)人問(wèn)責(zé)的問(wèn)題,數(shù)據(jù)的認(rèn)責(zé)是數(shù)據(jù)治理的先決條件,數(shù)據(jù)的問(wèn)責(zé)和考核制度是確保數(shù)據(jù)治理工作真正落地的制度保障。
- 平衡原則:在進(jìn)行數(shù)據(jù)治理過(guò)程中,必須在代價(jià)和收益之間取得平衡;沒有必要最求百分百的數(shù)據(jù)質(zhì)量,對(duì)于歷史遺留數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)也不可能對(duì)其進(jìn)行完全約束;數(shù)據(jù)可商用是平衡原則的重要參考。
- 變更原則:既要控制數(shù)據(jù)的變更流程,也要主動(dòng)適應(yīng)變化,推動(dòng)標(biāo)準(zhǔn)更新;
持續(xù)改進(jìn)原則:業(yè)務(wù)在不斷變化,數(shù)據(jù)在持續(xù)生產(chǎn),數(shù)據(jù)治理非朝夕之功,需要持續(xù)推動(dòng),不斷改進(jìn),形成長(zhǎng)效機(jī)制。
數(shù)據(jù)治理理論體系
- DAMA從數(shù)據(jù)治理生命周期角度對(duì)數(shù)據(jù)資產(chǎn)的管理行使權(quán)力和控制的活動(dòng)(規(guī)劃、監(jiān)控和執(zhí)行)進(jìn)行了重點(diǎn)研究。定義了數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理這10個(gè)領(lǐng)域,以及目標(biāo)和原則、活動(dòng)、主要交付物、角色和職責(zé)、技術(shù)、實(shí)踐和方法、組織和文化這7個(gè)環(huán)境因素,為數(shù)據(jù)管理提供了完整的結(jié)構(gòu)體系。
- DCMM充分結(jié)合大數(shù)據(jù)特點(diǎn)和國(guó)內(nèi)數(shù)據(jù)治理現(xiàn)狀,形成數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)應(yīng)用、數(shù)據(jù)生命周期8個(gè)核心領(lǐng)域 及28個(gè)過(guò)程域,重點(diǎn)關(guān)注數(shù)據(jù)的管理過(guò)程和方法。
- DCMM中數(shù)據(jù)管理成熟度等級(jí):
初始級(jí):被動(dòng)式數(shù)據(jù)管理;
受管理級(jí):意識(shí)到數(shù)據(jù)是資產(chǎn),制定管理流程,指定了相關(guān)人員進(jìn)行初步管理;
穩(wěn)健級(jí):數(shù)據(jù)被當(dāng)做重要資產(chǎn),制定了系列的標(biāo)準(zhǔn)化管理流程,促進(jìn)數(shù)據(jù)管理的規(guī)范化;
量化管理級(jí):數(shù)據(jù)被認(rèn)為是獲取競(jìng)爭(zhēng)優(yōu)勢(shì)的重要資源,數(shù)據(jù)管理的效率可以量化分析和監(jiān)控;
優(yōu)化級(jí):相關(guān)管理流程能實(shí)時(shí)優(yōu)化,能在行業(yè)內(nèi)進(jìn)行最佳實(shí)踐分享; - DCMM可為組織帶來(lái)的收益:
規(guī)范數(shù)據(jù)管理方面的職能域劃分
提出數(shù)據(jù)管理參考內(nèi)容、流程和工具集
獲得數(shù)據(jù)管理現(xiàn)狀、識(shí)別差距并提出未來(lái)發(fā)展方向
建立數(shù)據(jù)管理相關(guān)能力域的最佳實(shí)踐
持續(xù)提升數(shù)據(jù)管理能力
數(shù)據(jù)治理3個(gè)發(fā)展趨勢(shì)
從質(zhì)量管理到質(zhì)量與服務(wù)并重:通過(guò)數(shù)據(jù)資產(chǎn)管理,在傳統(tǒng)的數(shù)據(jù)治理能力之外,提供數(shù)據(jù)資產(chǎn)視圖能力、數(shù)據(jù)檢索能力、數(shù)據(jù)共享能力、數(shù)據(jù)價(jià)值運(yùn)營(yíng)能力;
人工智能大幅度提升數(shù)據(jù)治理效率
以元數(shù)據(jù)為核心的分布式數(shù)據(jù)治理:元數(shù)據(jù)將成為未來(lái)數(shù)據(jù)治理的基礎(chǔ)和核心;
數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)治理的關(guān)系
數(shù)據(jù)資產(chǎn)管理在傳統(tǒng)的數(shù)據(jù)治理的基礎(chǔ)上,加入了數(shù)據(jù)價(jià)值管理、數(shù)據(jù)共享管理等內(nèi)容;
數(shù)據(jù)治理的目標(biāo)是“以質(zhì)量管理為主”過(guò)渡到“質(zhì)量管理與服務(wù)并重”;
數(shù)據(jù)資產(chǎn)管理職能
數(shù)據(jù)標(biāo)準(zhǔn)管理
- 數(shù)據(jù)標(biāo)準(zhǔn)管理
數(shù)據(jù)標(biāo)準(zhǔn)定義:數(shù)據(jù)標(biāo)準(zhǔn)是對(duì)數(shù)據(jù)的表達(dá)、格式以及定義的一致約定,包含數(shù)據(jù)業(yè)務(wù)屬性、技術(shù)屬性和管理屬性的統(tǒng)一定義
數(shù)據(jù)標(biāo)準(zhǔn)目的:使組織內(nèi)外部使用和交換的數(shù)據(jù)是一致的、準(zhǔn)確的
制定數(shù)據(jù)標(biāo)準(zhǔn)步驟:資料搜集、調(diào)研訪談、分析評(píng)估(梳理業(yè)務(wù)指標(biāo)、數(shù)據(jù)項(xiàng)、代碼等)、形成并制定適用于組織的數(shù)據(jù)標(biāo)準(zhǔn)、發(fā)布和公式數(shù)據(jù)標(biāo)準(zhǔn) - 數(shù)據(jù)標(biāo)準(zhǔn)分類
業(yè)務(wù)術(shù)語(yǔ)(被批準(zhǔn)、管理的業(yè)務(wù)概念定義的描述,需要流程來(lái)定義組織如何創(chuàng)建、審批、修改和發(fā)布統(tǒng)一的業(yè)務(wù)術(shù)語(yǔ),進(jìn)而推送數(shù)據(jù)的共享和在組織內(nèi)部的應(yīng)用)標(biāo)準(zhǔn)
參考數(shù)據(jù)(數(shù)據(jù)字典,是數(shù)據(jù)的可能取值范圍)和主數(shù)據(jù)(需跨系統(tǒng)、跨部門共享的核心業(yè)務(wù)實(shí)體數(shù)據(jù))標(biāo)準(zhǔn)
數(shù)據(jù)元(數(shù)據(jù)最基本單元)標(biāo)準(zhǔn),數(shù)據(jù)元由3部分組成:對(duì)象類、特性、表示值域和數(shù)據(jù)類型的組合
指標(biāo)數(shù)據(jù)(衡量某個(gè)目標(biāo)或事物的數(shù)據(jù),由指標(biāo)名稱、指標(biāo)解釋、時(shí)間限定、其他條件限定、指標(biāo)數(shù)值等組成)標(biāo)準(zhǔn) - 數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)標(biāo)準(zhǔn)化區(qū)別
數(shù)據(jù)標(biāo)準(zhǔn):一經(jīng)制定發(fā)布后相對(duì)穩(wěn)定的靜態(tài)文件
數(shù)據(jù)標(biāo)準(zhǔn)化:一項(xiàng)帶有系統(tǒng)性、復(fù)雜性、困難性、長(zhǎng)期性特征的動(dòng)態(tài)管理工作,是對(duì)標(biāo)準(zhǔn)的某種程度上的落地 - 標(biāo)準(zhǔn)化中的難題
制定的數(shù)據(jù)標(biāo)準(zhǔn)本身有問(wèn)題
標(biāo)準(zhǔn)化推進(jìn)過(guò)程中出現(xiàn)問(wèn)題:對(duì)建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)目的不明確、過(guò)分依賴咨詢公司、對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化的難度評(píng)估不足、缺乏落地的制度和流程規(guī)范、組織管理水平不足 - 如何解決這些難題
制定可落地的執(zhí)行方案;
正確認(rèn)識(shí)數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)的目的:即統(tǒng)一組織內(nèi)的數(shù)據(jù)口徑,指導(dǎo)信息系統(tǒng)建設(shè),提高數(shù)據(jù)質(zhì)量更可信的處理和交換數(shù)據(jù),而不是應(yīng)付上級(jí)和監(jiān)管機(jī)構(gòu)的檢查;
正確認(rèn)識(shí)咨詢公司在數(shù)據(jù)資產(chǎn)管理工作前期的作用;
充分認(rèn)識(shí)到數(shù)據(jù)標(biāo)準(zhǔn)化的難度;
落地實(shí)施中,建立起科學(xué)可行的數(shù)據(jù)標(biāo)準(zhǔn)落地形式(源系統(tǒng)改造-不建議、數(shù)據(jù)接口標(biāo)準(zhǔn)化、數(shù)據(jù)中心落地-源系統(tǒng)數(shù)據(jù)與中心數(shù)據(jù)做好映射、保證傳輸?shù)綌?shù)據(jù)中心的數(shù)據(jù)為標(biāo)準(zhǔn)化后的數(shù)據(jù)):事先確定好落地的范圍、事先做好差異分析、事先做好影響性分析、具體執(zhí)行落地方案、事后評(píng)估;
數(shù)據(jù)模型管理
- 數(shù)據(jù)模型定義
指對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,用于描述一組數(shù)據(jù)的概念和定義;數(shù)據(jù)模型從抽象層次上描述了數(shù)據(jù)的靜態(tài)特征、動(dòng)態(tài)行為和約束條件; - 數(shù)據(jù)模型分類
概念數(shù)據(jù)模型:一種面向用戶、面向客觀世界的模型,主要用來(lái)描述世界的概念化結(jié)構(gòu),與具體的數(shù)據(jù)庫(kù)管理系統(tǒng)無(wú)關(guān);
邏輯數(shù)據(jù)模型:以概念模型的框架為基礎(chǔ),根據(jù)業(yè)務(wù)條線、業(yè)務(wù)事項(xiàng)、業(yè)務(wù)流程、業(yè)務(wù)場(chǎng)景的需要,設(shè)計(jì)的面向業(yè)務(wù)實(shí)現(xiàn)的數(shù)據(jù)模型,包括網(wǎng)狀數(shù)據(jù)模型、層次數(shù)據(jù)模型;
物理數(shù)據(jù)模型:描述數(shù)據(jù)在存儲(chǔ)介質(zhì)上的組織架構(gòu); - 數(shù)據(jù)模型管理現(xiàn)狀
生產(chǎn)庫(kù)里面存在大量沒有注釋的字段和表,意思含糊不清,同名不同義、同義不同名、冗余字段、枚舉值不一致等現(xiàn)象;
模型變更前沒有任何合理性判斷;
模型修改過(guò)程中缺乏監(jiān)管;
很多企業(yè)的模型數(shù)據(jù)是一個(gè)黑盒。 - 數(shù)據(jù)模型管理目標(biāo)
為了解決架構(gòu)設(shè)計(jì)和數(shù)據(jù)開發(fā)的不一致,而對(duì)數(shù)據(jù)開發(fā)中的表名、字段名等規(guī)范性進(jìn)行約束; - 數(shù)據(jù)模型管理主要活動(dòng)
定義和分析企業(yè)數(shù)據(jù)需求;
定義標(biāo)準(zhǔn)化的業(yè)務(wù)用語(yǔ)、單詞、域、編碼等;
設(shè)計(jì)標(biāo)準(zhǔn)化數(shù)據(jù)模型,遵循數(shù)據(jù)設(shè)計(jì)規(guī)范;
制定數(shù)據(jù)模型管理辦法和實(shí)施流程要求;
建設(shè)數(shù)據(jù)模型管理工具,統(tǒng)一管控企業(yè)數(shù)據(jù)模型。
元數(shù)據(jù)管理
- 元數(shù)據(jù)概念
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)
元數(shù)據(jù)是數(shù)據(jù)治理的核心和基礎(chǔ),它相當(dāng)于數(shù)據(jù)的一張地圖,通過(guò)地圖可以知道這些信息:有哪些種類的數(shù)據(jù);有哪些系統(tǒng)的數(shù)據(jù)、哪些數(shù)據(jù)庫(kù)、哪些表、哪些字段(表名、字段名、表的所有者、主鍵、索引、表與表之間的關(guān)系);數(shù)據(jù)全量是多少,每日增量是多少?數(shù)據(jù)分布在哪里;數(shù)據(jù)之間的流向關(guān)系;
元模型:描述元數(shù)據(jù)的數(shù)據(jù) - 元數(shù)據(jù)來(lái)源
元數(shù)據(jù)貫穿大數(shù)據(jù)平臺(tái)數(shù)據(jù)流動(dòng)的全過(guò)程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過(guò)程元數(shù)據(jù)、指標(biāo)層元數(shù)據(jù)、標(biāo)簽層元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等
元數(shù)據(jù)采集即獲取到分布在不同系統(tǒng)中的元數(shù)據(jù),對(duì)元數(shù)據(jù)進(jìn)行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫(kù)中的過(guò)程;
元數(shù)據(jù)采集方式包括數(shù)據(jù)庫(kù)直連、接口、日志文件等技術(shù)手段,對(duì)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)字段、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務(wù)指標(biāo)、代碼、數(shù)據(jù)加工過(guò)程等元數(shù)據(jù)信息進(jìn)行自動(dòng)化和手動(dòng)采集;采集完后,通常被存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。 - 元數(shù)據(jù)分類
技術(shù)元數(shù)據(jù):庫(kù)表結(jié)構(gòu)、字段約束、數(shù)據(jù)模型、ETL程序、SQL程序等;
業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)指標(biāo)、業(yè)務(wù)代碼、業(yè)務(wù)術(shù)語(yǔ);
管理元數(shù)據(jù):數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量定責(zé)、數(shù)據(jù)安全等級(jí)等; - 元數(shù)據(jù)管理
元數(shù)據(jù)的增刪改查:同構(gòu)角色賦予操作權(quán)限,需經(jīng)過(guò)元數(shù)據(jù)管理員的審核流程;
元數(shù)據(jù)變更管理:對(duì)歷史進(jìn)行查詢,前后版本對(duì)比;
元數(shù)據(jù)對(duì)比分析:對(duì)相似元數(shù)據(jù)進(jìn)行對(duì)比;
元數(shù)據(jù)統(tǒng)計(jì)分析:掌握匯總信息,統(tǒng)計(jì)各類數(shù)據(jù)的種類、數(shù)量、數(shù)據(jù)量等; - 元數(shù)據(jù)應(yīng)用
元數(shù)據(jù)瀏覽和檢索:元數(shù)據(jù)瀏覽和檢索可以大大提升信息在組織內(nèi)的共享;
血緣分析(指向數(shù)據(jù)的上游來(lái)源):獲取數(shù)據(jù)的血緣關(guān)系,以歷史事實(shí)的方式記錄數(shù)據(jù)的來(lái)源、處理過(guò)程等;血緣分析對(duì)用戶具有重要的價(jià)值,比如當(dāng)在數(shù)據(jù)分析中發(fā)現(xiàn)問(wèn)題數(shù)據(jù)的時(shí)候,可以依賴血緣關(guān)系,追根溯源,快速定位到問(wèn)題的來(lái)源和加工流程,減少分析的時(shí)間和難度。
影響性分析(指向數(shù)據(jù)的下游):能分析出數(shù)據(jù)的下游流向;當(dāng)系統(tǒng)進(jìn)行升級(jí)改造時(shí),如修改了數(shù)據(jù)結(jié)構(gòu)、ETL程序等元數(shù)據(jù)信息,依賴數(shù)據(jù)的影響性分析,可以快讀定位元數(shù)據(jù)修改會(huì)影響到那些系統(tǒng),減少系統(tǒng)升級(jí)改造帶來(lái)的風(fēng)險(xiǎn)。
數(shù)據(jù)冷熱度分析:對(duì)數(shù)據(jù)表被使用情況進(jìn)行統(tǒng)計(jì);如觀察到某些數(shù)據(jù)資源處于長(zhǎng)期閑置,沒有被任何用戶查看,也沒有任何應(yīng)用調(diào)用它的狀態(tài),用戶就可以參考數(shù)據(jù)的冷熱度報(bào)告,結(jié)合人工分析,對(duì)冷熱度不同的數(shù)據(jù)做分層存儲(chǔ),以便更好的利用HDFS資源;或者評(píng)估是否對(duì)失去價(jià)值的這部分?jǐn)?shù)據(jù)做線下處理,以節(jié)省數(shù)據(jù)存儲(chǔ)空間。
主數(shù)據(jù)管理
- 主數(shù)據(jù)概念
主數(shù)據(jù)是用來(lái)描述企業(yè)核心業(yè)務(wù)實(shí)體的數(shù)據(jù),是企業(yè)核心業(yè)務(wù)對(duì)象、交易業(yè)務(wù)的執(zhí)行主體、是在整個(gè)價(jià)值鏈上被重復(fù)、共享應(yīng)用于多個(gè)業(yè)務(wù)流程的、跨越各個(gè)業(yè)務(wù)部門和系統(tǒng)、高價(jià)值的基礎(chǔ)數(shù)據(jù),是各業(yè)務(wù)應(yīng)用和各系統(tǒng)之間進(jìn)行數(shù)據(jù)交互的基礎(chǔ);
主數(shù)據(jù)是企業(yè)信息系統(tǒng)的神經(jīng)中樞,是業(yè)務(wù)運(yùn)行和決策分析的基礎(chǔ);
主數(shù)據(jù)分布在不同的應(yīng)用系統(tǒng),而不同的應(yīng)用系統(tǒng)之間主數(shù)據(jù)的定義、屬性、編碼存在眾多不一致,極大影響了系統(tǒng)和數(shù)據(jù)之間的融合與集成。 - 主數(shù)據(jù)管理內(nèi)容
主數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)及規(guī)范設(shè)計(jì):核心工作,建立一套完整的標(biāo)準(zhǔn)體系和代碼庫(kù),對(duì)企業(yè)經(jīng)營(yíng)活動(dòng)中所涉及的各類主數(shù)據(jù)制定統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范;
主數(shù)據(jù)模型:建立主數(shù)據(jù)架構(gòu)的物理模型,包括數(shù)據(jù)屬性的定義、數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)管理定義等;
主數(shù)據(jù)梳理和集成:根據(jù)主數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,依托于數(shù)據(jù)集成平臺(tái)以及主數(shù)據(jù)質(zhì)量模塊,輔助業(yè)務(wù)部分將現(xiàn)有的主數(shù)據(jù)內(nèi)容重新進(jìn)行數(shù)據(jù)編碼、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)侵襲等,形成企業(yè)標(biāo)準(zhǔn)的主數(shù)據(jù)庫(kù)。
主數(shù)據(jù)質(zhì)量管理:對(duì)主數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行統(tǒng)一閉環(huán)管理,覆蓋數(shù)據(jù)質(zhì)量的定義、監(jiān)控、問(wèn)題分析、整改和評(píng)估,推動(dòng)質(zhì)量問(wèn)題的解決;在數(shù)據(jù)清洗過(guò)程中,進(jìn)行數(shù)據(jù)質(zhì)量的管理,并生成數(shù)據(jù)質(zhì)量報(bào)告,提供數(shù)據(jù)質(zhì)量管理服務(wù);
建立靈活的主數(shù)據(jù)共享服務(wù);
建立主數(shù)據(jù)維護(hù)流程;
數(shù)據(jù)質(zhì)量管理
管理目標(biāo)
數(shù)據(jù)質(zhì)量現(xiàn)狀如何,誰(shuí)來(lái)改進(jìn),如何提高,怎樣考核問(wèn)題產(chǎn)生根源
管理不善、技術(shù)和流程只是其表象數(shù)據(jù)質(zhì)量評(píng)估的標(biāo)準(zhǔn)
準(zhǔn)確性:描述數(shù)據(jù)是否與其對(duì)應(yīng)客觀實(shí)體的特征一致,eg:用戶住址是否正確,某個(gè)字段是否存在亂碼;
完整性:描述數(shù)據(jù)是否存在缺失記錄或者缺失字段;
一致性:描述統(tǒng)一實(shí)體同一屬性的值在不同的系統(tǒng)中是否一致;
有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定取值范圍內(nèi);
唯一性:描述數(shù)據(jù)是否存在重復(fù)記錄;
及時(shí)性:描述數(shù)據(jù)的產(chǎn)生和供應(yīng)是否及時(shí);
穩(wěn)定性:描述數(shù)據(jù)的波動(dòng)是否穩(wěn)定,是否在有效范圍內(nèi);
連續(xù)性:描述數(shù)據(jù)額編號(hào)是否連續(xù);
合理性:描述兩個(gè)字段之間的邏輯關(guān)系是否合理;-
數(shù)據(jù)質(zhì)量管理流程
梳理和分析數(shù)據(jù)質(zhì)量問(wèn)題,摸清數(shù)據(jù)質(zhì)量的現(xiàn)在;對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行全部或者抽樣掃描,找出不符合質(zhì)量要求的數(shù)據(jù),形成數(shù)據(jù)質(zhì)量報(bào)告
針對(duì)不同的數(shù)據(jù)問(wèn)題選擇合適的解決方案,制定詳細(xì)的解決方案
問(wèn)題的問(wèn)題,追蹤方案執(zhí)行的效果,督查檢查,持續(xù)優(yōu)化
形成數(shù)據(jù)質(zhì)量問(wèn)題解決方案的知識(shí)庫(kù)
數(shù)據(jù)質(zhì)量管理流程 -
數(shù)據(jù)質(zhì)量管理的取舍
數(shù)據(jù)質(zhì)量管理流程;
對(duì)不同時(shí)間維度的數(shù)據(jù)采取不同的處理方式:歷史數(shù)據(jù):用數(shù)據(jù)清洗的辦法解決,對(duì)于實(shí)在清洗不了的,要判斷投入產(chǎn)出比,決定是否要對(duì)所有的歷史數(shù)據(jù)進(jìn)行治療管理;在大多數(shù)情況下,歷史數(shù)據(jù)的時(shí)間越久遠(yuǎn),其價(jià)值越低;歷史數(shù)據(jù)是否要進(jìn)行管理,以“是否可商用”作為評(píng)判的標(biāo)準(zhǔn)。 當(dāng)前數(shù)據(jù):嚴(yán)格遵守流程,避免臟數(shù)據(jù)流到數(shù)據(jù)分析和應(yīng)用環(huán)節(jié)。 未來(lái)數(shù)據(jù):一定要從資產(chǎn)管理的整理規(guī)劃開始,從整個(gè)組織信息化的角度出發(fā),規(guī)劃組織內(nèi)統(tǒng)一的數(shù)據(jù)架構(gòu),制定出一定的數(shù)據(jù)標(biāo)準(zhǔn)。 數(shù)據(jù)安全管理
對(duì)數(shù)據(jù)設(shè)定安全等級(jí),按照國(guó)家/組織相關(guān)法案及監(jiān)督要求,通過(guò)評(píng)估數(shù)據(jù)安全風(fēng)險(xiǎn)、制定數(shù)據(jù)安全管理規(guī)范制度、進(jìn)行數(shù)據(jù)安全分級(jí)分類,完善數(shù)據(jù)安全管理相關(guān)技術(shù)規(guī)范,保證數(shù)據(jù)被合規(guī)合法、安全地采集、傳輸、存儲(chǔ)和使用。數(shù)據(jù)共享管理
數(shù)據(jù)共享管理主要指數(shù)據(jù)共享和交換,實(shí)現(xiàn)數(shù)據(jù)內(nèi)外部?jī)r(jià)值的一系列活動(dòng)
數(shù)據(jù)共享包括數(shù)據(jù)內(nèi)部共享(跨組織、部門的數(shù)據(jù)交換)、外部流通(企業(yè)間數(shù)據(jù)交換)、對(duì)外開放
為了數(shù)據(jù)共享的安全和監(jiān)管,必須對(duì)數(shù)據(jù)輸出的狀態(tài)有相應(yīng)的分析和監(jiān)控;數(shù)據(jù)輸出監(jiān)控有服務(wù)鏈路分析、影響度分析、異常監(jiān)控警告等;數(shù)據(jù)API服務(wù)管控包括API接口鑒權(quán)認(rèn)證、流量控制、訪問(wèn)次數(shù)控制等生命周期管理
不可恢復(fù)數(shù)據(jù)管理:一般建議永久保存,在實(shí)施過(guò)程中可以考慮冷數(shù)據(jù)用低價(jià)存儲(chǔ)的方式,未來(lái)需要使用時(shí)在進(jìn)行恢復(fù);
可恢復(fù)數(shù)據(jù)管理:只需要有原始數(shù)據(jù)和加工模型在,就可通過(guò)平臺(tái)的調(diào)度策略恢復(fù),這類數(shù)據(jù)的生命周期一般會(huì)根據(jù)實(shí)際使用情況來(lái)靈活調(diào)整。標(biāo)簽管理
標(biāo)簽分類:
數(shù)據(jù)分類方式,如根據(jù)數(shù)據(jù)的來(lái)源、更新頻率、歸屬部門等進(jìn)行標(biāo)識(shí)和分類;
對(duì)數(shù)據(jù)的內(nèi)容進(jìn)行重新描述甚至重新組織的方式,從某個(gè)業(yè)務(wù)視角重新定義等。
標(biāo)簽管理內(nèi)容:包括標(biāo)簽體系的管理、標(biāo)簽與數(shù)據(jù)映射關(guān)系、標(biāo)簽的應(yīng)用管理;
標(biāo)簽類目體系是標(biāo)簽信息的一種結(jié)構(gòu)化描述;
指標(biāo)、畫像、字段的概念
指標(biāo):為達(dá)到某一個(gè)具體業(yè)務(wù)目標(biāo)而定義的描述約定,是一種衡量目標(biāo)的方法,主要針對(duì)某個(gè)場(chǎng)景而提煉的一些關(guān)鍵評(píng)判維度;
畫像:指某個(gè)對(duì)象從各個(gè)標(biāo)簽的維度的具體內(nèi)容描述;
字段:一種物理存儲(chǔ)的形態(tài)。數(shù)據(jù)資產(chǎn)門戶
數(shù)據(jù)資產(chǎn)地圖:
讓用戶最直觀的方式、掌握數(shù)據(jù)資產(chǎn)的概況,如數(shù)據(jù)總量、每日數(shù)據(jù)增量、數(shù)據(jù)資產(chǎn)質(zhì)量的整體狀況、數(shù)據(jù)資產(chǎn)的分類情況、數(shù)據(jù)資產(chǎn)的分布情況、數(shù)據(jù)資產(chǎn)的冷熱度排名、各個(gè)業(yè)務(wù)域及系統(tǒng)之間的數(shù)據(jù)流動(dòng)關(guān)系等;
數(shù)據(jù)資產(chǎn)目錄
組織方式:常見的有按業(yè)務(wù)域組織、按數(shù)據(jù)來(lái)源組織、按數(shù)據(jù)類型組織;
用戶角色分類
數(shù)據(jù)資產(chǎn)開發(fā)者:關(guān)注當(dāng)前開發(fā)的數(shù)資產(chǎn)是否有重復(fù),是否有準(zhǔn)確的定義,通過(guò)數(shù)據(jù)資產(chǎn)目錄,可以將自己負(fù)責(zé)開發(fā)的數(shù)據(jù)資產(chǎn)發(fā)布到合適的資產(chǎn)目錄;
數(shù)據(jù)資產(chǎn)管理者:掌握數(shù)據(jù)資產(chǎn)的全局情況,包括擁有哪些數(shù)據(jù)資產(chǎn)、分布在哪里、質(zhì)量情況、使用情況等;通過(guò)對(duì)數(shù)據(jù)資產(chǎn)的合理授權(quán),控制數(shù)據(jù)資產(chǎn)的使用;
數(shù)據(jù)資產(chǎn)使用者:關(guān)心數(shù)據(jù)是什么、數(shù)據(jù)在哪里、如何獲取數(shù)據(jù),通過(guò)數(shù)據(jù)資產(chǎn)目錄和獲得的授權(quán),快速定位到自己需要的資產(chǎn),掌握數(shù)據(jù)資產(chǎn)的存在形式(結(jié)構(gòu)化或半結(jié)構(gòu)化);
數(shù)據(jù)資產(chǎn)檢索:
為用戶提供一鍵式資產(chǎn)檢索服務(wù),根據(jù)關(guān)鍵字匹配,搜索后查看資產(chǎn)名稱、創(chuàng)建者、業(yè)務(wù)語(yǔ)義、加工過(guò)程等
數(shù)據(jù)資產(chǎn)管理效果評(píng)估
- 根據(jù)行業(yè)特點(diǎn)評(píng)估效果
金融行業(yè):相對(duì)更重視數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的實(shí)施效果;
政府部門:相對(duì)更重視數(shù)據(jù)的安全可控、數(shù)據(jù)交換的及時(shí)性和共享開放性;
電信行業(yè):更重視數(shù)據(jù)資產(chǎn)是否被良好組織和管理起來(lái),以及是否實(shí)現(xiàn)了開放共享; - 建設(shè)目標(biāo):
全面監(jiān)控組織數(shù)據(jù)質(zhì)量情況。
建立數(shù)據(jù)質(zhì)量問(wèn)題管理機(jī)制。 - 建設(shè)內(nèi)容為:
制訂數(shù)據(jù)質(zhì)量檢查計(jì)劃。
數(shù)據(jù)質(zhì)量情況剖析。
數(shù)據(jù)質(zhì)量校驗(yàn)。
數(shù)據(jù)質(zhì)量問(wèn)題管理。 - 評(píng)估模型
初始級(jí):開展偶然的數(shù)據(jù)質(zhì)量檢查活動(dòng),基于出現(xiàn)的數(shù)據(jù)問(wèn)題進(jìn)行問(wèn)題查找;
受管理級(jí):定義了數(shù)據(jù)質(zhì)量檢查方面的管理制度和流程,明確了數(shù)據(jù)質(zhì)量剖析的主要內(nèi)容和方式,在某些業(yè)務(wù)領(lǐng)域按計(jì)劃進(jìn)行數(shù)據(jù)治理的剖析和校驗(yàn);
穩(wěn)健級(jí):明確了組織級(jí)的數(shù)據(jù)質(zhì)量檢查制度和流程,定義了相關(guān)人員在其中的職責(zé),定義了相關(guān)的執(zhí)行計(jì)劃,統(tǒng)一開展數(shù)據(jù)質(zhì)量檢查,并根據(jù)結(jié)果進(jìn)行考核;
量化管理級(jí):定義并應(yīng)用量化指標(biāo),對(duì)數(shù)據(jù)質(zhì)量檢查和問(wèn)題處理過(guò)程進(jìn)行有效分析,可以及時(shí)對(duì)相關(guān)制度和流程進(jìn)行優(yōu)化;
優(yōu)化級(jí):在業(yè)界分享組織數(shù)據(jù)質(zhì)量檢查的實(shí)踐經(jīng)驗(yàn),成為行業(yè)標(biāo)桿;
數(shù)據(jù)資產(chǎn)管理的7個(gè)成功要素
- 強(qiáng)有力的組織架構(gòu):有力保證
- 清洗的數(shù)據(jù)戰(zhàn)略:指導(dǎo)數(shù)據(jù)資產(chǎn)管理的最高原則;
- 重視數(shù)據(jù)的企業(yè)文化
- 合理的制度與流程
數(shù)據(jù)需求管理辦法
數(shù)據(jù)模型管理辦法
數(shù)據(jù)標(biāo)準(zhǔn)管理辦法
元數(shù)據(jù)管理辦法
數(shù)據(jù)質(zhì)量管理辦法
數(shù)據(jù)共享管理辦法
數(shù)據(jù)安全管理辦法
數(shù)據(jù)生命周期管理辦法 - 標(biāo)準(zhǔn)與規(guī)范:開展數(shù)據(jù)資產(chǎn)管理的前提和基礎(chǔ);
- 成熟的軟件平臺(tái)
數(shù)據(jù)質(zhì)量管理系統(tǒng)
元數(shù)據(jù)管理系統(tǒng)
數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)
數(shù)據(jù)安全管控平臺(tái)
數(shù)據(jù)資產(chǎn)中心 - 科學(xué)的項(xiàng)目實(shí)施:需長(zhǎng)期持續(xù)不斷改進(jìn)
