上一篇《數(shù)據(jù)庫基礎(chǔ)概念及相關(guān)關(guān)系》中提到的數(shù)據(jù)庫基本概念時,將DM解釋成了數(shù)據(jù)挖掘(DataMining),其實DM還有另一層意思,也就是數(shù)據(jù)集市(DateMart),下面就進行一下補充
定義
DM(DateMart)數(shù)據(jù)集市—— 為滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。
- 獨立型數(shù)據(jù)集市:數(shù)據(jù)來自于操作型數(shù)據(jù)庫,是為了滿足特殊用戶而建立的一種分析型環(huán)境。這種數(shù)據(jù)集市開發(fā)周期一般較短,具有靈活性,但是因為脫離了數(shù)據(jù)倉庫,獨立建立的數(shù)據(jù)集市可能會導(dǎo)致信息孤島的存在,不能以全局的視角去分析數(shù)據(jù)。(不推薦)
- 從屬型數(shù)據(jù)集市:數(shù)據(jù)來自于企業(yè)的數(shù)據(jù)倉庫,這種會導(dǎo)致開發(fā)周期的延長,但是從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)定,可以提高數(shù)據(jù)分析的質(zhì)量,保證數(shù)據(jù)的一致性。
描述
數(shù)據(jù)集市DM與數(shù)據(jù)倉庫DW的差別
在數(shù)據(jù)結(jié)構(gòu)上,數(shù)據(jù)倉庫是面向主題的、集成的數(shù)據(jù)的集合。而數(shù)據(jù)集市通常被定義為星型結(jié)構(gòu)或者雪花結(jié)構(gòu),數(shù)據(jù)集市一般是由一張事實表和幾張維度表組成的。

數(shù)據(jù)結(jié)構(gòu)差別

性質(zhì)對比
特征
- 數(shù)據(jù)集市是一組特定的、針對某個主題域、某個部門或者某些特殊用戶而進行分類的數(shù)據(jù)集合,也可以說是小型的數(shù)據(jù)倉庫。用戶可以在數(shù)據(jù)集市中快速的對數(shù)據(jù)進行訪問和對報表進行展示,同時在數(shù)據(jù)結(jié)構(gòu)的內(nèi)部對數(shù)據(jù)進行必要的匯總和優(yōu)化。
- 數(shù)據(jù)倉庫到數(shù)據(jù)集市的過程是從數(shù)據(jù)規(guī)范化到多維建模的過程,包括數(shù)據(jù)倉庫內(nèi)的實體轉(zhuǎn)化成事實表、維表,以及將實體之間的關(guān)系轉(zhuǎn)換成多維映射。
- 數(shù)據(jù)倉庫項目中,數(shù)據(jù)集市通常按照地區(qū)、日期等維度對數(shù)據(jù)進行組織和匯總,因此數(shù)據(jù)倉庫轉(zhuǎn)化成數(shù)據(jù)集市也是按照輕量級匯總或者中度匯總和計算完成的。
- 數(shù)據(jù)集市里的數(shù)據(jù)一般都是從數(shù)據(jù)倉庫中經(jīng)過轉(zhuǎn)換、匯總計算獲取的,直接支撐前段的應(yīng)用需求。數(shù)據(jù)集市的數(shù)據(jù)通常會作為olap服務(wù)和應(yīng)用服務(wù)的數(shù)據(jù)輸入。
-
數(shù)據(jù)集市一般不會從數(shù)據(jù)源系統(tǒng)中直接抽取,即一般不提倡建立獨立的數(shù)據(jù)集市,因為這有可能導(dǎo)致數(shù)據(jù)的不一致性,同時也會增加多個額外的進程,從而導(dǎo)致資源的浪費。
結(jié)合業(yè)務(wù)1

結(jié)合業(yè)務(wù)2
總結(jié)
綜合這兩篇的內(nèi)容,更確切的數(shù)據(jù)流轉(zhuǎn)過程是
DB→ETL→ODS→DW→DM(DataMart)→OLAP/DM(DataMining)→BI
