一、怎么正確理解數(shù)據(jù)集市
舉個例子:
數(shù)據(jù)集市就像宜家樓上的展廳,這是一個面向最終用戶的數(shù)據(jù)市場,在這里,數(shù)據(jù)(家具)以一種更加容易被業(yè)務人員接受的方式組合在一起,這些組合方式可能是多變的,因為業(yè)務人員的需求是多變的,因此我們需要定期調(diào)整集市的計算口徑(展廳的陳列方式),經(jīng)常會創(chuàng)建新的數(shù)據(jù)集市(裝修新的展廳)。

數(shù)據(jù)集市源起:
美國數(shù)據(jù)交易產(chǎn)業(yè)是在數(shù)據(jù)經(jīng)紀產(chǎn)業(yè)的基礎上發(fā)展起來的,數(shù)據(jù)集市也延續(xù)了互聯(lián)網(wǎng)發(fā)展早期的數(shù)據(jù)經(jīng)紀商的角色。該術語來源于Armstrong 和Durfee的研究成果,他們認為信息集市是由許多從事信息內(nèi)容和服務買賣的代理人組成,并模擬了數(shù)字圖書館聯(lián)盟的信息交易活動。

再回歸到基本定義來看:
數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場,數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。

數(shù)據(jù)集市本質(zhì)上是一個數(shù)據(jù)交易市場,既然是市場就存在供需,需求即終端用戶對數(shù)據(jù)的直接需求,供應即滿足用戶需求特點的數(shù)據(jù)立方體。集市數(shù)據(jù)來源是全企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫中抽取出來的體系化數(shù)據(jù)。
數(shù)據(jù)集市可以分為兩種:
一種是獨立數(shù)據(jù)集市(independent data mart),這類數(shù)據(jù)集市有自己的源數(shù)據(jù)庫和ETL架構(gòu);
一種是非獨立數(shù)據(jù)集市(dependent data mart),這種數(shù)據(jù)集市沒有自己的源系統(tǒng),它的數(shù)據(jù)來自數(shù)據(jù)倉庫。當用戶或者應用程序不需要/不必要/不允許用到整個數(shù)據(jù)倉庫的數(shù)據(jù)時,非獨立數(shù)據(jù)集市就得為用戶提供一個具備數(shù)據(jù)倉庫功能的"子集"。
數(shù)據(jù)集市的特征主要有:
面向部門;
有特定的應用主題;
由業(yè)務部門定義、設計和開發(fā);
業(yè)務部門管理和維護。
二、數(shù)據(jù)集市到底有哪些功能
我們以極限大數(shù)據(jù)交易服務的模式探討就更為直接理解其“集市”的含義,如圖所示

數(shù)據(jù)集市以數(shù)據(jù)價值為導向,基于自身的技術優(yōu)勢,向上溯及數(shù)據(jù)資源鏈條,向下延伸至用戶服務、大數(shù)據(jù)應用環(huán)節(jié),逐步建立起基于“數(shù)據(jù)價值鏈”的數(shù)據(jù)服務流程。

其數(shù)據(jù)價值分三層功能實現(xiàn):
1、數(shù)據(jù)層
數(shù)據(jù)層是數(shù)據(jù)集市提供數(shù)據(jù)交易服務的基礎,實現(xiàn)大數(shù)據(jù)資源的多源采集和獲取。線下數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、政府數(shù)據(jù)以及企業(yè)在主營業(yè)務中產(chǎn)生的行業(yè)數(shù)據(jù)是數(shù)據(jù)集市的主要數(shù)據(jù)來源,眾包、采購、網(wǎng)絡爬取、授權(quán)代理和外部合作是其主要的數(shù)據(jù)獲取方式。如金融和經(jīng)濟數(shù)據(jù)交易平臺 Quandl 通過網(wǎng)絡爬蟲、眾包和社區(qū)的貢獻積累數(shù)據(jù); 數(shù)據(jù)堂基于眾包平臺采集了海量的線下數(shù)據(jù)資源; 貴陽大數(shù)據(jù)交易所與超過 500 家企業(yè)簽約,使他們成為數(shù)據(jù)交易會員; 數(shù)多多依靠八爪魚網(wǎng)絡數(shù)據(jù)爬取平臺上每天成千上萬用戶產(chǎn)生的億級數(shù)據(jù)作為支持。

2、處理層
處理層是數(shù)據(jù)集市提供數(shù)據(jù)交易服務的關鍵,實現(xiàn)數(shù)據(jù)清洗、脫敏、標準化、結(jié)構(gòu)化和數(shù)據(jù)
融合等。受限于數(shù)據(jù)質(zhì)量等原因,原始數(shù)據(jù)不能被直接交易,必須經(jīng)過特定處理才能轉(zhuǎn)化為數(shù)據(jù)資產(chǎn),因此,數(shù)據(jù)處理是數(shù)據(jù)服務流程的關鍵。
如美國的位置數(shù)據(jù)提供商 Factual 對全球地點數(shù)據(jù)進行采集,包括數(shù)千萬個地點的商業(yè)設施的名稱、地址、電話、分類、經(jīng)緯度、工作時間、網(wǎng)站、電子郵件等各類數(shù)據(jù),并基于對地理信息的深刻理解,在廣告投放和市場營銷方面為用戶提供幫助; 九次方大數(shù)據(jù)為政府不同部門提供底層數(shù)據(jù)的抽取、清洗、建模和分析服務; 數(shù)據(jù)堂依托大數(shù)據(jù)處理平臺和眾包標注平臺,使原始數(shù)據(jù)成為標準化、可應用、可交易的數(shù)據(jù)產(chǎn)品; 貴陽大數(shù)據(jù)交易所根據(jù)需求方要求,對數(shù)據(jù)進行清洗、分析、建模及可視化等操作之后再出售。

3、服務層
服務層是數(shù)據(jù)集市提供數(shù)據(jù)交易服務的最終實現(xiàn),為用戶提供各種數(shù)據(jù)服務支持。用戶的數(shù)據(jù)需求得以滿足后,可以通過大數(shù)據(jù)分析、深度挖掘、轉(zhuǎn)移應用等方式發(fā)現(xiàn)新的數(shù)據(jù)價值。目前,按交易對象和形式劃分,數(shù)據(jù)集市的服務方式主要有3種:
基礎數(shù)據(jù)及數(shù)據(jù)產(chǎn)品交易,如數(shù)據(jù)堂、數(shù)多多等;
滿足在線數(shù)據(jù)調(diào)用需求的 API 云服務,如千數(shù)堂、聚合數(shù)據(jù)等;
大數(shù)據(jù)分析結(jié)果的交易,如貴陽大數(shù)據(jù)交易所等。

三、數(shù)據(jù)集市與數(shù)倉的區(qū)別
Bill Inmon說過一句話叫“IT經(jīng)理們面對最重要的問題就是到底先建立數(shù)據(jù)倉庫還是先建立數(shù)據(jù)集市”,足以說明搞清楚這兩者之間的關系是十分重要而迫切的!

數(shù)倉和數(shù)集的關系類似于工廠和門店的關系。存在三大差異:
1、定位差異
數(shù)據(jù)倉庫在底層,涵蓋企業(yè)范圍內(nèi)的各類領域數(shù)據(jù),能為整個企業(yè)各個部門的運行提供決策支持手段,是數(shù)據(jù)統(tǒng)一整潔倉管;而數(shù)據(jù)集市在服務層,它要與用戶需求進行直接交互聚焦于、各類主題服務區(qū)域,服務于特定的數(shù)據(jù)需求。
2、服務差異
數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸、面向客制化的數(shù)據(jù)服務應用,因此是廣義數(shù)倉中被抽離出的一部分,面向?qū)崟r的、高并發(fā)分析;數(shù)倉則重點解決海量數(shù)據(jù)統(tǒng)計分析、低用戶并發(fā)、大量計算。
數(shù)據(jù)集市聚焦具體領域,要滿足低延時、高并發(fā)的數(shù)據(jù)查詢要求,可以7×24 對外提供數(shù)據(jù)服務,且不影響原有數(shù)據(jù)倉庫統(tǒng)計分析應用的正常運行。大量生產(chǎn)數(shù)據(jù)的預處理在數(shù)倉進行,數(shù)據(jù)集市接收數(shù)倉預處理后的數(shù)據(jù)。
數(shù)據(jù)集市是對數(shù)倉的補充,靈活、快速響應業(yè)務,支持用戶部門自行定制數(shù)據(jù)進行統(tǒng)計分析,支持高并發(fā)、性價比較高。
3、建模差異
a、數(shù)據(jù)倉庫的建模
確保提供的數(shù)據(jù)簡單性以及歷史數(shù)據(jù)的集成和聯(lián)合性是數(shù)倉建模應具備的關鍵原則。要由企業(yè)IT部門或者DT部門的數(shù)據(jù)專家進行統(tǒng)一組織設計。
b、數(shù)據(jù)集市的數(shù)據(jù)建模
數(shù)據(jù)集市的建模是由業(yè)務需求驅(qū)動的。數(shù)據(jù)集市模型對于捕獲業(yè)務需求十分有用,數(shù)集提供的數(shù)據(jù)服務必須是有業(yè)務價值的,否則不應該存在。
數(shù)據(jù)集市的建模是終端用戶發(fā)起的。終端用戶必須參與數(shù)據(jù)集市的建模過程,他們是數(shù)據(jù)集市的需求發(fā)起方,也即是否有價值的關鍵評判者,而不是IT或DT部門自己。
數(shù)據(jù)集市的建模不是數(shù)據(jù)技術專家依據(jù)相關數(shù)據(jù)標準收集的,它受行業(yè)業(yè)務經(jīng)驗以及數(shù)據(jù)分析技術的影響。數(shù)據(jù)分析技術可以影響所選擇的數(shù)據(jù)模型的類型及其內(nèi)容。目前,有幾種常用的數(shù)據(jù)分析技術:查詢和報表制作、多維分析以及數(shù)據(jù)挖掘。