數(shù)據(jù)的井噴式爆發(fā),如何做好數(shù)據(jù)模型、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作,并且如何提高用戶的數(shù)據(jù)使用滿意度,即數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品也是需要我們思考的問(wèn)題。
如何建設(shè)高效的數(shù)據(jù)模型和體系,使數(shù)據(jù)易用,避免重復(fù)建設(shè)和數(shù)據(jù)不一致性,保證數(shù)據(jù)的規(guī)范性;如何提供高效易用的數(shù)據(jù)開(kāi)發(fā)工具;如何做好數(shù)據(jù)質(zhì)量保障;如何有效管理和控制日益增長(zhǎng)的存儲(chǔ)和計(jì)算消耗;如何保證數(shù)據(jù)服務(wù)的穩(wěn)定,保證其性能;如何設(shè)計(jì)有效的數(shù)據(jù)產(chǎn)品高效賦能于外部客戶和內(nèi)部員工......

1、數(shù)據(jù)采集層--一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案
阿里巴巴的日志采集體系方案包括兩大體系:Aplus.JS是web端日志采集技術(shù)方案;UserTrack是APP端日志采集技術(shù)方案。用以滿足瀏覽、點(diǎn)擊、特殊交互、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場(chǎng)景。
同事還建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系,完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸。采用TimeTunnel(TT),既能包括數(shù)據(jù)庫(kù)的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)傳輸;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既支持實(shí)時(shí)流式計(jì)算,也支持各種事件窗口的批量計(jì)算。另外,也通過(guò)數(shù)據(jù)同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封裝的)直連異構(gòu)數(shù)據(jù)庫(kù)(備庫(kù))來(lái)抽取各種時(shí)間窗口的數(shù)據(jù)。
2、數(shù)據(jù)計(jì)算層--數(shù)據(jù)的整合與計(jì)算
阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體系:數(shù)據(jù)存儲(chǔ)及計(jì)算云平臺(tái)(離線計(jì)算平臺(tái)MaxCompute和實(shí)時(shí)計(jì)算平臺(tái)StreamCompute)和數(shù)據(jù)整合及管理體系(內(nèi)部稱之為“OneData”)。其中MaxCompute是離線大數(shù)據(jù)平臺(tái),其豐富的功能和強(qiáng)大的存儲(chǔ)及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲(chǔ)和計(jì)算引擎;StreamCompute是流式大數(shù)據(jù)平臺(tái);OneData是數(shù)據(jù)整合及管理的方法體系和工具,構(gòu)建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的冗余和重復(fù)建設(shè),規(guī)避數(shù)據(jù)煙囪和不一致性,充分發(fā)揮海量、多樣性等方面的優(yōu)勢(shì)。借助統(tǒng)一化數(shù)據(jù)整合及管理的方法體系,構(gòu)建了數(shù)據(jù)公共層。
間里數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念,包括操作數(shù)據(jù)層( Operational Data Store, ODS )、明細(xì)數(shù)據(jù)層( Data WarehouseDetail , DWD )、匯總數(shù)據(jù)層( Data Warehouse Summary, DWS )和應(yīng)用數(shù)據(jù)層( Application Data Store, ADS )。。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間的加工過(guò)程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對(duì)整個(gè)過(guò)程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。
在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個(gè)重要的組成部分,主要包含數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù) 、數(shù)據(jù)鏈路元數(shù)據(jù)、工具類元數(shù)據(jù) 數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等 ,如用于存儲(chǔ)、計(jì)算和成本管理等。
3、數(shù)據(jù)服務(wù)層--提供產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi)
數(shù)據(jù)服務(wù)可以使應(yīng)用對(duì)底層數(shù)據(jù)存儲(chǔ)透明,將海量數(shù)據(jù)方便高效地開(kāi)放給集團(tuán)內(nèi)部各應(yīng)用使用。數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù)主要是通過(guò)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)(方便閱讀,簡(jiǎn)稱為“OneService ”)。One Service 以數(shù)據(jù)倉(cāng)庫(kù)整合計(jì)算好的數(shù)據(jù)作為數(shù)據(jù)源,對(duì)外通過(guò)接口的方式提供數(shù)據(jù)服務(wù),主要提供簡(jiǎn)單數(shù)據(jù)查詢服務(wù)、復(fù)雜數(shù)據(jù)查詢服務(wù)(承接集團(tuán)用戶識(shí)別、用戶畫像等復(fù)雜數(shù)據(jù)查詢服務(wù))和實(shí)時(shí)數(shù)據(jù)推送服務(wù)三大特色數(shù)據(jù)服務(wù)。
4、數(shù)據(jù)應(yīng)用層--通過(guò)合適的應(yīng)用提供給用戶,讓數(shù)據(jù)最大化地發(fā)揮價(jià)值。
如搜索、推薦、廣告、金融、信用、保險(xiǎn)、文娛、物流等。阿里內(nèi)部的運(yùn)營(yíng)和管理人員等,都是數(shù)據(jù)應(yīng)用方; ISV研究機(jī)構(gòu)和社會(huì)組織等也可以利用阿里開(kāi)放的數(shù)據(jù)能力和技術(shù)。
我們相信,數(shù)據(jù)作為新能源,為產(chǎn)業(yè)注人的變革是顯而易見(jiàn)的。我們對(duì)數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上。我們正在挖掘大數(shù)據(jù)更深層次的價(jià)值,為社會(huì)經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供創(chuàng)新方法。