互聯(lián)網(wǎng)發(fā)展到現(xiàn)在,基礎(chǔ)性的各種商業(yè)應(yīng)用基本已經(jīng)完成,這也意味著以前那種靠某種滿足人類單一需求的APP商業(yè)模式開始出現(xiàn)瓶頸,那么面對如此的發(fā)展瓶頸,企業(yè)該如何進(jìn)行自救和發(fā)展呢?
問題的答案其實(shí)早就在市場的初期就開始有了,即數(shù)據(jù)之路。
何為數(shù)據(jù)之路?即將公司的一切運(yùn)營數(shù)字化,以數(shù)字化的形態(tài)構(gòu)建企業(yè)數(shù)字化平臺,并通過Pass或Sass服務(wù)的形式進(jìn)行企業(yè)的數(shù)據(jù)共享以及企業(yè)數(shù)字化方案商業(yè)化。
那么如何做到企業(yè)的數(shù)字化管理和企業(yè)數(shù)字化平臺搭建呢?
首先需要做的就是,企業(yè)內(nèi)外部運(yùn)營的數(shù)字化,即業(yè)務(wù)數(shù)字化,績效數(shù)字化等等,這就意味著企業(yè)需要以數(shù)字化的方式重組企業(yè)的一切流程。
那么如何做到數(shù)字化呢?或是說數(shù)字化到底包括哪些數(shù)據(jù)類型呢?數(shù)字化如何進(jìn)行采集以及存儲的呢?
對于企業(yè)數(shù)據(jù),一般包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù),一般來自業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化流程。半結(jié)構(gòu)化數(shù)據(jù)一般指的是企業(yè)的日常流水?dāng)?shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等等,非結(jié)構(gòu)化數(shù)據(jù)一般指的是企業(yè)各種軟硬件系統(tǒng)的日志數(shù)據(jù)和文件數(shù)據(jù)。
來自業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化通過結(jié)構(gòu)化的服務(wù)器采集到Hive數(shù)據(jù)庫。
來自企業(yè)的半結(jié)構(gòu)化數(shù)據(jù)一般分為兩種,一種是可以解析成json/xml的結(jié)構(gòu)化數(shù)據(jù),另一種是圖片或是視頻等非結(jié)構(gòu)化數(shù)據(jù)。此時(shí)結(jié)構(gòu)化的數(shù)據(jù)通過解析存儲到Hive數(shù)據(jù)庫,而不能被解析的數(shù)據(jù)則通過http采集器傳送到elastastic里。
來自企業(yè)的日志數(shù)據(jù)通過日志采集服務(wù)器,一部分被解析到elastastic里,一部分不能被解析,被存儲到 hdfs里。
來自企業(yè)的文件數(shù)據(jù)則通過本地文件采集服務(wù)器直接傳送到hdfs里,通過標(biāo)簽的方式進(jìn)行檢索。
其具體的過程如下圖:

然而,完成了數(shù)據(jù)的采集和存儲只是完成企業(yè)大數(shù)據(jù)平臺的第一步,后期我會接著講企業(yè)數(shù)字化系列的其他內(nèi)容。