文章來(lái)源于中國(guó)統(tǒng)計(jì)網(wǎng),侵刪。
大數(shù)據(jù)開(kāi)發(fā)工程師、BI工程師、數(shù)據(jù)倉(cāng)庫(kù)工程師、ETL工程師、有什么區(qū)別?都要做什么工作?哪個(gè)功能最強(qiáng)大?
今天我們來(lái)看一位大神如何解釋!
1. BI商務(wù)智能
BI工程師即為從事商務(wù)智能行業(yè)的工程師(庫(kù)學(xué)科技的培養(yǎng)方向)。從需求分析師到數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師、到etl工程師、數(shù)據(jù)分析,報(bào)表開(kāi)發(fā)工程師、數(shù)據(jù)挖掘工程師、etc.,都可以稱之為BI工程師。
2. etl工程師
是從事系統(tǒng)編程、數(shù)據(jù)庫(kù)編程與設(shè)計(jì),要掌握各種常用的編程語(yǔ)言的專業(yè)技術(shù)人員。也叫數(shù)據(jù)庫(kù)工程師(在庫(kù)學(xué)科技可學(xué))。
一味的解釋數(shù)據(jù)倉(cāng)庫(kù)概念可能沒(méi)意思,我們從不同角色出發(fā)吧!
老板:我是一家手機(jī)公司的老板,今天要向去董事局匯報(bào),我要準(zhǔn)備一份介紹過(guò)去三年的用戶增長(zhǎng)、用戶留存、用戶活躍度、手機(jī)里面每個(gè)APP使用率等情況的報(bào)表,假如下面沒(méi)有BI,那我肯定就蒙了……
BI:我是一名非技術(shù)BI,我天天看競(jìng)品的分析報(bào)告,看雙十一銷量,看各種評(píng)論,知道自己的產(chǎn)品有哪些短板有哪些長(zhǎng)處,我分析南北地域差異,國(guó)內(nèi)外客戶喜好,總之我在手機(jī)領(lǐng)域有著很強(qiáng)的行業(yè)解讀能力和數(shù)據(jù)解讀能力,我可以畫出非常漂亮的圖表和PPT。今天老板讓我出一份報(bào)表,我還要去刷臉找ETL工程師幫我跑出這次報(bào)告的數(shù)據(jù),基于這份數(shù)據(jù)我要給出一定的解讀,為啥這個(gè)月手機(jī)賣得不如上個(gè)月,為啥用戶流失越來(lái)越嚴(yán)重等等都是我要去做的。
ETL工程師 : 我是食物鏈最底層的苦逼ETL工程師,我會(huì)寫shell、我會(huì)搭hadoop/hive/hbase、會(huì)寫超復(fù)雜邏輯的SQL,今天那個(gè)不會(huì)自己計(jì)算數(shù)據(jù)的BI又讓我跑幾個(gè)數(shù)據(jù),我本想讓她提需求流程的,但她說(shuō)這是老板要的(運(yùn)營(yíng)慣用的殺手锏!?。?,要加急處理,我只能放下手頭的活兒給她跑數(shù)據(jù)了,花了半個(gè)小時(shí)把數(shù)據(jù)跑好給她,希望能就這么交差吧。
大數(shù)據(jù)工程師,就是我們所知的大數(shù)據(jù)開(kāi)發(fā)工程師【來(lái)庫(kù)學(xué)科技學(xué)習(xí)】,主要從事大數(shù)據(jù)平臺(tái)的搭建,對(duì)個(gè)人技術(shù)要求偏高,需要從業(yè)者具備java基礎(chǔ)(庫(kù)學(xué)科技也可以學(xué)習(xí)),還得具備以下技術(shù)能力,hadoop、hive、hase、flume、storm、kafka、spark等,是一個(gè)非常龐大的技術(shù)集群。
如果你以為我每天就做這點(diǎn)事那你就錯(cuò)了,我平時(shí)的工作可不僅僅就是完成上面交給我的任務(wù)哦,我還負(fù)責(zé)數(shù)據(jù)ETL過(guò)程、數(shù)據(jù)建模、定時(shí)任務(wù)的分配、甚至有時(shí)Hadoop集群的維護(hù)等等都得我去做,每件事單獨(dú)拿出來(lái)都可以拿出來(lái)寫本書。
就拿ETL過(guò)程來(lái)說(shuō)吧,你要把原始數(shù)據(jù)從各種數(shù)據(jù)庫(kù)、各種服務(wù)器的不同業(yè)務(wù)日志歸一化到同一類格式,要約定好分隔符,然后導(dǎo)入到分布式文件系統(tǒng)HDFS,甚至你還要和業(yè)務(wù)系統(tǒng)定義數(shù)據(jù)格式出規(guī)范,數(shù)據(jù)收集完,你還得出中間表,數(shù)據(jù)過(guò)濾,格式統(tǒng)一,ID統(tǒng)一,維度統(tǒng)一,通過(guò)不同的數(shù)據(jù)現(xiàn)象進(jìn)行數(shù)據(jù),完了,你就得出一些日?qǐng)?bào)周報(bào)之類的數(shù)據(jù)了,這時(shí)候你要按照需求把數(shù)據(jù)組織成一定的格式然后導(dǎo)Mysql、或者HBASE等等。
總之你就是需要把數(shù)據(jù)各種收集、各種處理、然后各種導(dǎo)入導(dǎo)出,是不是很有意思?這些你都可以在庫(kù)學(xué)科技學(xué)會(huì)。
不過(guò)這些數(shù)據(jù)倉(cāng)庫(kù)都非常初級(jí),其中ETL工程師可發(fā)揮的空間太多了!
正常情況下,老板→BI→ETL出一份報(bào)告,這中間能否BI直接去計(jì)算數(shù)據(jù)?SQL太復(fù)雜,那么可不可以一切數(shù)據(jù)標(biāo)簽化,BI甚至老板要什么就選什么?
ETL工程師可以把數(shù)據(jù)收集自動(dòng)化、可以規(guī)范業(yè)務(wù)日志格式、可以將一切都配置化,但是這些都是基于N+1的,也就是說(shuō)今天的發(fā)生了什么一定要到明天才能看到,那么有沒(méi)有一個(gè)系統(tǒng)能把數(shù)據(jù)分析做到實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)?參考雙十一大屏,馬總要是到12號(hào)才能知道成交了多少筆不劈了那幫做數(shù)據(jù)的才怪。
目前絕大部分分析系統(tǒng)都基于離線計(jì)算(HADOOP/ODPS),那這里有個(gè)問(wèn)題了,運(yùn)營(yíng)或BI想看個(gè)數(shù)據(jù)還得你離線慢騰騰跑完才能看到,那么有沒(méi)有一個(gè)系統(tǒng)可以支持你再大的數(shù)據(jù)量,再?gòu)?fù)雜的邏輯,毫秒出數(shù)據(jù)?
我沒(méi)有提到的還有算法工程師、大數(shù)據(jù)運(yùn)維工程師等等。
數(shù)據(jù)倉(cāng)庫(kù)的概念很廣很大,但在大數(shù)據(jù)應(yīng)用面前也不值一提。
如果把數(shù)據(jù)價(jià)值分層,這里分層的辦法很多,我只列舉一種方法,有人分過(guò)5層:
第一層: ****為老板提供決策支持,例如傳統(tǒng)的財(cái)務(wù)報(bào)表
第二層: ****為運(yùn)營(yíng)提供決策支持,例如數(shù)據(jù)化非常徹底的淘寶運(yùn)營(yíng)們
第三層: ****為產(chǎn)品提供支持,例如有產(chǎn)品經(jīng)理們會(huì)拿著報(bào)表天天看研究自己的某一個(gè)按鈕擺放位置對(duì)不對(duì)
第四層:****數(shù)據(jù)用于生產(chǎn),比如直接對(duì)接廣告系統(tǒng)產(chǎn)生收益,比如直接對(duì)接推薦系統(tǒng)為用戶推薦商品,實(shí)現(xiàn)千人千面,再比如利用手機(jī)APP直接為不同用戶push消息
第五層:****大數(shù)據(jù)交換,數(shù)據(jù)產(chǎn)生直接受益
大部分公司能做到前兩個(gè)層次就已經(jīng)很不錯(cuò)了,如果能做到第三層,就已經(jīng)很厲害,做到第四第五層次,國(guó)內(nèi)互聯(lián)網(wǎng)公司不超過(guò)2家,大數(shù)據(jù)應(yīng)用太大了,不知從何說(shuō)起,以后的文章再聊聊。
有人提到數(shù)據(jù)交換的理念,數(shù)據(jù)交換不是簡(jiǎn)單的我給你一點(diǎn),你給我一點(diǎn);也不是我給你錢,你給我點(diǎn)數(shù)據(jù)。
原因是這些模式基本走不通。
1. 數(shù)據(jù)很難定價(jià)
無(wú)法簡(jiǎn)單的將數(shù)據(jù)定義為商品,數(shù)據(jù)供給方也無(wú)法去衡量一份數(shù)據(jù)能產(chǎn)生多大的價(jià)值,只有在具體的應(yīng)用場(chǎng)景中才能大概估計(jì)它的價(jià)值,因此幾乎沒(méi)有一種簡(jiǎn)單公平的機(jī)制去為交易雙反指定交易規(guī)則。
2. 數(shù)據(jù)拷貝成本幾乎沒(méi)有
如果是一部iPhone,如果想要造出一模一樣的一部iPhone成本奇高,所以蘋果公司可以放心大膽的把手機(jī)賣給你而不怕你仿制,但是數(shù)據(jù)不行,因?yàn)?strong>數(shù)據(jù)幾乎沒(méi)有拷貝成本。
那么帶來(lái)一個(gè)問(wèn)題,如果我把這份數(shù)據(jù)一百萬(wàn)賣給你,我?guī)缀醭恕耗愕恼\(chéng)信』之外沒(méi)有任何方法去限制你不把數(shù)據(jù)折價(jià)買個(gè)其它更多第三方,那這份數(shù)據(jù)的市場(chǎng)價(jià)值很快蕩然無(wú)存。
3. 隱私
商業(yè)有很多隱私規(guī)則,用戶也有很多隱私,這些都是不能簡(jiǎn)單的通過(guò)拷貝的去交換的,如果給對(duì)方一份數(shù)據(jù),例如:用戶的在某APP的瀏覽行為,那么如果被第三方運(yùn)用在電話騷擾,廣告彈窗之類的場(chǎng)景中,肯定是不行的。
所以****數(shù)據(jù)的交易一定不是通過(guò)價(jià)格衡量,也不能簡(jiǎn)單的數(shù)據(jù)拷貝。
數(shù)據(jù)交換最理想的方式應(yīng)該是:雙方共同拿出一些東西,然后服務(wù)于某個(gè)場(chǎng)景,而數(shù)據(jù)導(dǎo)出等行為都是被禁止的,雙方不能看到對(duì)方的數(shù)據(jù)也不能導(dǎo)出對(duì)方的數(shù)據(jù),可被導(dǎo)出的結(jié)果一定是無(wú)害、不侵犯隱私的、不對(duì)原數(shù)據(jù)價(jià)值產(chǎn)生影響的東西。
而這樣一種數(shù)據(jù)交換的方式卻需要非常大的體系建設(shè),平臺(tái)建設(shè),制度建設(shè)。
這樣的體系和平臺(tái),需要長(zhǎng)時(shí)間的摸索和市場(chǎng)培育,數(shù)據(jù)人任重而道遠(yuǎn)。
End.
作者:yoku醬
來(lái)源:簡(jiǎn)書本文為轉(zhuǎn)載分享,如有侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪除
“庫(kù)學(xué)科技成立于2009年,是一家綜合性的互聯(lián)網(wǎng)公司,公司總部在北京大興區(qū),公司的主要業(yè)務(wù)涉互聯(lián)網(wǎng)軟件開(kāi)發(fā),數(shù)據(jù)庫(kù)、人工智能、新媒體運(yùn)營(yíng)等領(lǐng)域,主要是為國(guó)內(nèi)的中大型互聯(lián)網(wǎng)公司,提供技術(shù)人員的定向入職輸送,與國(guó)內(nèi)大型企業(yè)做聯(lián)合定崗招聘,與崗位需求相結(jié)合通過(guò)短期實(shí)訓(xùn)達(dá)到企業(yè)崗位要求的合格的工程師?!?/p>