「大數(shù)據(jù)」這個概念從2012年開始被廣泛傳播,尤其是近兩年,各大公司,不僅僅是互聯(lián)網(wǎng)公司,都在談?wù)撍!复髷?shù)據(jù)」的火,不僅體現(xiàn)在各種會議、文章或者報道上,更真真切切的表現(xiàn)在各個公司的招聘列表上,近幾年對數(shù)據(jù)相關(guān)人才的招聘需求是越來越多。我想,隨著AI技術(shù)再次被高度關(guān)注,數(shù)據(jù)技術(shù)人才的需求還會繼續(xù)擴大。
各大公司有哪些數(shù)據(jù)相關(guān)的崗位?
從國內(nèi)互聯(lián)網(wǎng)公司的招聘崗位來看,大多跟數(shù)據(jù)分析、數(shù)據(jù)挖掘相關(guān),如BAT幾家公司的招聘崗位有:高級數(shù)據(jù)分析工程師、風(fēng)險數(shù)據(jù)挖掘工程師、機器學(xué)習(xí)工程師、BI工程師、數(shù)據(jù)算法專家等等。除了這些,跟數(shù)據(jù)相關(guān)的崗位還有數(shù)據(jù)庫工程師、數(shù)據(jù)產(chǎn)品經(jīng)理。
而國外,主要是美國的IT公司,對數(shù)據(jù)技術(shù)崗位的分類可能會更細致精確些,如美國幾大互聯(lián)網(wǎng)公司招聘的數(shù)據(jù)技術(shù)崗位有:Data Analyst、Data Engineer、Data Scientist、Data Architect、Data Mining Scientist、Computer Vision Engineer等,甚至還會有Data Arts Engineer這樣的崗位。
對比國內(nèi)外幾大互聯(lián)網(wǎng),我個人最喜歡Apple,從其對數(shù)據(jù)崗位的設(shè)置,可以看出對數(shù)據(jù)人才的重視。其招聘的數(shù)據(jù)人才不僅包括數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家,還有數(shù)據(jù)產(chǎn)品經(jīng)理和數(shù)據(jù)藝術(shù)工程師。
數(shù)據(jù)技術(shù)崗位的工作內(nèi)容是什么?
不同崗位雖然其具體職責(zé)不盡相同,但總結(jié)的來看,會有一些共性的東西。數(shù)據(jù)技術(shù)相關(guān)的崗位,往往都需要工程師基于對業(yè)務(wù)的理解,來進行數(shù)據(jù)的分析和建模,并將結(jié)果應(yīng)用到產(chǎn)品、業(yè)務(wù)或服務(wù)中,包括指導(dǎo)產(chǎn)品發(fā)展方向、發(fā)現(xiàn)業(yè)務(wù)風(fēng)險、優(yōu)化系統(tǒng)服務(wù)質(zhì)量等等,也就是我們常說的「數(shù)據(jù)驅(qū)動」實踐。
舉個例子,下面是某風(fēng)險數(shù)據(jù)挖掘工程師的工作職責(zé):
- 負責(zé)深度學(xué)習(xí)、文本理解、機器學(xué)習(xí)等前沿技術(shù)的研發(fā)、儲備和平臺建設(shè);
- 負責(zé)使用深度學(xué)習(xí)算法進行特征挖掘,文本分類,文本理解;
- 能將挖掘出的特征應(yīng)用于風(fēng)險畫像和風(fēng)險識別并負責(zé)產(chǎn)品化落地。
可以看出,這個崗位需要工程師應(yīng)用數(shù)據(jù)技術(shù),對用戶進行畫像,識別其中的風(fēng)險用戶,并指導(dǎo)風(fēng)險產(chǎn)品化的實施,也就是通過數(shù)據(jù)來驅(qū)動用戶風(fēng)險的發(fā)現(xiàn),驅(qū)動風(fēng)險產(chǎn)品的實施。
數(shù)據(jù)技術(shù)崗位的能力要求是什么?
數(shù)據(jù)技術(shù)崗位往往需要工程師對數(shù)據(jù)敏感,具備基本的數(shù)據(jù)分析能力,能夠熟練使用常用的數(shù)據(jù)工具,甚至還需要熟悉各種數(shù)據(jù)挖掘相關(guān)的算法和理論。不僅要求有對數(shù)據(jù)的理解和駕馭能力,同時也需要有很高的數(shù)據(jù)應(yīng)用、用數(shù)據(jù)解決問題的能力。
前文提到的風(fēng)險數(shù)據(jù)挖掘工程師的能力要求如下:
- 極佳的工程實現(xiàn)能力,精通C/C++、Matlab、Python等至少一門語言;
- 會使用Spark進行深度學(xué)習(xí)研究,會使用TensorFlow尤佳;
- 熱愛數(shù)據(jù),并且有扎實的機器學(xué)習(xí)算法基本功和看穿問題本質(zhì)的洞察力;
- 對新技術(shù)充滿好奇心,愛挑戰(zhàn)高難度,善于提出idea并能快速動手驗證。
數(shù)據(jù)技術(shù)是一門綜合性很強的技術(shù)崗位,對個人的素質(zhì)要求很高,想要在這方面學(xué)有所長,需要掌握和沉淀的東西很多:
1、在數(shù)據(jù)理解方面,需要具備基本的數(shù)據(jù)相關(guān)理論知識,而跟數(shù)據(jù)技術(shù)比較強相關(guān)的理論知識主要包括統(tǒng)計學(xué)、概率論等學(xué)科。
2、在編程工具方面,雖然目前做數(shù)據(jù)處理的編程語言可能更多是Python或者R,但絕大數(shù)崗位對此都不會有強限制,只要精通Python、C/C++、Java中的任一種即可。而在數(shù)據(jù)的提取方面,還可能還會涉及到使用SQL、Hive、Pig等工具。
3、數(shù)據(jù)建模方面,需要熟悉各種數(shù)據(jù)挖掘、機器學(xué)習(xí)的算法,比如各種分類和聚類的算法。雖然很多數(shù)據(jù)算法都比較老,但仍有很多新的概念和應(yīng)用在不斷被推出來。比如近期很火的深度學(xué)習(xí),其概念源自人工神經(jīng)網(wǎng)絡(luò),而后者早在20世紀80年代就開始研究了。
4、數(shù)據(jù)技術(shù)人員往往還需要制作數(shù)據(jù)分析報告,生成可視化的數(shù)據(jù)報表,而常用的數(shù)據(jù)報告/可視化工具,包括Excel、Pentoho、Tableau等,后兩者在國外互聯(lián)網(wǎng)公司出現(xiàn)的頻率會更高。
5、在大數(shù)據(jù)時代的今天,出現(xiàn)了很多大數(shù)據(jù)存儲、處理和分析的相關(guān)框架和工具,比如Hadoop、Spark、Kafka、Storm、TensorFlow等等,如果對這些工具不熟悉的話,將很難跟得上數(shù)據(jù)技術(shù)的潮流。
不同的崗位對個人的要求側(cè)重點會不太一樣,但僅看到上面簡單的總結(jié),就知道,入數(shù)據(jù)技術(shù)的門容易,但要真正做到精通,有很長的路要走。所謂數(shù)據(jù)之路漫漫,吾將上下而求索,與所有數(shù)據(jù)愛好君共勉。:)
(全文完)