首先我們要學(xué)習(xí)Python語言和Linux操作系統(tǒng),這兩個(gè)是學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ),學(xué)習(xí)的順序不分前后。
Python:Python 的排名從去年開始就借助人工智能持續(xù)上升,現(xiàn)在它已經(jīng)成為了語言排行第一名。
從學(xué)習(xí)難易度來看,作為一個(gè)為“優(yōu)雅”而生的語言,Python語法簡捷而清晰,對底層做了很好的封裝,是一種很容易上手的高級語言。在一些習(xí)慣于底層程序開發(fā)的“硬核”程序員眼里,Python簡直就是一種“偽代碼”。
在大數(shù)據(jù)和數(shù)據(jù)科學(xué)領(lǐng)域,Python幾乎是萬能的,任何集群架構(gòu)軟件都支持Python,Python也有很豐富的數(shù)據(jù)科學(xué)庫,所以Python不得不學(xué)。
Linux:因?yàn)榇髷?shù)據(jù)相關(guān)軟件都是在Linux上運(yùn)行的,所以Linux要學(xué)習(xí)的扎實(shí)一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會(huì)有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運(yùn)行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,能少踩很多坑,學(xué)會(huì)shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
好說完基礎(chǔ)了,再說說還需要學(xué)習(xí)哪些大數(shù)據(jù)技術(shù),可以按我寫的順序?qū)W下去。
Hadoop:這是現(xiàn)在流行的大數(shù)據(jù)處理平臺(tái)幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個(gè)是必學(xué)的。
Hadoop里面包括幾個(gè)組件HDFS、MapReduce和YARN,HDFS是存儲(chǔ)數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲(chǔ)在這個(gè)上面,MapReduce是對數(shù)據(jù)進(jìn)行處理計(jì)算的,它有個(gè)特點(diǎn)就是不管多大的數(shù)據(jù)只要給它時(shí)間它就能把數(shù)據(jù)跑完,但是時(shí)間可能不是很快所以它叫數(shù)據(jù)的批處理。
YARN是體現(xiàn)Hadoop平臺(tái)概念的重要組件有了它大數(shù)據(jù)生態(tài)體系的其它軟件就能在hadoop上運(yùn)行了,這樣就能更好的利用HDFS大存儲(chǔ)的優(yōu)勢和節(jié)省更多的資源比如我們就不用再單獨(dú)建一個(gè)spark的集群了,讓它直接跑在現(xiàn)有的hadoop yarn上面就可以了。
其實(shí)把Hadoop的這些組件學(xué)明白你就能做大數(shù)據(jù)的處理了,只不過你現(xiàn)在還可能對”大數(shù)據(jù)”到底有多大還沒有個(gè)太清楚的概念,聽我的別糾結(jié)這個(gè)。
等以后你工作了就會(huì)有很多場景遇到幾十T/幾百T大規(guī)模的數(shù)據(jù),到時(shí)候你就不會(huì)覺得數(shù)據(jù)大真好,越大越有你頭疼的。
當(dāng)然別怕處理這么大規(guī)模的數(shù)據(jù),因?yàn)檫@是你的價(jià)值所在,讓那些個(gè)搞Javaee的php的html5的和DBA的羨慕去吧。
第一階段學(xué)習(xí)結(jié)束,掌握上述知識(shí),就可以從事大數(shù)據(jù)方面的工作了。
ps:大家需要相關(guān)學(xué)習(xí)資料的大數(shù)據(jù),java高級,java面試,Python的學(xué)習(xí)資料可以加我扣扣3300863615免費(fèi)領(lǐng)取。
Zookeeper:這是個(gè)萬金油,安裝Hadoop的HA的時(shí)候就會(huì)用到它,以后的Hbase也會(huì)用到它。
它一般用來存放一些相互協(xié)作的信息,這些信息比較小一般不會(huì)超過1M,都是使用它的軟件對它有依賴,對于我們個(gè)人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學(xué)習(xí)完大數(shù)據(jù)的處理了,接下來學(xué)習(xí)學(xué)習(xí)小數(shù)據(jù)的處理工具mysql數(shù)據(jù)庫,因?yàn)橐粫?huì)裝hive的時(shí)候要用到,mysql需要掌握到什么層度那?
你能在Linux上把它安裝好,運(yùn)行起來,會(huì)配置簡單的權(quán)限,修改root的密碼,創(chuàng)建數(shù)據(jù)庫。
這里主要的是學(xué)習(xí)SQL的語法,因?yàn)閔ive的語法和這個(gè)非常相似。
Sqoop:這個(gè)是用于把Mysql里的數(shù)據(jù)導(dǎo)入到Hadoop里的。
當(dāng)然你也可以不用這個(gè),直接把Mysql數(shù)據(jù)表導(dǎo)出成文件再放到HDFS上也是一樣的,當(dāng)然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。
Hive:這個(gè)東西對于會(huì)SQL語法的來說就是神器,它能讓你處理大數(shù)據(jù)變的很簡單,不會(huì)再費(fèi)勁的編寫MapReduce程序。
有的人說Pig那?它和Pig差不多掌握一個(gè)就可以了。
Oozie:既然學(xué)會(huì)Hive了,我相信你一定需要這個(gè)東西,它可以幫你管理你的Hive或者M(jìn)apReduce、Spark腳本,還能檢查你的程序是否執(zhí)行正確,出錯(cuò)了給你發(fā)報(bào)警并能幫你重試程序,最重要的是還能幫你配置任務(wù)的依賴關(guān)系。
我相信你一定會(huì)喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
第二階段學(xué)習(xí)結(jié)束,如果能全部掌握,你就是專業(yè)的大數(shù)據(jù)開發(fā)工程師了。
后續(xù)提高:大數(shù)據(jù)結(jié)合人工智能達(dá)到真正的數(shù)據(jù)科學(xué)家,打通了數(shù)據(jù)科學(xué)的任督二脈,在公司是技術(shù)專家級別,這時(shí)候月薪再次翻倍且成為公司核心骨干。
機(jī)器學(xué)習(xí)(Machine Learning, ML):是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。機(jī)器學(xué)習(xí)的算法基本比較固定了,學(xué)習(xí)起來相對容易。(ps:大家需要相關(guān)學(xué)習(xí)資料的大數(shù)據(jù),java高級,java面試,Python的學(xué)習(xí)資料可以加我扣扣3300863615免費(fèi)領(lǐng)取。)
深度學(xué)習(xí)(Deep Learning, DL):深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,最近幾年發(fā)展迅猛。深度學(xué)習(xí)應(yīng)用的實(shí)例有AlphaGo、人臉識(shí)別、圖像檢測等。是國內(nèi)外稀缺人才,但是深度學(xué)習(xí)相對比較難,算法更新也比較快,需要跟隨有經(jīng)驗(yàn)的老師學(xué)習(xí)。
第三階段是理想狀態(tài),算是終極目標(biāo)吧。畢竟技術(shù)一直在進(jìn)步,誰也無法預(yù)測大數(shù)據(jù)以后的發(fā)展。
希望大家多關(guān)注,更多精彩的文章后續(xù)帶給大家,祝大家有個(gè)愉快的周末!需要更多學(xué)習(xí)資料的可以加我QQ{:3300863615免費(fèi)領(lǐng)取
