上一篇:086-BigData-14MapReduce實戰(zhàn)
一、概述
學習只是知道,而使用才是學會。
這是一個實踐性很強的內(nèi)容,理論再好很有可能是空中樓閣,實踐起來完全不會?;蛘哂龅絾栴}完全無法解決。
理論學起來快,但也忘得快。實踐寫代碼才是真正費時的。
二、應(yīng)該實踐內(nèi)容
1、軟件安裝,裝多了就有種一通百通的感覺。再加上收集一些軟件安裝包。源頭也解決了就沒啥大問題了。

2、能裝VMWare虛擬機,能裝Linux操作系統(tǒng),起碼得照著資料裝幾臺,然后再不看任何資料自己能裝好。
里面涉及到網(wǎng)卡配置,一些命令行使用,重啟網(wǎng)卡,配置路徑,重啟服務(wù),關(guān)閉防火墻等等。
不實踐基本等于不會。
3、Linux常用命令使用
這是個長期使用問題,起碼要熟悉大部分常用的命令。
其實,只是聽說命令行強大的話,完全沒有任何感覺,自己體會不到啊,所以學起來比學英語還難。
在工作中,遇到翻譯文件需要翻譯,打開excel,拷貝,寫進去,保存。word打開,拷貝,保存,檢查等等。而一個sed命令,就完美搞定。文件都不用打開就可以完成所有操作,而且執(zhí)行效率高的爽爆了。用cat查看內(nèi)容,要查找就grep,要修改就sed。完全接觸不到垃圾的辦公軟件,不用漫長的等待打開,不用操作超級卡的界面,不用怕意外經(jīng)常還得保存一下。所有一切,命令行能輕松搞定。只有真切體會到其中的厲害之處,才會愛上命令行,才會記得牢。
本人也是多個實際案例,現(xiàn)在已經(jīng)完全愛上命令行了,也比較深刻知道其強大的地方了。
手動拷貝或者刪除后綴.xx的文件? 用ls列出所有,然后find找到.xx或者grep都行,要cp或者delete都行。要遞歸還能加r。
長期有意識多用命令行,工作生活效率大大提高。
4、hadoop環(huán)境搭建
這個其實就是解壓安裝包出來。
但又涉及到環(huán)境配置,環(huán)境變量等一些問題不大但又需要知道的地方。
參考文章:078-BigData-06hadoop架構(gòu)及環(huán)境搭建
5、hadoop偽分布式和分布式
環(huán)境好了之后,必須得實踐的就是配一下分布式。
如果不熟悉可以先搞個簡單的偽分布式玩玩熟悉下。
然后再搞大于3臺的分布式。
最坑點莫過于各種配置了,各種xml配置文件里需要特定的配置,而內(nèi)容要背下來還真心容易,還怕犯錯。所以需要專門準備一個小本本記下來各種配置該怎么配。
參考文章:079-BigData-07hadoop偽分布式和分布式
6、maven的安裝和配置
這是打通開發(fā)環(huán)境和Linux的通道。也是開發(fā)hadoop所需。
本人試過win和mac,不難但還是有必要操作一下。
7、HDFS上傳與下載
這算是正頭戲的第一餐了。
上傳,下載,查看,刪除都用命令行試試,再用代碼試試。第一餐。
8、HDFS運行狀態(tài)下擴展集群
這個可以算工作中用得到的第一餐吧。環(huán)境搭建很難遇到完全沒有,需要我們?nèi)念^搞起的。但擴展集群,被我們遇到還需要操作的可能性就大多了。
這個實踐下,再順帶練練回收站,快照(又是各種xml配置惡心),掉線參數(shù)設(shè)置?集群間數(shù)據(jù)拷貝,歸檔,Hadoop HDFS 數(shù)據(jù)自動平衡等。一套真心走下來,還真是不易的。也需要較多時間。
參考文章:083-BigData-11HDFS目錄結(jié)構(gòu)
9、自己寫一個WordCount理解下MapReduce
這就是功能性第一餐了。
簡單功能實現(xiàn)后,還有一大波操作。
功能自定義分區(qū),序列化,模型建立等,太重要了,得放在大點寫。見下面。
參考理論文章:084-BigData-12MapReduce入門
10、真。實戰(zhàn)。倒序排序,二次排序,自定義分組,輔助排序。
遇到排序問題,可迅速參考。
11、壓縮和解壓縮。mapjoin,reducejoin。
選哪種壓縮,綜合考慮等。
作為優(yōu)化項,算是比較重要的一個優(yōu)化點。
12、倒排索引。多job串聯(lián)。
重要實戰(zhàn)。
13、找共同好友。
有意思的練習和實戰(zhàn)。
14、自定義InputFormat,把很多小文件合并成大sequence文件,用數(shù)據(jù)流形式。
難度開始起來了。
15、自定義OutPutFormat。過濾日志文件。自定義日志輸出路徑。
16、然后就是看看源碼,性能優(yōu)化了。做幾個工作項目。
17、搭建一下ZooKeeper環(huán)境及配置好。
18、再練一下秒殺。和搭建高可用。