087-BigData-15Hadoop階段小結(jié)

上一篇:086-BigData-14MapReduce實戰(zhàn)

一、概述

學習只是知道,而使用才是學會。

這是一個實踐性很強的內(nèi)容,理論再好很有可能是空中樓閣,實踐起來完全不會?;蛘哂龅絾栴}完全無法解決。

理論學起來快,但也忘得快。實踐寫代碼才是真正費時的。

二、應(yīng)該實踐內(nèi)容

1、軟件安裝,裝多了就有種一通百通的感覺。再加上收集一些軟件安裝包。源頭也解決了就沒啥大問題了。

image.png

2、能裝VMWare虛擬機,能裝Linux操作系統(tǒng),起碼得照著資料裝幾臺,然后再不看任何資料自己能裝好。

里面涉及到網(wǎng)卡配置,一些命令行使用,重啟網(wǎng)卡,配置路徑,重啟服務(wù),關(guān)閉防火墻等等。

不實踐基本等于不會。

3、Linux常用命令使用

這是個長期使用問題,起碼要熟悉大部分常用的命令。

其實,只是聽說命令行強大的話,完全沒有任何感覺,自己體會不到啊,所以學起來比學英語還難。

在工作中,遇到翻譯文件需要翻譯,打開excel,拷貝,寫進去,保存。word打開,拷貝,保存,檢查等等。而一個sed命令,就完美搞定。文件都不用打開就可以完成所有操作,而且執(zhí)行效率高的爽爆了。用cat查看內(nèi)容,要查找就grep,要修改就sed。完全接觸不到垃圾的辦公軟件,不用漫長的等待打開,不用操作超級卡的界面,不用怕意外經(jīng)常還得保存一下。所有一切,命令行能輕松搞定。只有真切體會到其中的厲害之處,才會愛上命令行,才會記得牢。

本人也是多個實際案例,現(xiàn)在已經(jīng)完全愛上命令行了,也比較深刻知道其強大的地方了。

手動拷貝或者刪除后綴.xx的文件? 用ls列出所有,然后find找到.xx或者grep都行,要cp或者delete都行。要遞歸還能加r。

長期有意識多用命令行,工作生活效率大大提高。

4、hadoop環(huán)境搭建

這個其實就是解壓安裝包出來。

但又涉及到環(huán)境配置,環(huán)境變量等一些問題不大但又需要知道的地方。

參考文章:078-BigData-06hadoop架構(gòu)及環(huán)境搭建

5、hadoop偽分布式和分布式

環(huán)境好了之后,必須得實踐的就是配一下分布式。

如果不熟悉可以先搞個簡單的偽分布式玩玩熟悉下。

然后再搞大于3臺的分布式。

最坑點莫過于各種配置了,各種xml配置文件里需要特定的配置,而內(nèi)容要背下來還真心容易,還怕犯錯。所以需要專門準備一個小本本記下來各種配置該怎么配。

參考文章:079-BigData-07hadoop偽分布式和分布式

6、maven的安裝和配置

這是打通開發(fā)環(huán)境和Linux的通道。也是開發(fā)hadoop所需。

本人試過win和mac,不難但還是有必要操作一下。

參考文章:080-BigData-08HDFS

7、HDFS上傳與下載

這算是正頭戲的第一餐了。

上傳,下載,查看,刪除都用命令行試試,再用代碼試試。第一餐。

參考文章:081-BigData-09HDFS上傳與下載

8、HDFS運行狀態(tài)下擴展集群

這個可以算工作中用得到的第一餐吧。環(huán)境搭建很難遇到完全沒有,需要我們?nèi)念^搞起的。但擴展集群,被我們遇到還需要操作的可能性就大多了。

這個實踐下,再順帶練練回收站,快照(又是各種xml配置惡心),掉線參數(shù)設(shè)置?集群間數(shù)據(jù)拷貝,歸檔,Hadoop HDFS 數(shù)據(jù)自動平衡等。一套真心走下來,還真是不易的。也需要較多時間。

參考文章:083-BigData-11HDFS目錄結(jié)構(gòu)

9、自己寫一個WordCount理解下MapReduce

這就是功能性第一餐了。

簡單功能實現(xiàn)后,還有一大波操作。

功能自定義分區(qū),序列化,模型建立等,太重要了,得放在大點寫。見下面。

參考理論文章:084-BigData-12MapReduce入門

10、真。實戰(zhàn)。倒序排序,二次排序,自定義分組,輔助排序。

遇到排序問題,可迅速參考。

11、壓縮和解壓縮。mapjoin,reducejoin。

選哪種壓縮,綜合考慮等。

作為優(yōu)化項,算是比較重要的一個優(yōu)化點。

12、倒排索引。多job串聯(lián)。

重要實戰(zhàn)。

13、找共同好友。

有意思的練習和實戰(zhàn)。

14、自定義InputFormat,把很多小文件合并成大sequence文件,用數(shù)據(jù)流形式。

難度開始起來了。

15、自定義OutPutFormat。過濾日志文件。自定義日志輸出路徑。

16、然后就是看看源碼,性能優(yōu)化了。做幾個工作項目。

17、搭建一下ZooKeeper環(huán)境及配置好。

18、再練一下秒殺。和搭建高可用。

下一篇:088-BigData-16ZooKeeper

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容