一、項(xiàng)目介紹
本次實(shí)訓(xùn),要求使用Hadoop及其生態(tài)圈相關(guān)的組件來是實(shí)現(xiàn)企業(yè)級(jí)大數(shù)據(jù)開發(fā)的整套流程,即數(shù)據(jù)的采集部分會(huì)介紹兩種方式,一種介紹網(wǎng)絡(luò)爬蟲及其Java代碼實(shí)現(xiàn)步驟,另外一種是利用學(xué)生所掌握的spring MVC技術(shù)來構(gòu)建一個(gè)簡易的電商平臺(tái),采取壓測的方式模擬海量日志的產(chǎn)生,通過使用Nginx和Tomcat實(shí)現(xiàn)動(dòng)靜資源分開部署的方式,采取flume日志采集組件來實(shí)現(xiàn)日志的采集。
【大數(shù)據(jù)Hadoop開發(fā)】大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)-大型電商日志分享系統(tǒng)_嗶哩嗶哩_bilibili
相比網(wǎng)絡(luò)爬蟲,這部分是實(shí)訓(xùn)所推薦的一種數(shù)據(jù)采集方式,數(shù)據(jù)的存儲(chǔ)部分,將采用mysql和hdfs來分別存儲(chǔ)關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù),其中將會(huì)使用到sqoop組件作為mysql和hdfs之間的數(shù)據(jù)的轉(zhuǎn)換橋梁和通道,數(shù)據(jù)分析處理部分采用MapReduce程序?qū)崿F(xiàn)數(shù)據(jù)的清洗和分析,數(shù)據(jù)可視化部分,采用echarts圖表來展現(xiàn)。
最終的效果是 通過壓測產(chǎn)生電商系統(tǒng)日志、sqoop將分析后的結(jié)果導(dǎo)入到mysql中,spring MVC項(xiàng)目前端對(duì)分析結(jié)果進(jìn)行可視化,既展現(xiàn)商品的topN信息。
二、項(xiàng)目流程
項(xiàng)目工作準(zhǔn)備
1、虛擬機(jī)安裝
實(shí)訓(xùn)的項(xiàng)目主要是進(jìn)行大數(shù)據(jù)的實(shí)訓(xùn),所以需要安裝linux,使用VMware Workstation作為虛擬機(jī)安裝Linux系統(tǒng),
下載虛擬機(jī)
連接
密碼
創(chuàng)建虛擬機(jī)
2、遠(yuǎn)程登錄
Linux一般作為服務(wù)器使用,而服務(wù)器一般放在機(jī)房,你不可能在機(jī)房操作你的Linux服務(wù)器。這時(shí)我們就需要遠(yuǎn)程登錄到Linux服務(wù)器來管理維護(hù)系統(tǒng)。
Linux系統(tǒng)是通過SSH服務(wù)實(shí)現(xiàn)的遠(yuǎn)程登錄功能,默認(rèn)ssh服務(wù)端口號(hào)為22。