基于大數(shù)據(jù)電商平臺(tái)日志分析

一、項(xiàng)目介紹

本次實(shí)訓(xùn),要求使用Hadoop及其生態(tài)圈相關(guān)的組件來是實(shí)現(xiàn)企業(yè)級(jí)大數(shù)據(jù)開發(fā)的整套流程,即數(shù)據(jù)的采集部分會(huì)介紹兩種方式,一種介紹網(wǎng)絡(luò)爬蟲及其Java代碼實(shí)現(xiàn)步驟,另外一種是利用學(xué)生所掌握的spring MVC技術(shù)來構(gòu)建一個(gè)簡易的電商平臺(tái),采取壓測的方式模擬海量日志的產(chǎn)生,通過使用Nginx和Tomcat實(shí)現(xiàn)動(dòng)靜資源分開部署的方式,采取flume日志采集組件來實(shí)現(xiàn)日志的采集。

【大數(shù)據(jù)Hadoop開發(fā)】大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)-大型電商日志分享系統(tǒng)_嗶哩嗶哩_bilibili

相比網(wǎng)絡(luò)爬蟲,這部分是實(shí)訓(xùn)所推薦的一種數(shù)據(jù)采集方式,數(shù)據(jù)的存儲(chǔ)部分,將采用mysql和hdfs來分別存儲(chǔ)關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù),其中將會(huì)使用到sqoop組件作為mysql和hdfs之間的數(shù)據(jù)的轉(zhuǎn)換橋梁和通道,數(shù)據(jù)分析處理部分采用MapReduce程序?qū)崿F(xiàn)數(shù)據(jù)的清洗和分析,數(shù)據(jù)可視化部分,采用echarts圖表來展現(xiàn)。

最終的效果是 通過壓測產(chǎn)生電商系統(tǒng)日志、sqoop將分析后的結(jié)果導(dǎo)入到mysql中,spring MVC項(xiàng)目前端對(duì)分析結(jié)果進(jìn)行可視化,既展現(xiàn)商品的topN信息。

二、項(xiàng)目流程

項(xiàng)目工作準(zhǔn)備

1、虛擬機(jī)安裝

實(shí)訓(xùn)的項(xiàng)目主要是進(jìn)行大數(shù)據(jù)的實(shí)訓(xùn),所以需要安裝linux,使用VMware Workstation作為虛擬機(jī)安裝Linux系統(tǒng),

下載虛擬機(jī)

連接

密碼

創(chuàng)建虛擬機(jī)

2、遠(yuǎn)程登錄

Linux一般作為服務(wù)器使用,而服務(wù)器一般放在機(jī)房,你不可能在機(jī)房操作你的Linux服務(wù)器。這時(shí)我們就需要遠(yuǎn)程登錄到Linux服務(wù)器來管理維護(hù)系統(tǒng)。

Linux系統(tǒng)是通過SSH服務(wù)實(shí)現(xiàn)的遠(yuǎn)程登錄功能,默認(rèn)ssh服務(wù)端口號(hào)為22。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容