簡(jiǎn)單分布式爬蟲——第一彈:了解分布式爬蟲結(jié)構(gòu)

學(xué)習(xí)爬蟲有段時(shí)間了,期間爬過微博、糗事百科、網(wǎng)易云音樂、豆瓣等大大小小的網(wǎng)站,對(duì)爬蟲也算窺其門徑。不論所爬網(wǎng)站是何種類,爬蟲的套路無非幾步:目標(biāo)網(wǎng)站分析、反爬策略研究、設(shè)計(jì)爬蟲、代碼實(shí)現(xiàn)、優(yōu)化。不過一直以來,都是一個(gè).py文件擼到底,并沒有考慮性能效率什么的(對(duì)效率性能有要求直接上scrapy、pyspider),然而作為一個(gè)合格的spider,要不會(huì)分布式爬蟲那真是笑死人了,所以本博客特開一系列博文學(xué)習(xí)分布式爬蟲。

什么是分布式爬蟲?日常用過搜索引擎Google、百度等吧,其實(shí)這些搜索引擎都是爬蟲,負(fù)責(zé)從世界各地的網(wǎng)站上爬取內(nèi)容,當(dāng)你搜索關(guān)鍵詞時(shí)就把相關(guān)的內(nèi)容展示給你,只不過他們那都是炒雞大的爬蟲,爬的內(nèi)容量也超乎想象,然額,這么大的爬蟲工作交給一臺(tái)服務(wù)器去完成,即使服務(wù)器性能再好怕是也忙不過來,那怎么辦?當(dāng)然是上分布式啊,一臺(tái)服務(wù)器不行,我來100臺(tái),什么?100臺(tái)也不夠?說吧,需要多少臺(tái)!所以當(dāng)有了一大堆服務(wù)器的時(shí)候,你就可以用他們協(xié)同來完成爬取工作了,世界上網(wǎng)頁再多也架不住你成千上萬臺(tái)服務(wù)器去爬啊,那么,這里提到的"協(xié)同"其實(shí)就是用到了分布式的概念:我這么多分布在各地的服務(wù)器都是為了完成爬蟲工作,彼此得通力協(xié)作才行啊,于是就有了分布式爬蟲。

分布式爬蟲形色多樣,無論是我們這次準(zhǔn)備徒手?jǐn)]的簡(jiǎn)單爬蟲還是成熟的爬蟲框架scrapy、pyspider亦或是Google百度之類的公司專用爬蟲,其基本結(jié)構(gòu)都是差不多的。我們就以簡(jiǎn)單的主從分布式爬蟲講起。所謂主從模式,就是由一臺(tái)服務(wù)器充當(dāng)master,若干臺(tái)服務(wù)器充當(dāng)slave,master負(fù)責(zé)管理所有連接上來的slave,包括管理slave連接、任務(wù)調(diào)度與分發(fā)、結(jié)果回收并匯總等;每個(gè)slave只需要從master那里領(lǐng)取任務(wù)并獨(dú)自完成任務(wù)最后上傳結(jié)果即可,期間不需要與其他slave進(jìn)行交流。這種方式簡(jiǎn)單易于管理,但是很明顯master需要與所有slave進(jìn)行交流,那么master的性能就成了制約整個(gè)系統(tǒng)的瓶頸,特別是當(dāng)連接上的slave數(shù)量龐大的時(shí)候,很容易導(dǎo)致整個(gè)爬蟲系統(tǒng)性能下降。不過這不影響我們的學(xué)習(xí),下面對(duì)主從分布式爬蟲結(jié)構(gòu)進(jìn)行講解。

先上一張圖:
主從分布式爬蟲結(jié)構(gòu)圖

這是經(jīng)典的主從分布式爬蟲結(jié)構(gòu)圖,圖中的控制節(jié)點(diǎn)ControlNode就是上面提到的master,爬蟲節(jié)點(diǎn)SpiderNode就是上面提到的slave。下面這張圖展示了爬蟲節(jié)點(diǎn)slave的執(zhí)行任務(wù)示意圖

控制節(jié)點(diǎn)執(zhí)行流程圖

這兩張圖很明了地介紹了整個(gè)爬蟲框架,我們?cè)谶@里梳理一下:
1、整個(gè)分布式爬蟲系統(tǒng)由兩部分組成:master控制節(jié)點(diǎn)和slave爬蟲節(jié)點(diǎn)
2、master控制節(jié)點(diǎn)負(fù)責(zé):slave節(jié)點(diǎn)任務(wù)調(diào)度、url管理、結(jié)果處理
3、slave爬蟲節(jié)點(diǎn)負(fù)責(zé):本節(jié)點(diǎn)爬蟲調(diào)度、HTML下載管理、HTML內(nèi)容解析管理
4、系統(tǒng)工作流程:master將任務(wù)(未爬取的url)分發(fā)下去,slave通過master的URL管理器領(lǐng)取任務(wù)(url)并獨(dú)自完成對(duì)應(yīng)任務(wù)(url)的HTML內(nèi)容下載、內(nèi)容解析,解析出來的內(nèi)容包含目標(biāo)數(shù)據(jù)和新的url,這個(gè)工作完成后slave將結(jié)果(目標(biāo)數(shù)據(jù)+新url)提交給master的數(shù)據(jù)提取進(jìn)程(屬于master的結(jié)果處理),該進(jìn)程完成兩個(gè)任務(wù):提取出新的url交于url管理器、提取目標(biāo)數(shù)據(jù)交于數(shù)據(jù)存儲(chǔ)進(jìn)程,master的url管理進(jìn)程收到url后進(jìn)行驗(yàn)證(是否已爬取過)并處理(未爬取的添加進(jìn)待爬url集合,爬過的添加進(jìn)已爬url集合),然后slave循環(huán)從url管理器獲取任務(wù)、執(zhí)行任務(wù)、提交結(jié)果......

好了,以上就是簡(jiǎn)單分布式爬蟲整體結(jié)構(gòu),是不是很簡(jiǎn)單。
下一講:打造屬于我們自己的爬蟲master

參考資料:《Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容