99久久最新视频,精品欧美成人区二区,在线播放国产一区

學(xué)習(xí)爬蟲有段時(shí)間了，期間爬過微博、糗事百科、網(wǎng)易云音樂、豆瓣等大大小小的網(wǎng)站，對(duì)爬蟲也算窺其門徑。不論所爬網(wǎng)站是何種類，爬蟲的套路無非幾步：目標(biāo)網(wǎng)站分析、反爬策略研究、設(shè)計(jì)爬蟲、代碼實(shí)現(xiàn)、優(yōu)化。不過一直以來，都是一個(gè).py文件擼到底，并沒有考慮性能效率什么的(對(duì)效率性能有要求直接上scrapy、pyspider)，然而作為一個(gè)合格的spider，要不會(huì)分布式爬蟲那真是笑死人了，所以本博客特開一系列博文學(xué)習(xí)分布式爬蟲。

什么是分布式爬蟲？日常用過搜索引擎Google、百度等吧，其實(shí)這些搜索引擎都是爬蟲，負(fù)責(zé)從世界各地的網(wǎng)站上爬取內(nèi)容，當(dāng)你搜索關(guān)鍵詞時(shí)就把相關(guān)的內(nèi)容展示給你，只不過他們那都是炒雞大的爬蟲，爬的內(nèi)容量也超乎想象，然額，這么大的爬蟲工作交給一臺(tái)服務(wù)器去完成，即使服務(wù)器性能再好怕是也忙不過來，那怎么辦？當(dāng)然是上分布式啊，一臺(tái)服務(wù)器不行，我來100臺(tái)，什么？100臺(tái)也不夠？說吧，需要多少臺(tái)！所以當(dāng)有了一大堆服務(wù)器的時(shí)候，你就可以用他們協(xié)同來完成爬取工作了，世界上網(wǎng)頁再多也架不住你成千上萬臺(tái)服務(wù)器去爬啊，那么，這里提到的"協(xié)同"其實(shí)就是用到了分布式的概念：我這么多分布在各地的服務(wù)器都是為了完成爬蟲工作，彼此得通力協(xié)作才行啊，于是就有了分布式爬蟲。

分布式爬蟲形色多樣，無論是我們這次準(zhǔn)備徒手?jǐn)]的簡(jiǎn)單爬蟲還是成熟的爬蟲框架scrapy、pyspider亦或是Google百度之類的公司專用爬蟲，其基本結(jié)構(gòu)都是差不多的。我們就以簡(jiǎn)單的主從分布式爬蟲講起。所謂主從模式，就是由一臺(tái)服務(wù)器充當(dāng)master，若干臺(tái)服務(wù)器充當(dāng)slave，master負(fù)責(zé)管理所有連接上來的slave，包括管理slave連接、任務(wù)調(diào)度與分發(fā)、結(jié)果回收并匯總等；每個(gè)slave只需要從master那里領(lǐng)取任務(wù)并獨(dú)自完成任務(wù)最后上傳結(jié)果即可，期間不需要與其他slave進(jìn)行交流。這種方式簡(jiǎn)單易于管理，但是很明顯master需要與所有slave進(jìn)行交流，那么master的性能就成了制約整個(gè)系統(tǒng)的瓶頸，特別是當(dāng)連接上的slave數(shù)量龐大的時(shí)候，很容易導(dǎo)致整個(gè)爬蟲系統(tǒng)性能下降。不過這不影響我們的學(xué)習(xí)，下面對(duì)主從分布式爬蟲結(jié)構(gòu)進(jìn)行講解。

先上一張圖：

主從分布式爬蟲結(jié)構(gòu)圖

這是經(jīng)典的主從分布式爬蟲結(jié)構(gòu)圖，圖中的控制節(jié)點(diǎn)ControlNode就是上面提到的master，爬蟲節(jié)點(diǎn)SpiderNode就是上面提到的slave。下面這張圖展示了爬蟲節(jié)點(diǎn)slave的執(zhí)行任務(wù)示意圖

控制節(jié)點(diǎn)執(zhí)行流程圖

這兩張圖很明了地介紹了整個(gè)爬蟲框架，我們?cè)谶@里梳理一下：
1、整個(gè)分布式爬蟲系統(tǒng)由兩部分組成：master控制節(jié)點(diǎn)和slave爬蟲節(jié)點(diǎn)
2、master控制節(jié)點(diǎn)負(fù)責(zé)：slave節(jié)點(diǎn)任務(wù)調(diào)度、url管理、結(jié)果處理
3、slave爬蟲節(jié)點(diǎn)負(fù)責(zé)：本節(jié)點(diǎn)爬蟲調(diào)度、HTML下載管理、HTML內(nèi)容解析管理
4、系統(tǒng)工作流程：master將任務(wù)（未爬取的url）分發(fā)下去，slave通過master的URL管理器領(lǐng)取任務(wù)（url）并獨(dú)自完成對(duì)應(yīng)任務(wù)（url）的HTML內(nèi)容下載、內(nèi)容解析，解析出來的內(nèi)容包含目標(biāo)數(shù)據(jù)和新的url，這個(gè)工作完成后slave將結(jié)果（目標(biāo)數(shù)據(jù)+新url）提交給master的數(shù)據(jù)提取進(jìn)程（屬于master的結(jié)果處理），該進(jìn)程完成兩個(gè)任務(wù)：提取出新的url交于url管理器、提取目標(biāo)數(shù)據(jù)交于數(shù)據(jù)存儲(chǔ)進(jìn)程，master的url管理進(jìn)程收到url后進(jìn)行驗(yàn)證（是否已爬取過）并處理（未爬取的添加進(jìn)待爬url集合，爬過的添加進(jìn)已爬url集合），然后slave循環(huán)從url管理器獲取任務(wù)、執(zhí)行任務(wù)、提交結(jié)果......

好了，以上就是簡(jiǎn)單分布式爬蟲整體結(jié)構(gòu)，是不是很簡(jiǎn)單。
下一講：打造屬于我們自己的爬蟲master

參考資料：《Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)》

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

簡(jiǎn)單分布式爬蟲——第一彈：了解分布式爬蟲結(jié)構(gòu)

簡(jiǎn)單分布式爬蟲——第一彈：了解分布式爬蟲結(jié)構(gòu)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

簡(jiǎn)單分布式爬蟲——第一彈：了解分布式爬蟲結(jié)構(gòu)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av