一個(gè)簡(jiǎn)單的爬蟲代碼框架

簡(jiǎn)單來(lái)說(shuō),一個(gè)爬蟲的工作流程可以分為以下三個(gè)步驟(以及每個(gè)步驟應(yīng)該處理的問(wèn)題)

第一步,發(fā)起網(wǎng)絡(luò)請(qǐng)求

怎樣處理需要登錄的操作?

反爬蟲的機(jī)制有哪些,如何避免反爬蟲?

如何用隊(duì)列批量處理網(wǎng)絡(luò)請(qǐng)求?

網(wǎng)絡(luò)請(qǐng)求中經(jīng)常用到的庫(kù)有哪些?

為什么要用IP代理,如何構(gòu)建自己的IP代理池?

你的UA庫(kù)、COOKIE池是怎樣的?

如何異步處理網(wǎng)絡(luò)請(qǐng)求?

如何科學(xué)的優(yōu)化網(wǎng)絡(luò)請(qǐng)求?

以上種種,為了不被反爬蟲機(jī)制干掉,所以我們要盡量模仿真實(shí)用戶的網(wǎng)絡(luò)請(qǐng)求。


第二步,解析獲取的數(shù)據(jù),提取你想要的內(nèi)容

如何提取目標(biāo)內(nèi)容,有哪些常用的庫(kù)?

如何獲取需要js渲染的網(wǎng)頁(yè)內(nèi)容?

如何處理分頁(yè)數(shù)據(jù)?


第三步,持久化,將數(shù)據(jù)存儲(chǔ)到文件系統(tǒng)或數(shù)據(jù)庫(kù)中

如何存儲(chǔ)到文件?

如何存儲(chǔ)到數(shù)據(jù)庫(kù)?


通過(guò)以上對(duì)爬蟲工作過(guò)程的分析,那么一個(gè)簡(jiǎn)單的爬蟲框架主要分成四個(gè)部分:

1、UrlQueue

URL管理器,對(duì)將要爬取的和已經(jīng)爬取的URL進(jìn)行管理。

2、Fetcher

網(wǎng)頁(yè)下載器,從UrlQueue中獲取一個(gè)URL,傳給網(wǎng)頁(yè)下載器,下載器將URL指向的網(wǎng)頁(yè)內(nèi)容下載下來(lái)。

3、Parser

網(wǎng)頁(yè)解析器,將Fether下載的內(nèi)容進(jìn)行解析,一方面獲取目標(biāo)數(shù)據(jù),另一方面獲取需要的URL,補(bǔ)充到UrlQueue中去。

4、Saver

持久化,將數(shù)據(jù)存儲(chǔ)到文件系統(tǒng),或者數(shù)據(jù)庫(kù)中。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):統(tǒng)...
    GHope閱讀 2,306評(píng)論 2 26
  • 《這就是搜索引擎》這本書的第二章是關(guān)于爬蟲的,干貨很多(文章幾乎沒有廢話,所以復(fù)制居多),可以參考搜索引擎是如何構(gòu)...
    SeanCheney閱讀 2,176評(píng)論 0 20
  • 33款可用來(lái)抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即...
    visiontry閱讀 7,701評(píng)論 1 99
  • 說(shuō)起來(lái)算是游戲認(rèn)識(shí)的吧,眾人最不看好的網(wǎng)戀。但是在游戲里面認(rèn)識(shí)了一個(gè)師傅,師傅已經(jīng)有兩個(gè)徒弟了,后來(lái)師傅讓我進(jìn)歪歪...
    九九九久安閱讀 286評(píng)論 0 0
  • 用力相遇 潦草離別 你抱怨、不解甚至怨恨 一個(gè)信息 我內(nèi)疚、自責(zé)甚至后悔 我們彼此互道‘你不懂我’ 不愿遷就 晴各...
    關(guān)耳方閱讀 200評(píng)論 0 1

友情鏈接更多精彩內(nèi)容