廿陸- Python 爬蟲 異步改為同步加多進(jìn)程 以及 某著名社交網(wǎng)站爬蟲設(shè)想

1. 前言

前幾天折騰了很久之后,發(fā)現(xiàn)有很多結(jié)果出來不滿意,反正是我自己個(gè)人的項(xiàng)目,所以其實(shí)沒什么所謂。
但精益求精總是要的吧,反正在家閑著也是閑著。

2. 異步爬蟲改回同步爬蟲

因?yàn)榘l(fā)現(xiàn)渲染JS需要使用瀏覽器,而 Pythonselenium 包無法作為異步同時(shí)處理,所以我還是把程序改回同步并且使用 Supervisor 來做多進(jìn)程。
詳情可看之前的,逆向做就是了。
廿壹-爬 URL 、Python 異步 、Supervisor 安裝配置等事宜

3. 人工清理數(shù)據(jù)

在前期做的頁面增加了頁面是刪除含某些關(guān)鍵字的樣本以及顯示數(shù)據(jù)庫規(guī)模的頁面。
其實(shí)主要是發(fā)現(xiàn)爬出來的數(shù)據(jù),很多都是不太像樣,有很多廣告,有很多不需要的信息,有很多重復(fù)捉取的信息。
前期項(xiàng)目:
廿肆-Django 建設(shè) WebApp 管理 MongoDB 數(shù)據(jù)庫內(nèi)容

4. MongoDB 隨機(jī)抽樣

剛做了很久測(cè)試,發(fā)現(xiàn)

aggregate([{'$match': dictFilter}, {'$sample': {'size': intLimit}}])

的確是隨機(jī)抽樣的,那就好。

5. 某社交網(wǎng)站爬蟲

網(wǎng)絡(luò)上應(yīng)該是有專門的爬蟲軟件的,但我覺得我可能需要自己練練手,所以我選擇某個(gè)有公開帖子社交網(wǎng)站論壇來爬。

其中可能比較重要的東西有兩樣:

  • 針對(duì)網(wǎng)站的網(wǎng)頁信息 Tag 、 Class 捉取,要針對(duì)網(wǎng)站定制化
  • 針對(duì)鏈接的處理
  • 針對(duì)用戶建立單都記錄并管理
  • 是否有展開性的數(shù)據(jù)記錄(如用戶關(guān)系)
  • 因?yàn)閿?shù)據(jù)均為較新的,所以不怕捉到舊的數(shù)據(jù)

這個(gè)可能需要先制定好框架,可以沿用前期已經(jīng)做好的泛用爬蟲做基礎(chǔ)。

6. 睡覺

就這樣先吧,做下去或不做下去也沒啥所謂的其實(shí)我覺得。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 《這就是搜索引擎》這本書的第二章是關(guān)于爬蟲的,干貨很多(文章幾乎沒有廢話,所以復(fù)制居多),可以參考搜索引擎是如何構(gòu)...
    SeanCheney閱讀 2,176評(píng)論 0 20
  • 33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩?這里推薦一些33款開源爬蟲軟件給大家。 爬蟲,即...
    visiontry閱讀 7,701評(píng)論 1 99
  • 爬蟲是一個(gè)比較容易上手的技術(shù),也許花5分鐘看一篇文檔就能爬取單個(gè)網(wǎng)頁上的數(shù)據(jù)。但對(duì)于大規(guī)模爬蟲,完全就是另一回事,...
    真依然很拉風(fēng)閱讀 9,832評(píng)論 5 114
  • 23歲研究生一枚,大二開始接觸運(yùn)動(dòng)。(就是意識(shí)到鍛煉身體的重要性以及開始把運(yùn)動(dòng)作為生活的一部分)從最初的跳鄭多燕健...
    N皮臉閱讀 182評(píng)論 0 0
  • 不以人為本,則多紛爭(zhēng) 我們都知道那個(gè)六尺巷的故事。那首詩很好記,千里家書只為墻,讓他三天又何妨?萬里長城今...
    覃榜言閱讀 1,088評(píng)論 3 14

友情鏈接更多精彩內(nèi)容