python3.6之抓取LaGou網(wǎng)爬蟲職位詳解

目標(biāo):抓取LaGou網(wǎng)爬蟲職位,下載于數(shù)據(jù)庫MongoDB,并可視化于pycharm。

我們采用:requests(獲取)——MongoDB——PyCharm可視化

廢話不多說,先上結(jié)果與代碼:

前言:

①:安裝PyMongo(pip install pymongo),這是Python操作MongoDB的驅(qū)動程序

②:抓取頁面,如圖

現(xiàn)重點講解代碼四個部分

一:MongoDB

這將建立連接到默認(rèn)主機(localhost)和端口(27017)

mongodb的詳細(xì)功用可前往官網(wǎng)

二:真實的urls

異步加載中,真實的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=真正的url需要我們通過抓包獲取,流程如圖

所以我們得出真實url:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0

三:請求方法post?(之前的文章都是get)

通過抓包我們可以看出拉鉤網(wǎng)的請求方法是post,所以我們要加入請求表單form_data

請求頭(headers)

每個網(wǎng)站的請求頭都會不一樣,但爬取的網(wǎng)站,都有例子,大家初期,跟著選就行,如圖:

大家可以對比下我第四篇知乎的請求頭

總結(jié):

數(shù)據(jù)庫是學(xué)習(xí)Python爬蟲的必經(jīng)之路,大家記得安裝哦

MongoDB、pycharm可視化的安裝,我都會在知乎上發(fā)表

下一篇文章,將學(xué)習(xí)使用函數(shù)實現(xiàn)LaGou翻頁

有不清楚的地方,大家可以留言,點贊,我看到了,會第一時間回復(fù)你

近來考試與課程設(shè)計,很久沒有更新,還望大家諒解

本系列文章同步跟新于微信公眾號:工科男雷先生。知乎:雷之

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容