目標(biāo):抓取LaGou網(wǎng)爬蟲職位,下載于數(shù)據(jù)庫MongoDB,并可視化于pycharm。
我們采用:requests(獲取)——MongoDB——PyCharm可視化
廢話不多說,先上結(jié)果與代碼:


前言:
①:安裝PyMongo(pip install pymongo),這是Python操作MongoDB的驅(qū)動程序
②:抓取頁面,如圖
現(xiàn)重點講解代碼四個部分:
一:MongoDB
這將建立連接到默認(rèn)主機(localhost)和端口(27017)

mongodb的詳細(xì)功用可前往官網(wǎng)
二:真實的urls
異步加載中,真實的url并非https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?labelWords=&fromSearch=true&suginput=,真正的url需要我們通過抓包獲取,流程如圖:

所以我們得出真實url:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0
三:請求方法post?(之前的文章都是get)
通過抓包我們可以看出拉鉤網(wǎng)的請求方法是post,所以我們要加入請求表單form_data
四:請求頭(headers)
每個網(wǎng)站的請求頭都會不一樣,但爬取的網(wǎng)站,都有例子,大家初期,跟著選就行,如圖:
大家可以對比下我第四篇知乎的請求頭
總結(jié):
數(shù)據(jù)庫是學(xué)習(xí)Python爬蟲的必經(jīng)之路,大家記得安裝哦
MongoDB、pycharm可視化的安裝,我都會在知乎上發(fā)表
下一篇文章,將學(xué)習(xí)使用函數(shù)實現(xiàn)LaGou翻頁
有不清楚的地方,大家可以留言,點贊,我看到了,會第一時間回復(fù)你
近來考試與課程設(shè)計,很久沒有更新,還望大家諒解