requests模塊的入門(mén)使用

目標(biāo)

掌握requests發(fā)送請(qǐng)求的方法

掌握response對(duì)象的基礎(chǔ)屬性

掌握requests發(fā)送帶headers的請(qǐng)求

掌握requests模塊發(fā)送帶參數(shù)請(qǐng)求

1. 為什么要重點(diǎn)學(xué)習(xí)requests模塊,而不是urllib

requests的底層實(shí)現(xiàn)就是urllib

requests在python2 和python3中通用,方法完全一樣

requests簡(jiǎn)單易用

Requests能夠自動(dòng)幫助我們解壓(gzip壓縮的等)網(wǎng)頁(yè)內(nèi)容

2.requests的作用

作用:發(fā)送網(wǎng)絡(luò)請(qǐng)求,返回響應(yīng)數(shù)據(jù)

中文文檔 :?http://docs.python-requests.org/zh_CN/latest/index.html

通過(guò)觀(guān)察文檔來(lái)學(xué)習(xí):如何使用requests來(lái)發(fā)送網(wǎng)絡(luò)請(qǐng)求?

3. requests模塊發(fā)送簡(jiǎn)單的請(qǐng)求、獲取響應(yīng)

需求:通過(guò)requests向百度首頁(yè)發(fā)送請(qǐng)求,獲取百度首頁(yè)的數(shù)據(jù)

response=requests.get(url)

response的常用屬性:

response.text

respones.content

response.status_code

response.request.headers

response.headers

思考:text是response的屬性還是方法呢?

一般來(lái)說(shuō)名詞,往往都是對(duì)象的屬性,對(duì)應(yīng)的動(dòng)詞是對(duì)象的方法

3.1 response.text 和response.content的區(qū)別

response.text

類(lèi)型:str

解碼類(lèi)型: 根據(jù)HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè),推測(cè)的文本編碼

如何修改編碼方式:response.encoding=”gbk”

response.content

類(lèi)型:bytes

解碼類(lèi)型: 沒(méi)有指定

如何修改編碼方式:response.content.deocde(“utf8”)

獲取網(wǎng)頁(yè)源碼的通用方式:

response.content.decode()

response.content.decode("GBK")

response.text

以上三種方法從前往后嘗試,能夠100%的解決所有網(wǎng)頁(yè)解碼的問(wèn)題

所以:更推薦使用response.content.deocde()的方式獲取響應(yīng)的html頁(yè)面

3.2 練習(xí):把網(wǎng)絡(luò)上的圖片保存到本地

思考:

以什么方式打開(kāi)文件

保存什么格式的內(nèi)容

4. 發(fā)送帶header的請(qǐng)求

4.1 思考

對(duì)比瀏覽器上百度首頁(yè)的網(wǎng)頁(yè)源碼和代碼中的百度首頁(yè)的源碼,有什么不同?

代碼中的百度首頁(yè)的源碼非常少,為什么?

4.2 為什么請(qǐng)求需要帶上header?

模擬瀏覽器,欺騙服務(wù)器,獲取和瀏覽器一致的內(nèi)容

4.3 header的形式:字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

4.4 用法

requests.get(url,headers=headers)

5.發(fā)送帶參數(shù)的請(qǐng)求

5.1 什么叫做請(qǐng)求參數(shù):

錯(cuò)誤的列1:?http://www.webkaka.com/tutorial/server/2015/021013/

正確的例2:https://www.baidu.com/s?wd=python&c=b

5.2 參數(shù)的形式:字典

kw = {'wd':'長(zhǎng)城'}

5.3用法

requests.get(url,params=kw)

5.4 關(guān)于參數(shù)的注意點(diǎn)

在url地址中,很多參數(shù)是沒(méi)有用的,比如百度搜索的url地址,其中參數(shù)只有一個(gè)字段有用,其他的都可以刪除

對(duì)應(yīng)的,在后續(xù)的爬蟲(chóng)中,越到很多參數(shù)的url地址,都可以嘗試刪除參數(shù)

6.作業(yè)

1.獲取新浪首頁(yè),查看response.text 和response.content.decode()的區(qū)別

2.實(shí)現(xiàn)任意貼吧的爬蟲(chóng),保存網(wǎng)頁(yè)到本地

小結(jié)

本小結(jié)重點(diǎn)

掌握requests模塊的基本使用

掌握響應(yīng)的基礎(chǔ)屬性的使用

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容