已保存這
本文主要講三個(gè)內(nèi)容:
第一個(gè)講解的項(xiàng)目比較簡(jiǎn)單:網(wǎng)絡(luò)小說下載
下面來看這篇小說第一節(jié)內(nèi)容:
代碼如下圖:
把代碼運(yùn)行我們可以看到:
那么我們?nèi)绾伟讶缬覉D所示的內(nèi)容從繁多的html中提取出來,就是本次所要講的內(nèi)容:
Beautiful Soup
好了,了解了審查元素的方法,查下目標(biāo)頁面,如圖所示:
下面用Beautiful Soup來提取內(nèi)容,代碼如圖所示:
下圖代碼教你去除div標(biāo)簽名,br標(biāo)簽,和各種空格:
好了,現(xiàn)在已經(jīng)獲取了第一節(jié)的內(nèi)容,再獲取每節(jié)內(nèi)容就可以下載全本了,下面分析目錄:
對(duì)比URL和 的標(biāo)簽:
方法比較容易:
整合代碼,把獲得內(nèi)容寫入文本文件存儲(chǔ),代碼如圖所示:
代碼如圖:
壁紙下載:
怎么反爬蟲呢:
既然了解了html標(biāo)簽的功能,就來分析下【img】標(biāo)簽:
爬取Unsplash代碼如圖:
因?yàn)榫W(wǎng)站的圖片都是動(dòng)態(tài)加載的。
報(bào)錯(cuò)了?我們?cè)賮韲L試下
接下來分析Requests Headers:
headers參數(shù)值是通過字典傳入的。
記得將上述代碼中your Client-ID換成諸位自己抓包獲得的信息。代碼運(yùn)行結(jié)果如下:
整合代碼:
由于時(shí)間原因,我就不一一分享了,想要了解全部爬蟲案例分析。需要Python學(xué)習(xí)資料和教學(xué)視頻可以加Python學(xué)習(xí)交流群,群文件自行下載喲:822957555a