Python應用現(xiàn)在如火如荼,應用范圍很廣。因其效率高開發(fā)迅速的優(yōu)勢,快速進入編程語言排行榜前幾名。本系列文章致力于可以全面系統(tǒng)的介紹Python語言開發(fā)知識和相關知識總結。希望大家能夠快速入門并學習Python這門語言。
本文是在前一部分Python基礎之上Python實戰(zhàn):Python爬蟲學習教程,獲取電影排行榜,再次升級的Python網(wǎng)頁爬蟲實戰(zhàn)課程。
1.項目概述。
利用XPath和requests模塊進行網(wǎng)頁抓取與分析,達到網(wǎng)頁圖片下載的效果。
抓爬圖片地址:http://www.2cto.com/meinv/
開發(fā)環(huán)境:python 2.7、PyCharm 5 Community
所需知識:神器XPath、Requests模塊、Python基本語法。
2.所需模塊介紹及安裝
Xpath
介紹:XPath其實是一門可以在XML中通過元素的屬性進行查找提取信息的一門語言。它支持HTML。
與正則表達式相比,更簡單。更強大
安裝:下載lxml庫進行安裝操作。下載地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml。下載對應版本的lxml
打開庫目錄運行命令進行安裝
下載完成之后,請把后綴名whl改為zip。
解壓文件把lxml文件夾放入python安裝目錄的lib文件夾下。
Requests模塊安裝
具體詳細安裝步驟請參閱:Python實戰(zhàn):Python爬蟲學習教程,獲取電影排行榜中requests的安裝。
3.Xpath提取查找內(nèi)容詳解:
是語言都不例外,Xpath也有一定語法。
// 定位根節(jié)點
/ 往下層尋找
/text() 提取文本內(nèi)容
/@xxx 提取屬性內(nèi)容
4.項目主體代碼
from lxml import etree
selector = etree.HTML(網(wǎng)頁源代碼)
selector.xpath(xpath語法)
import requests
requests.get(url)
5.代碼演示:
效果展示:
小技巧:xpath簡單獲?。洪_發(fā)人員工具-定位要提取的標簽-右鍵如圖所示可以復制xpath路徑。
但尚需修改哦。
歡迎關注今日頭條:做全棧攻城獅。Python實戰(zhàn):美女圖片下載器,海量圖片任你下載。
QQ技術交流群: 538742639
項目源碼請關注微信公眾平臺:fullstackcourse 做全棧攻城獅?;貜停骸泵琅畧D片下載器”獲取。