【Python爬蟲】- 第14次作業(yè)

fromlxmlimportetree

importrequests

file=open('xpath.html','r',encoding='utf-8')

html=file.read()

file.close()

# print(html)

selector=etree.HTML(html)

1第一個和第二個 div

div=selector.xpath('//div[@class="works"]/text()')

print(div,type(div))

#第二UL下標簽內容

lc=selector.xpath('//ul/text()')

print(lc,type(lc))

3過濾標簽打印前三個DIV級URL

infos=selector.xpath('//div[@class="works"][1]/ul[@class="title"][1]/li[position()<4]/a')

forinfoininfos:

a_text=info.xpath('text()')[0]

a_href=info.xpath('@href')[0]

# print(a_text,a_href)

陽光電源網導航

url ='http://www.ygdy8.com/'

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate',

'Accept-Language':'en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'DNT':'1',

'Host':'www.ygdy8.com',

'If-Modified-Since':'Tue, 05 Sep 2017 14:46:00 GMT',

'If-None-Match':'"0448db05526d31:530"',

'Referer':'https://www.google.com/',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',

}

req=requests.get(url)

req.encoding ='gb2312'

html=req.text

selector=etree.HTML(html)

info2=selector.xpath('//div[@class="contain"][1]/ul/li/a')

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • # 一、div標簽文本提取 # 將學習視頻中xpath.html文件中div標簽下文本值 from lxml im...
    紅小路閱讀 1,199評論 1 1
  • 聲明:本文講解的實戰(zhàn)內容,均僅用于學習交流,請勿用于任何商業(yè)用途! 一、前言 強烈建議:請在電腦的陪同下,閱讀本文...
    Bruce_Szh閱讀 13,025評論 6 28
  • 首先筆者也才剛剛接觸python這門奇幻的語言。python是一個門檻很低的入門語言,但它的作用一點也不小。Y...
    小軒在不在i丶閱讀 2,066評論 0 4
  • 一 馬車隨著寬闊的大道拐了個彎。彎一轉過去,道路狹窄起來,大約只能并排容下兩輛馬車。若是有輛車從迎面來,馬鼻子中噴...
    德萬托阿閱讀 985評論 0 5
  • 親愛的小孩: 今天是周六,又是媽媽給你寫信的日子了,今天是中秋假期的最后一天,其實這個假期媽媽非常難得的連休了三天...
    范范的范閱讀 323評論 0 0

友情鏈接更多精彩內容