JS頁面信息的抓取

由于網(wǎng)頁模塊化的開發(fā),很多網(wǎng)頁的信息加載都是通過js完成的,單純靠解析靜態(tài)網(wǎng)頁已不能完成需求,本文通過PhantomJS來完成js的渲染,然后通過上一篇介紹的beautifusoup完成解析。
首先是安裝PhantomJS,閱讀官網(wǎng)文檔。由于js需要瀏覽器才能運(yùn)行,所以還需要一個(gè)無界面的瀏覽器內(nèi)核工具:selenium,以及火狐驅(qū)動(dòng)程序eckodriver。
為詳細(xì)介紹,本文使用以下需求作為開發(fā)任務(wù):
抓取百度圖片輸入關(guān)鍵詞“ SHE”后頁面顯示的圖片,如圖:

SHE圖片.png

通過查看網(wǎng)頁源代碼可以發(fā)現(xiàn),此頁面采用了js異步加載圖片完成,故需要先將js信息渲染完成,然后才能完成解析工作。
代碼如下:

#coding:utf-8
from selenium import webdriver
from bs4 import BeautifulSoup

# browser = webdriver.Firefox(executable_path="/Users/brave/geckodriver/geckodriver")
browser = webdriver.PhantomJS()
browser.get("http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=SHE")
soup = BeautifulSoup(browser.page_source, 'html.parser')
imgpage = soup.find("div",class_="imgpage")
list = imgpage.find_all("li",class_="imgitem")
print(len(list))

for i in range(1,len(list)):
    imagitem = list[i]
    imageURL = imagitem["data-objurl"]
    savePath = "/Users/brave/Documents/python/SHE/" + str(i) +".jpg"
    print(savePath)
    try:
        saveImage(imageURL,savePath)
    except:
        print(imageURL)

browser.quit()

根據(jù)圖片URL即可下載圖片,此處由于簡化次要細(xì)節(jié)默認(rèn)圖片格式為.jpg,代碼如下:

def saveImage(imageURL,savePath):
    # headers = {'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0'}
    # req = urllib.request.Request(url=imageURL, headers=headers)
    # data = urllib.request.urlopen(req).read()
    data = urllib.request.urlopen(imageURL).read()
    fout = open(savePath, "wb")
    fout.write(data)
    fout.close()

抓取結(jié)果示例:

SHE圖片.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,355評論 25 708
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 15,704評論 4 61
  • 宋仲基宋慧喬要結(jié)婚啦!一大早在朋友圈刷到這個(gè)消息,我困成一條縫的眼睛瞬間睜大。哎呦喂,傳了這么久,如今不是承認(rèn)戀愛...
    瑪麗蓮懵露閱讀 792評論 1 5
  • 六年級(jí)八班 趙雯宇 為什么我病了呢?本來我好好的?。≡绯恳恍褋?,我就在想這件事,難不成昨晚吃的那塊巧克力有問題? ...
    東營王建軍閱讀 667評論 2 2
  • 題目:給定一個(gè)無序的整數(shù)數(shù)組,怎么找到第一個(gè)大于0,并且不在此數(shù)組的整數(shù)。比如[1,2,0]返回3,[3,4,-1...
    IT孤獨(dú)者閱讀 1,202評論 0 0

友情鏈接更多精彩內(nèi)容