[Python爬蟲] 等待網(wǎng)頁加載后再獲取內(nèi)容

0x0 背景

最近在學習Python爬蟲的相關(guān)知識,主要是之前有一個小idea想要用Python實現(xiàn),沉寂了一年,近期終于下定決心要利用假期時間首要解決此項任務,不然拖到最后都沒完成,自己遺憾不說,還會養(yǎng)成拖沓的壞習慣,只有想法不去實現(xiàn),終究不能提高。
于是乎,利用假期的時間,竟然十分順利的完成了初期設(shè)想的大部分功能,而且運行良好。正當我準備使用時,發(fā)現(xiàn)有個功能需要爬取的網(wǎng)頁發(fā)生了變化,以前使用requests.get()可以得到的內(nèi)容,由于需要打開網(wǎng)頁后加載,現(xiàn)在抓不到了!這個問題困擾了我差不多兩天的時間,終于通過查閱資料解決,記錄一下。

0x1 Selenium+PhantomJS

雖然PhantomJS因為某些內(nèi)部原因暫停更新,但是相比其他的瀏覽器解決方案要實例化窗口,這個應該還是要高效一點吧,而且不更新不代表不能用,等以后有需求了再看別的,目前就選該解決路徑了。

安裝環(huán)境(此處為MacOS環(huán)境)

安裝PhantomJS

  1. 官網(wǎng)下載 選擇相應平臺版本下載
  2. 設(shè)置環(huán)境變量
nano ~/.bash_profile
##將Phantomjs路徑加入path中
export PATH=/Your/Path/to/Phantomjs/bin:$PATH
##保存退出
##生效
source ~/.bash_profile
  1. 測試
 ~ phantomjs
 phantomjs>

安裝selenium

直接用pip安裝即可
pip3 install selenium --user

0x2 使用

剩下的就挺簡單了,直接上代碼:

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(your_url)
html = driver.execute_script('return document.documentElement.outerHTML')

雖然selenium有很多更高級的用法,但是由于筆者之前用的是cssselect,所以就得到完整加載的HTML源碼內(nèi)容為短期目的,進階使用再下一步學習吧。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 這篇文章在介紹官網(wǎng)的同時使用了比較多的腳本示例,示例里遇到的問題有部分在本篇文章進行了解釋,還有一篇文章專門記錄了...
    顧顧314閱讀 13,094評論 3 32
  • 前言 離上一篇更新的博文應該過了挺久的了(python爬蟲(上)–請求——關(guān)于旅游網(wǎng)站的酒店評論爬?。▊鲄⒎椒ǎ?..
    Mrhyden閱讀 556評論 0 0
  • 此刻,22點57 也許有一顆流星劃過天際 不顧一切地奔向另一顆星 沒想到迎接它的是粉身碎骨 是與堅硬的大地重重一擊...
    若溪寫詩閱讀 164評論 0 0
  • 騎天大勝 焦點少年班堅持分享第332天 星期二 2018.6.12 最近我考試是這件事情所困擾,而且明天語文模擬測...
    她說夢里花會開閱讀 232評論 0 0
  • 你信不信,你現(xiàn)在的生活狀況,學習能力,為人處事,你一切的一切都和你的原生家庭有著千絲萬縷的關(guān)系,你的原生家庭會影響...
    顧紫閱讀 1,747評論 0 1

友情鏈接更多精彩內(nèi)容