Selenium 爬蟲

(一)Selenium 基礎(chǔ)

入門教程:Selenium 官網(wǎng)教程

1.Selenium 簡介

Selenium 是一個用于測試網(wǎng)站的自動化測試工具,支持各種瀏覽器包括 Chrome、Firefox、Safari 等主流界面瀏覽器,同時也支持 phantomJS 無界面瀏覽器。

2.支持多種操作系統(tǒng)

如 Windows、Linux、IOS、Android 等。

3.安裝 Selenium

pip install Selenium

4.安裝瀏覽器驅(qū)動

Selenium3.x 調(diào)用瀏覽器必須有一個 webdriver 驅(qū)動文件

  1. Chrome 驅(qū)動文件下載:點擊下載 chromedrive
  2. Firefox 驅(qū)動文件下載:點解下載 geckodriver

5.配置環(huán)境變量

設(shè)置瀏覽器的地址非常簡單。 我們可以手動創(chuàng)建一個存放瀏覽器驅(qū)動的目錄,如: F:\GeckoDriver , 將下載的瀏覽器驅(qū)動文件(例如:chromedriver、geckodriver)丟到該目錄下。

我的電腦–>屬性–>系統(tǒng)設(shè)置–>高級–>環(huán)境變量–>系統(tǒng)變量–>Path,將“F:\GeckoDriver”目錄添加到 Path 的值中。比如:Path 字段;F:\GeckoDriver

參考瀏覽器驅(qū)動環(huán)境配置

(二)Selenium 快速入門

入門參考文獻:Selenium 入門

1.Selenium 提供了 8 種定位方式:

  1. id
  2. name
  3. class name
  4. tag name
  5. link text
  6. partial link text
  7. xpath
  8. css selector

2.定位元素的 8 種方式

參考:selenium 元素定位

定位一個元素 定位多個元素 含義
find_element_by_id find_elements_by_id 通過元素 id 定位
find_element_by_name find_elements_by_name 通過元素 name 定位
find_element_by_xpath find_elements_by_xpath 通過 xpath 表達式定位
find_element_by_link_text find_elements_by_link_tex 通過完整超鏈接定位
find_element_by_partial_link_text find_elements_by_partial_link_text 通過部分鏈接定位
find_element_by_tag_name find_elements_by_tag_name 通過標(biāo)簽定位
find_element_by_class_name find_elements_by_class_name 通過類名進行定位
find_elements_by_css_selector find_elements_by_css_selector 通過 css 選擇器進行定位

3.實例演示

假如我們有一個 Web 頁面,通過前端工具(如,F(xiàn)irebug)查看到一個元素的屬性是這樣的。

<html>
  <head>
  <body link="#0000cc">
    <a id="result_logo" href="/" onmousedown="return c({'fm':'tab','tab':'logo'})">
    <form id="form" class="fm" name="f" action="/s">
      <span class="soutu-btn"></span>
        <input id="kw" class="s_ipt" name="wd" value="" maxlength="255" autocomplete="off">
  • 通過 id 定位:

    dr.find_element_by_id("kw")
    
  • 通過 name 定位:

dr.find_element_by_name("wd")
  • 通過 class name 定位:
 dr.find_element_by_class_name("s_ipt")
  • 通過 tag name 定位:

    dr.find_element_by_tag_name("input")
    
  • 通過 xpath 定位,xpath 定位有 N 種寫法,這里列幾個常用寫法:

    dr.find_element_by_xpath("http://_[@id='kw']")
    dr.find_element_by_xpath("http://_[@name='wd']")
    dr.find_element_by_xpath("http://input[@class='s_ipt']")
    dr.find_element_by_xpath("/html/body/form/span/input")
    dr.find_element_by_xpath("http://span[@class='soutu-btn']/input")
    dr.find_element_by_xpath("http://form[@id='form']/span/input")
    dr.find_element_by_xpath("http://input[@id='kw' and @name='wd']")
    
  • 通過 css 定位,css 定位有 N 種寫法,這里列幾個常用寫法:

    dr.find_element_by_css_selector("#kw")
    dr.find_element_by_css_selector("[name=wd]")
    dr.find_element_by_css_selector(".s_ipt")
    dr.find_element_by_css_selector("html > body > form > span > input")
    dr.find_element_by_css_selector("span.soutu-btn> input#kw")
    dr.find_element_by_css_selector("form#form > span > input")
    

接下來,我們的頁面上有一組文本鏈接。

<a class="mnav"  name="tj_trnews">新聞</a>
<a class="mnav"  name="tj_trhao123">hao123</a>
  • 通過 link text 定位:

    dr.find_element_by_link_text("新聞")
    dr.find_element_by_link_text("hao123")
    
  • 通過 partial link text 定位:

    dr.find_element_by_partial_link_text("新")
    dr.find_element_by_partial_link_text("hao")
    dr.find_element_by_partial_link_text("123")
    

4.Selenium 庫下 webdriver 模塊常用方法的使用

1.控制瀏覽器操作的一些方法

方法 說明
set_window_size() 設(shè)置瀏覽器的大小
back() 控制瀏覽器后退
forward() 控制瀏覽器前進
refresh() 刷新當(dāng)前頁面
clear() 清除文本
send_keys (value) 模擬按鍵輸入
click() 單擊元素
submit() 用于提交表單
get_attribute(name) 獲取元素屬性值
is_displayed() 設(shè)置該元素是否用戶可見
size 返回元素的尺寸
text 獲取元素的文本

實例演示

from selenium import webdriver

from time import sleep
#1.創(chuàng)建Chrome瀏覽器對象,這會在電腦上在打開一個瀏覽器窗口
browser = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")

#2.通過瀏覽器向服務(wù)器發(fā)送URL請求
browser.get("https://www.baidu.com/")

sleep(3)

#3.刷新瀏覽器
browser.refresh()

#4.設(shè)置瀏覽器的大小
browser.set_window_size(1400,800)

#5.設(shè)置鏈接內(nèi)容
element=browser.find_element_by_link_text("新聞")
element.click()

element=browser.find_element_by_link_text("“下團組”時間")
element.click()

2.鼠標(biāo)事件

在 WebDriver 中, 將這些關(guān)于鼠標(biāo)操作的方法封裝在 ActionChains 類提供。

方法 說明
ActionChains(driver) 構(gòu)造 ActionChains 對象
context_click() 執(zhí)行鼠標(biāo)懸停操作
move_to_element(above) 右擊
double_click() 雙擊
drag_and_drop() 拖動
move_to_element(above) 執(zhí)行鼠標(biāo)懸停操作
context_click() 用于模擬鼠標(biāo)右鍵操作, 在調(diào)用時需要指定元素定位
perform() 執(zhí)行所有 ActionChains 中存儲的行為,可以理解成是對整個操作的提交動作

實例演示

這里寫圖片描述

from selenium import webdriver
#1.引入 ActionChains 類
from selenium.webdriver.common.action_chains import ActionChains

#1.創(chuàng)建Chrome瀏覽器對象,這會在電腦上在打開一個瀏覽器窗口
driver = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")

driver.get("https://www.baidu.com")

#2.定位到要懸停的元素
element= driver.find_element_by_link_text("設(shè)置")

#3.對定位到的元素執(zhí)行鼠標(biāo)懸停操作
ActionChains(driver).move_to_element(element).perform()

#找到鏈接
elem1=driver.find_element_by_link_text("搜索設(shè)置")
elem1.click()

#通過元素選擇器找到id=sh_2,并點擊設(shè)置
elem2=driver.find_element_by_id("sh_1")
elem2.click()

#保存設(shè)置
elem3=driver.find_element_by_class_name("prefpanelgo")
elem3.click()

3.鍵盤事件

Selenium 中的 Key 模塊為我們提供了模擬鍵盤按鍵的方法,那就是 send_keys()方法。它不僅可以模擬鍵盤輸入,也可以模擬鍵盤的操作。

常用的鍵盤操作如下:

模擬鍵盤按鍵 說明
send_keys(Keys.BACK_SPACE) 刪除鍵(BackSpace)
send_keys(Keys.SPACE) 空格鍵(Space)
send_keys(Keys.TAB) 制表鍵(Tab)
send_keys(Keys.ESCAPE) 回退鍵(Esc)
send_keys(Keys.ENTER) 回車鍵(Enter)

組合鍵的使用

模擬鍵盤按鍵 說明
send_keys(Keys.CONTROL,‘a(chǎn)’) 全選(Ctrl+A)
send_keys(Keys.CONTROL,‘c’) 復(fù)制(Ctrl+C)
send_keys(Keys.CONTROL,‘x’) 剪切(Ctrl+X)
send_keys(Keys.CONTROL,‘v’) 粘貼(Ctrl+V)
send_keys(Keys.F1…Fn) 鍵盤 F1…Fn

4.獲取斷言信息

不管是在做功能測試還是自動化測試,最后一步需要拿實際結(jié)果與預(yù)期進行比較。這個比較的稱之為斷言。通過我們獲取 title 、URL 和 text 等信息進行斷言。

屬性 說明
title 用于獲得當(dāng)前頁面的標(biāo)題
current_url 用戶獲得當(dāng)前頁面的 URL
text 獲取搜索條目的文本信息

實例演示

from selenium import webdriver
from time import sleep

driver = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

print('Before search================')

# 打印當(dāng)前頁面title
title = driver.title
print(title)

# 打印當(dāng)前頁面URL
now_url = driver.current_url
print(now_url)

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

print('After search================')

# 再次打印當(dāng)前頁面title
title = driver.title
print(title)

# 打印當(dāng)前頁面URL
now_url = driver.current_url
print(now_url)

# 獲取結(jié)果數(shù)目
user = driver.find_element_by_class_name('nums').text
print(user)

#關(guān)閉所有窗口
driver.quit()

打印輸出結(jié)果

Before search================
百度一下,你就知道
https://www.baidu.com/
After search================
selenium_百度搜索
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=selenium&rsv_pq=a1d51b980000e36e&rsv_t=a715IZaMpLd1w92I4LNUi7gKuOdlAz5McsHe%2FSLQeBZD44OUIPnjY%2B7pODM&rqlang=cn&rsv_enter=0&rsv_sug3=8&inputT=758&rsv_sug4=759
搜索工具
百度為您找到相關(guān)結(jié)果約7,170,000個

5.設(shè)置元素等待:參考文獻

6.定位一組元素

定位一組元素的方法與定位單個元素的方法類似,唯一的區(qū)別是在單詞 element 后面多了一個 s 表示復(fù)數(shù)。

實例演示

from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

#1.定位一組元素
elements = driver.find_elements_by_xpath('//div/h3/a')
print(type(elements))

#2.循環(huán)遍歷出每一條搜索結(jié)果的標(biāo)題
for t in elements:
    print(t.text)
    element=driver.find_element_by_link_text(t.text)
    element.click()
    sleep(3)

driver.quit()

7.多表單切換

在 Web 應(yīng)用中經(jīng)常會遇到 frame/iframe 表單嵌套頁面的應(yīng)用,WebDriver 只能在一個頁面上對元素識別與定位,對于 frame/iframe 表單內(nèi)嵌頁面上的元素?zé)o法直接定位。這時就需要通過 switch_to.frame()方法將當(dāng)前定位的主體切換為 frame/iframe 表單的內(nèi)嵌頁面中。

方法 說明
switch_to.frame() 將當(dāng)前定位的主體切換為 frame/iframe 表單的內(nèi)嵌頁面中
switch_to.default_content() 跳回最外層的頁面
<html>
  <body>
    ...
    <iframe id="x-URS-iframe" ...>
      <html>
         <body>
           ...
           <input name="email" >

126 郵箱登錄框的結(jié)構(gòu)大概是這樣子的,想要操作登錄框必須要先切換到 iframe 表單。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.126.com")

driver.switch_to.frame('x-URS-iframe')
driver.find_element_by_name("email").clear()
driver.find_element_by_name("email").send_keys("username")
driver.find_element_by_name("password").clear()
driver.find_element_by_name("password").send_keys("password")
driver.find_element_by_id("dologin").click()
driver.switch_to.default_content()

driver.quit()

switch_to.frame() 默認可以直接取表單的 id 或 name 屬性。如果 iframe 沒有可用的 id 和 name 屬性,則可以通過下面的方式進行定位。

……
#先通過xpth定位到iframe
xf = driver.find_element_by_xpath('//*[@id="x-URS-iframe"]')

#再將定位對象傳給switch_to.frame()方法
driver.switch_to.frame(xf)
……
driver.switch_to.parent_frame()

8.多窗口切換

在頁面操作過程中有時候點擊某個鏈接會彈出新的窗口,這時就需要主機切換到新打開的窗口上進行操作。WebDriver 提供了 switch_to.window()方法,可以實現(xiàn)在不同的窗口之間切換。

方法 說明
current_window_handle 獲得當(dāng)前窗口句柄
window_handles 返回所有窗口的句柄到當(dāng)前會話
switch_to.window() 用于切換到相應(yīng)的窗口,與上一節(jié)的 switch_to.frame()類似,前者用于不同窗口的切換,后者用于不同表單之間的切換。

實例演示

from selenium import webdriver
import time
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get("http://www.baidu.com")

#1.獲得百度搜索窗口句柄
sreach_windows = driver.current_window_handle

driver.find_element_by_link_text('登錄').click()
driver.find_element_by_link_text("立即注冊").click()

#1.獲得當(dāng)前所有打開的窗口的句柄
all_handles = driver.window_handles

#3.進入注冊窗口
for handle in all_handles:
    if handle != sreach_windows:
        driver.switch_to.window(handle)
        print('跳轉(zhuǎn)到注冊窗口')
        driver.find_element_by_name("account").send_keys('123456789')
        driver.find_element_by_name('password').send_keys('123456789')
        time.sleep(2)

driver.quit()

9.警告框處理

在 WebDriver 中處理 JavaScript 所生成的 alert、confirm 以及 prompt 十分簡單,具體做法是使用 switch_to.alert 方法定位到 alert/confirm/prompt,然后使用 text/accept/dismiss/ send_keys 等方法進行操作。

方法 說明
text 返回 alert/confirm/prompt 中的文字信息
accept() 接受現(xiàn)有警告框
dismiss() 解散現(xiàn)有警告框
send_keys(keysToSend) 發(fā)送文本至警告框。keysToSend:將文本發(fā)送至警告框。

實例演示

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

# 鼠標(biāo)懸停至“設(shè)置”鏈接
link = driver.find_element_by_link_text('設(shè)置')
ActionChains(driver).move_to_element(link).perform()

# 打開搜索設(shè)置
driver.find_element_by_link_text("搜索設(shè)置").click()

#在此處設(shè)置等待2s否則可能報錯
time.sleep(2)
# 保存設(shè)置
driver.find_element_by_class_name("prefpanelgo").click()
time.sleep(2)

# 接受警告框
driver.switch_to.alert.accept()

driver.quit()

10.下拉框選擇操作

導(dǎo)入選擇下拉框 Select 類,使用該類處理下拉框操作。

from selenium.webdriver.support.select import Select

Select 類的方法

方法 說明
select_by_value(“選擇值”) select 標(biāo)簽的 value 屬性的值
select_by_index(“索引值”) 下拉框的索引
select_by_visible_testx(“文本值”) 下拉框的文本值

有時我們會碰到下拉框,WebDriver 提供了 Select 類來處理下拉框。 如百度搜索設(shè)置的下拉框,如下圖:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-7WUxrkEj-1571973999629)(http://orru5lls3.bkt.clouddn.com/select.png)]

from selenium import webdriver
from selenium.webdriver.support.select import Select
from time import sleep

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

#1.鼠標(biāo)懸停至“設(shè)置”鏈接
driver.find_element_by_link_text('設(shè)置').click()
sleep(1)
#2.打開搜索設(shè)置
driver.find_element_by_link_text("搜索設(shè)置").click()
sleep(2)

#3.搜索結(jié)果顯示條數(shù)
sel = driver.find_element_by_xpath("http://select[@id='nr']")
Select(sel).select_by_value('50')  # 顯示50條

sleep(3)
driver.quit()

11.文件上傳

對于通過 input 標(biāo)簽實現(xiàn)的上傳功能,可以將其看作是一個輸入框,即通過 send_keys()指定本地文件路徑的方式實現(xiàn)文件上傳。

通過 send_keys()方法來實現(xiàn)文件上傳:

from selenium import webdriver
import os

driver = webdriver.Firefox()
file_path = 'file:///' + os.path.abspath('upfile.html')
driver.get(file_path)

# 定位上傳按鈕,添加本地文件
driver.find_element_by_name("file").send_keys('D:\\upload_file.txt')

driver.quit()

12.cookie 操作

有時候我們需要驗證瀏覽器中 cookie 是否正確,因為基于真實 cookie 的測試是無法通過白盒和集成測試進行的。WebDriver 提供了操作 Cookie 的相關(guān)方法,可以讀取、添加和刪除 cookie 信息。

WebDriver 操作 cookie 的方法:

方法 說明
get_cookies() 獲得所有 cookie 信息
get_cookie(name) 返回字典的 key 為“name”的 cookie 信息
add_cookie(cookie_dict) 添加 cookie?!癱ookie_dict”指字典對象,必須有 name 和 value 值
delete_cookie(name,optionsString) 刪除 cookie 信息?!皀ame”是要刪除的 cookie 的名稱,“optionsString”是該 cookie 的選項,目前支持的選項包括“路徑”,“域”
delete_all_cookies() 刪除所有 cookie 信息

實例演示

from selenium import webdriver
import time
browser = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
browser.get("http://www.youdao.com")

#1.打印cookie信息
print('=====================================')
print("打印cookie信息為:")
print(browser.get_cookies)

#2.添加cookie信息
dict={'name':"name",'value':'Kaina'}
browser.add_cookie(dict)

print('=====================================')
print('添加cookie信息為:')
#3.遍歷打印cookie信息
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

#4.刪除一個cookie
browser.delete_cookie('name')
print('=====================================')
print('刪除一個cookie')
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

print('=====================================')
print('刪除所有cookie后:')
#5.刪除所有cookie,無需傳遞參數(shù)
browser.delete_all_cookies()
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

time.sleep(3)
browser.close()

13.調(diào)用 JavaScript 代碼

雖然 WebDriver 提供了操作瀏覽器的前進和后退方法,但對于瀏覽器滾動條并沒有提供相應(yīng)的操作方法。在這種情況下,就可以借助 JavaScript 來控制瀏覽器的滾動條。WebDriver 提供了 execute_script()方法來執(zhí)行 JavaScript 代碼。

用于調(diào)整瀏覽器滾動條位置的 JavaScript 代碼如下:

<!-- window.scrollTo(左邊距,上邊距); -->
window.scrollTo(0,450);

window.scrollTo()方法用于設(shè)置瀏覽器窗口滾動條的水平和垂直位置。方法的第一個參數(shù)表示水平的左間距,第二個參數(shù)表示垂直的上邊距。其代碼如下:

from selenium import webdriver
from time import sleep

#1.訪問百度
driver=webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("http://www.baidu.com")

#2.搜索
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()

#3.休眠2s目的是獲得服務(wù)器的響應(yīng)內(nèi)容,如果不使用休眠可能報錯
sleep(2)

#4.通過javascript設(shè)置瀏覽器窗口的滾動條位置
js="window.scrollTo(100,450);"
driver.execute_script(js)
sleep(3)

driver.close()

通過瀏覽器打開百度進行搜索,并且提前通過 set_window_size()方法將瀏覽器窗口設(shè)置為固定寬高顯示,目的是讓窗口出現(xiàn)水平和垂直滾動條。然后通過 execute_script()方法執(zhí)行 JavaScripts 代碼來移動滾動條的位置。
滾動條上下左右滾動代碼演示

from selenium import webdriver
from time import sleep

driver=webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.set_window_size(400,400)
driver.get("https://www.baidu.com")

#2.搜索
# driver.find_element_by_id("kw").send_keys("selenium")
# driver.find_element_by_id("su").click()

#3.休眠2s目的是獲得服務(wù)器的響應(yīng)內(nèi)容,如果不使用休眠可能報錯
sleep(10)
#4 滾動左右滾動條---向右
js2 = "var q=document.documentElement.scrollLeft=10000"
driver.execute_script(js2)
sleep(15)

#5 滾動左右滾動條---向左
js3 = "var q=document.documentElement.scrollLeft=0"
driver.execute_script(js3)
sleep(15)

#6 拖動到滾動條底部---向下
js = "var q=document.documentElement.scrollTop=10000"
driver.execute_script(js)
sleep(15)

#7 拖動到滾動條底部---向上
js = "var q=document.documentElement.scrollTop=0"
driver.execute_script(js)
sleep(15)

driver.close()

14.窗口截圖

自動化用例是由程序去執(zhí)行的,因此有時候打印的錯誤信息并不十分明確。如果在腳本執(zhí)行出錯的時候能對當(dāng)前窗口截圖保存,那么通過圖片就可以非常直觀地看出出錯的原因。WebDriver 提供了截圖函數(shù) get_screenshot_as_file()來截取當(dāng)前窗口。

截屏方法:

方法 說明
get_screenshot_as_file(self, filename) 用于截取當(dāng)前窗口,并把圖片保存到本地
from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get('http://www.baidu.com')

driver.find_element_by_id('kw').send_keys('selenium')
driver.find_element_by_id('su').click()
sleep(2)

#1.截取當(dāng)前窗口,并指定截圖圖片的保存位置
driver.get_screenshot_as_file("D:\\baidu_img.jpg")

driver.quit()

15.關(guān)閉瀏覽器

在前面的例子中我們一直使用 quit()方法,其含義為退出相關(guān)的驅(qū)動程序和關(guān)閉所有窗口。除此之外,WebDriver 還提供了 close()方法,用來關(guān)閉當(dāng)前窗口。例多窗口的處理,在用例執(zhí)行的過程中打開了多個窗口,我們想要關(guān)閉其中的某個窗口,這時就要用到 close()方法進行關(guān)閉了。

方法 說明
close() 關(guān)閉單個窗口
quit() 關(guān)閉所有窗口## 目標(biāo)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容