1. 程式人生 > >Python 爬蟲基礎Selenium庫的使用(二十二01)

Python 爬蟲基礎Selenium庫的使用(二十二01)

(一)Selenium基礎

1.Selenium簡介

Selenium是一個用於測試網站的自動化測試工具,支援各種瀏覽器包括Chrome、Firefox、Safari等主流介面瀏覽器,同時也支援phantomJS無介面瀏覽器。

2.支援多種作業系統

如Windows、Linux、IOS、Android等。

3.安裝Selenium

pip install Selenium

4.安裝瀏覽器驅動

Selenium3.x呼叫瀏覽器必須有一個webdriver驅動檔案

5.配置環境變數

設定瀏覽器的地址非常簡單。 我們可以手動建立一個存放瀏覽器驅動的目錄,如: F:\GeckoDriver , 將下載的瀏覽器驅動檔案(例如:chromedriver、geckodriver)丟到該目錄下。

我的電腦–>屬性–>系統設定–>高階–>環境變數–>系統變數–>Path,將“F:\GeckoDriver”目錄新增到Path的值中。比如:Path欄位;F:\GeckoDriver

(二)Selenium 快速入門

1.Selenium提供了8種定位方式:

  1. id
  2. name
  3. class name
  4. tag name
  5. link text
  6. partial link text
  7. xpath
  8. css selector

2.定位元素的8種方式

定位一個元素 定位多個元素 含義
find_element_by_id find_elements_by_id 通過元素id定位
find_element_by_name find_elements_by_name 通過元素name定位
find_element_by_xpath find_elements_by_xpath 通過xpath表示式定位
find_element_by_link_text find_elements_by_link_tex 通過完整超連結定位
find_element_by_partial_link_text find_elements_by_partial_link_text 通過部分連結定位
find_element_by_tag_name find_elements_by_tag_name 通過標籤定位
find_element_by_class_name find_elements_by_class_name 通過類名進行定位
find_elements_by_css_selector find_elements_by_css_selector 通過css選擇器進行定位

3.例項演示

假如我們有一個Web頁面,通過前端工具(如,Firebug)檢視到一個元素的屬性是這樣的。

<html>
  <head>
  <body link="#0000cc">
    <a id="result_logo" href="/" onmousedown="return c({'fm':'tab','tab':'logo'})">
    <form id="form" class="fm" name="f" action="/s">
      <span class="soutu-btn"></span>
        <input id="kw" class="s_ipt" name="wd" value="" maxlength="255" autocomplete="off">
  • 通過id定位:
dr.find_element_by_id("kw")
  • 通過name定位:
dr.find_element_by_name("wd")
  • 通過class name定位:
dr.find_element_by_class_name("s_ipt")
  • 通過tag name定位:
dr.find_element_by_tag_name("input")
  • 通過xpath定位,xpath定位有N種寫法,這裡列幾個常用寫法:
dr.find_element_by_xpath("//*[@id='kw']")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@class='soutu-btn']/input")
dr.find_element_by_xpath("//form[@id='form']/span/input")
dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")
  • 通過css定位,css定位有N種寫法,這裡列幾個常用寫法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

接下來,我們的頁面上有一組文字連結。

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新聞</a>
<a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a>
  • 通過link text定位:
dr.find_element_by_link_text("新聞")
dr.find_element_by_link_text("hao123")
  • 通過partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

4.Selenium庫下webdriver模組常用方法的使用

1.控制瀏覽器操作的一些方法

方法 說明
set_window_size() 設定瀏覽器的大小
back() 控制瀏覽器後退
forward() 控制瀏覽器前進
refresh() 重新整理當前頁面
clear() 清除文字
send_keys (value) 模擬按鍵輸入
click() 單擊元素
submit() 用於提交表單
get_attribute(name) 獲取元素屬性值
is_displayed() 設定該元素是否使用者可見
size 返回元素的尺寸
text 獲取元素的文字

例項演示

from selenium import webdriver

from time import sleep
#1.建立Chrome瀏覽器物件,這會在電腦上在開啟一個瀏覽器視窗
browser = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")

#2.通過瀏覽器向伺服器傳送URL請求
browser.get("https://www.baidu.com/")

sleep(3)

#3.重新整理瀏覽器
browser.refresh()

#4.設定瀏覽器的大小
browser.set_window_size(1400,800)

#5.設定連結內容
element=browser.find_element_by_link_text("新聞")
element.click()

element=browser.find_element_by_link_text("習近平的“下團組”時間")
element.click()

2.滑鼠事件

在 WebDriver 中, 將這些關於滑鼠操作的方法封裝在 ActionChains 類提供。

方法 說明
ActionChains(driver) 構造ActionChains物件
context_click() 執行滑鼠懸停操作
move_to_element(above) 右擊
double_click() 雙擊
drag_and_drop() 拖動
move_to_element(above) 執行滑鼠懸停操作
context_click() 用於模擬滑鼠右鍵操作, 在呼叫時需要指定元素定位
perform() 執行所有 ActionChains 中儲存的行為,可以理解成是對整個操作的提交動作

例項演示

這裡寫圖片描述


from selenium import webdriver
#1.引入 ActionChains 類
from selenium.webdriver.common.action_chains import ActionChains

driver= webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")

driver.get("https://www.baidu.cn")

#2.定位到要懸停的元素
element= driver.find_element_by_link_text("設定")

#3.對定位到的元素執行滑鼠懸停操作
ActionChains(driver).move_to_element(element).perform()

3.鍵盤事件

Selenium中的Key模組為我們提供了模擬鍵盤按鍵的方法,那就是send_keys()方法。它不僅可以模擬鍵盤輸入,也可以模擬鍵盤的操作。

常用的鍵盤操作如下:

模擬鍵盤按鍵 說明
send_keys(Keys.BACK_SPACE) 刪除鍵(BackSpace)
send_keys(Keys.SPACE) 空格鍵(Space)
send_keys(Keys.TAB) 製表鍵(Tab)
send_keys(Keys.ESCAPE) 回退鍵(Esc)
send_keys(Keys.ENTER) 回車鍵(Enter)

組合鍵的使用

模擬鍵盤按鍵 說明
send_keys(Keys.CONTROL,‘a’) 全選(Ctrl+A)
send_keys(Keys.CONTROL,‘c’) 複製(Ctrl+C)
send_keys(Keys.CONTROL,‘x’) 剪下(Ctrl+X)
send_keys(Keys.CONTROL,‘v’) 貼上(Ctrl+V)
send_keys(Keys.F1…Fn) 鍵盤 F1…Fn

4.獲取斷言資訊

不管是在做功能測試還是自動化測試,最後一步需要拿實際結果與預期進行比較。這個比較的稱之為斷言。通過我們獲取title 、URL和text等資訊進行斷言。

屬性 說明
title 用於獲得當前頁面的標題
current_url 使用者獲得當前頁面的URL
text 獲取搜尋條目的文字資訊

例項演示

from selenium import webdriver
from time import sleep

driver = webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

print('Before search================')

# 列印當前頁面title
title = driver.title
print(title)

# 列印當前頁面URL
now_url = driver.current_url
print(now_url)

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

print('After search================')

# 再次列印當前頁面title
title = driver.title
print(title)

# 列印當前頁面URL
now_url = driver.current_url
print(now_url)

# 獲取結果數目
user = driver.find_element_by_class_name('nums').text
print(user)

#關閉所有視窗
driver.quit()

列印輸出結果

Before search================
百度一下,你就知道
https://www.baidu.com/
After search================
selenium_百度搜索
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=selenium&rsv_pq=a1d51b980000e36e&rsv_t=a715IZaMpLd1w92I4LNUi7gKuOdlAz5McsHe%2FSLQeBZD44OUIPnjY%2B7pODM&rqlang=cn&rsv_enter=0&rsv_sug3=8&inputT=758&rsv_sug4=759
搜尋工具
百度為您找到相關結果約7,170,000個

5.設定元素等待:參考文獻

6.定位一組元素

定位一組元素的方法與定位單個元素的方法類似,唯一的區別是在單詞element後面多了一個s表示複數。

例項演示

from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("https://www.baidu.com")

driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()
sleep(1)

#1.定位一組元素
elements = driver.find_elements_by_xpath('//div/h3/a')
print(type(elements))

#2.迴圈遍歷出每一條搜尋結果的標題
for t in elements:
    print(t.text)
    element=driver.find_element_by_link_text(t.text)
    element.click()
    sleep(3)

driver.quit()

7.多表單切換

在Web應用中經常會遇到frame/iframe表單巢狀頁面的應用,WebDriver只能在一個頁面上對元素識別與定位,對於frame/iframe表單內嵌頁面上的元素無法直接定位。這時就需要通過switch_to.frame()方法將當前定位的主體切換為frame/iframe表單的內嵌頁面中。

方法 說明
switch_to.frame() 將當前定位的主體切換為frame/iframe表單的內嵌頁面中
switch_to.default_content() 跳回最外層的頁面
<html>
  <body>
    ...
    <iframe id="x-URS-iframe" ...>
      <html>
         <body>
           ...
           <input name="email" >

126郵箱登入框的結構大概是這樣子的,想要操作登入框必須要先切換到iframe表單。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.126.com")

driver.switch_to.frame('x-URS-iframe')
driver.find_element_by_name("email").clear()
driver.find_element_by_name("email").send_keys("username")
driver.find_element_by_name("password").clear()
driver.find_element_by_name("password").send_keys("password")
driver.find_element_by_id("dologin").click()
driver.switch_to.default_content()

driver.quit()

switch_to.frame() 預設可以直接取表單的id 或name屬性。如果iframe沒有可用的id和name屬性,則可以通過下面的方式進行定位。

……
#先通過xpth定位到iframe
xf = driver.find_element_by_xpath('//*[@id="x-URS-iframe"]')

#再將定位物件傳給switch_to.frame()方法
driver.switch_to.frame(xf)
……
driver.switch_to.parent_frame()

8.多視窗切換

在頁面操作過程中有時候點選某個連結會彈出新的視窗,這時就需要主機切換到新開啟的視窗上進行操作。WebDriver提供了switch_to.window()方法,可以實現在不同的視窗之間切換。

方法 說明
current_window_handle 獲得當前視窗控制代碼
window_handles 返回所有視窗的控制代碼到當前會話
switch_to.window() 用於切換到相應的視窗,與上一節的switch_to.frame()類似,前者用於不同視窗的切換,後者用於不同表單之間的切換。

例項演示

from selenium import webdriver
import time
driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get("http://www.baidu.com")

#1.獲得百度搜索視窗控制代碼
sreach_windows = driver.current_window_handle

driver.find_element_by_link_text('登入').click()
driver.find_element_by_link_text("立即註冊").click()

#1.獲得當前所有開啟的視窗的控制代碼
all_handles = driver.window_handles

#3.進入註冊視窗
for handle in all_handles:
    if handle != sreach_windows:
        driver.switch_to.window(handle)
        print('跳轉到註冊視窗')
        driver.find_element_by_name("account").send_keys('123456789')
        driver.find_element_by_name('password').send_keys('123456789')
        time.sleep(2)
    
driver.quit()

9.警告框處理

在WebDriver中處理JavaScript所生成的alert、confirm以及prompt十分簡單,具體做法是使用 switch_to.alert 方法定位到 alert/confirm/prompt,然後使用text/accept/dismiss/ send_keys等方法進行操作。

方法 說明
text 返回 alert/confirm/prompt 中的文字資訊
accept() 接受現有警告框
dismiss() 解散現有警告框
send_keys(keysToSend) 傳送文字至警告框。keysToSend:將文字傳送至警告框。

例項演示



from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

# 滑鼠懸停至“設定”連結
link = driver.find_element_by_link_text('設定')
ActionChains(driver).move_to_element(link).perform()

# 開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()

#在此處設定等待2s否則可能報錯
time.sleep(2)
# 儲存設定
driver.find_element_by_class_name("prefpanelgo").click()
time.sleep(2)

# 接受警告框
driver.switch_to.alert.accept()

driver.quit()

10.下拉框選擇操作

匯入選擇下拉框Select類,使用該類處理下拉框操作。

from selenium.webdriver.support.select import Select

Select類的方法

方法 說明
select_by_value(“選擇值”) 相當於我們使用滑鼠選擇下拉框的值

有時我們會碰到下拉框,WebDriver提供了Select類來處理下拉框。 如百度搜索設定的下拉框,如下圖:
這裡寫圖片描述

from selenium import webdriver
from selenium.webdriver.support.select import Select
from time import sleep

driver = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')

#1.滑鼠懸停至“設定”連結
driver.find_element_by_link_text('設定').click()
sleep(1)
#2.開啟搜尋設定
driver.find_element_by_link_text("搜尋設定").click()
sleep(2)

#3.搜尋結果顯示條數
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50')  # 顯示50條

sleep(3)
driver.quit()

11.檔案上傳

對於通過input標籤實現的上傳功能,可以將其看作是一個輸入框,即通過send_keys()指定本地檔案路徑的方式實現檔案上傳。

通過send_keys()方法來實現檔案上傳:

from selenium import webdriver
import os

driver = webdriver.Firefox()
file_path = 'file:///' + os.path.abspath('upfile.html')
driver.get(file_path)

# 定位上傳按鈕,新增本地檔案
driver.find_element_by_name("file").send_keys('D:\\upload_file.txt')

driver.quit()

12.cookie操作

有時候我們需要驗證瀏覽器中cookie是否正確,因為基於真實cookie的測試是無法通過白盒和整合測試進行的。WebDriver提供了操作Cookie的相關方法,可以讀取、新增和刪除cookie資訊。

WebDriver操作cookie的方法:

方法 說明
get_cookies() 獲得所有cookie資訊
get_cookie(name) 返回字典的key為“name”的cookie資訊
add_cookie(cookie_dict) 新增cookie。“cookie_dict”指字典物件,必須有name 和value 值
delete_cookie(name,optionsString) 刪除cookie資訊。“name”是要刪除的cookie的名稱,“optionsString”是該cookie的選項,目前支援的選項包括“路徑”,“域”
delete_all_cookies() 刪除所有cookie資訊

例項演示


from selenium import webdriver
import time
browser = webdriver.Chrome("F:\Chrome\ChromeDriver\chromedriver")
browser.get("http://www.youdao.com")

#1.列印cookie資訊
print('=====================================')
print("列印cookie資訊為:")
print(browser.get_cookies)

#2.新增cookie資訊
dict={'name':"name",'value':'Kaina'}
browser.add_cookie(dict)

print('=====================================')
print('新增cookie資訊為:')
#3.遍歷列印cookie資訊
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))
    
#4.刪除一個cookie
browser.delete_cookie('name')
print('=====================================')
print('刪除一個cookie')
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

print('=====================================')
print('刪除所有cookie後:')
#5.刪除所有cookie,無需傳遞引數
browser.delete_all_cookies()
for cookie in browser.get_cookies():
    print('%s----%s\n' %(cookie['name'],cookie['value']))

time.sleep(3)
browser.close()

13.呼叫JavaScript程式碼

雖然WebDriver提供了操作瀏覽器的前進和後退方法,但對於瀏覽器滾動條並沒有提供相應的操作方法。在這種情況下,就可以藉助JavaScript來控制瀏覽器的滾動條。WebDriver提供了execute_script()方法來執行JavaScript程式碼。

用於調整瀏覽器滾動條位置的JavaScript程式碼如下:

<!-- window.scrollTo(左邊距,上邊距); -->
window.scrollTo(0,450);

window.scrollTo()方法用於設定瀏覽器視窗滾動條的水平和垂直位置。方法的第一個引數表示水平的左間距,第二個引數表示垂直的上邊距。其程式碼如下:

from selenium import webdriver
from time import sleep

#1.訪問百度
driver=webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get("http://www.baidu.com")

#2.搜尋
driver.find_element_by_id("kw").send_keys("selenium")
driver.find_element_by_id("su").click()

#3.休眠2s目的是獲得伺服器的響應內容,如果不使用休眠可能報錯
sleep(2)

#4.通過javascript設定瀏覽器視窗的滾動條位置
js="window.scrollTo(100,450);"
driver.execute_script(js)
sleep(3)

driver.close()

通過瀏覽器開啟百度進行搜尋,並且提前通過set_window_size()方法將瀏覽器視窗設定為固定寬高顯示,目的是讓窗口出現水平和垂直滾動條。然後通過execute_script()方法執行JavaScripts程式碼來移動滾動條的位置。

14.視窗截圖

自動化用例是由程式去執行的,因此有時候列印的錯誤資訊並不十分明確。如果在指令碼執行出錯的時候能對當前視窗截圖儲存,那麼通過圖片就可以非常直觀地看出出錯的原因。WebDriver提供了截圖函式get_screenshot_as_file()來擷取當前視窗。

截圖方法:

方法 說明
get_screenshot_as_file(self, filename) 用於擷取當前視窗,並把圖片儲存到本地
from selenium import webdriver
from time import sleep

driver =webdriver.Firefox(executable_path ="F:\GeckoDriver\geckodriver")
driver.get('http://www.baidu.com')

driver.find_element_by_id('kw').send_keys('selenium')
driver.find_element_by_id('su').click()
sleep(2)

#1.擷取當前視窗,並指定截圖圖片的儲存位置
driver.get_screenshot_as_file("D:\\baidu_img.jpg")

driver.quit()

15.關閉瀏覽器

在前面的例子中我們一直使用quit()方法,其含義為退出相關的驅動程式和關閉所有視窗。除此之外,WebDriver還提供了close()方法,用來關閉當前視窗。例多視窗的處理,在用例執行的過程中打開了多個視窗,我們想要關閉其中的某個視窗,這時就要用到close()方法進行關閉了。

方法 說明
close() 關閉單個視窗
quit() 關閉所有視窗