Selenium2+python自動化37-爬頁面源碼（page_source）

阿新 • • 發佈：2018-05-06

鏈接通過 ive 正常的匹配 fir 元素 list集合 fire

前言

有時候通過元素的屬性的查找頁面上的某個元素，可能不太好找，這時候可以從源碼中爬出想要的信息。selenium的page_source方法可以獲取到頁面源碼。

selenium的page_source方法很少有人用到，小編最近看api不小心發現這個方法，於是突發奇想，這裏結合python的re模塊用正則表達式爬出頁面上所有的url地址，可以批量請求頁面url地址，看是否存在404等異常

一、page_source

1.selenium的page_source方法可以直接返回頁面源碼

2.重新賦值後打印出來

技術分享圖片

二、re非貪婪模式

1.這裏需導入re模塊

2.用re的正則匹配：非貪婪模式

3.findall方法返回的是一個list集合

4.匹配出來之後發現有一些不是url鏈接，可以刪選下

技術分享圖片

三、刪選url地址出來

1.加個if語句判斷，‘http’在url裏面說明是正常的url地址了

2.把所有的url地址放到一個集合，就是我們想要的結果啦

技術分享圖片

四、參考代碼

# coding:utf-8
from selenium import webdriver
import re
driver = webdriver.Firefox()
driver.get("http://www.cnblogs.com/yoyoketang/")
page = driver.page_source
# print page
# "非貪婪匹配,re.S(‘.‘匹配字符,包括換行符)"
url_list = re.findall(‘href=\"(.*?)\"‘, page, re.S)
url_all = []
for url in url_list:
if "http" in url:
print url
url_all.append(url)
# 最終的url集合
print url_all

Selenium2+python自動化37-爬頁面源碼（page_source）

鏈接通過 ive 正常的匹配 fir 元素 list集合 fire 前言有時候通過元素的屬性的查找頁面上的某個元素，可能不太好找，這時候可以從源碼中爬出想要的信息。selenium的page_source方法可以獲取到頁面源碼。 selenium的page

Selenium2+python自動化37-爬頁面源碼（page_source）

Selenium2+python自動化37-爬頁面源碼（page_source）

Selenium2+python自動化55-unittest之裝飾器（@classmethod）【轉載】

Selenium2+python自動化54-unittest生成測試報告（HTMLTestRunner）【轉載】

Selenium2+python自動化60-異常後截圖（screenshot）【轉載】

Selenium2+python自動化58-讀取Excel數據（xlrd）【轉載】

Selenium2+python自動化45-18種定位方法（find_elements）【轉載】

Selenium2+python自動化54-unittest生成測試報告（HTMLTestRunner）

Selenium2+python自動化55-unittest之裝飾器（@classmethod）

Selenium2+python自動化44-元素定位引數化（find_element）

Appium python自動化測試系列之Capability介紹（五）

Appium python自動化測試系列之認識Appium（四）

【python-excel】Selenium+python自動化之讀取Excel數據（xlrd）

Python自動化開發學習22-Django下（Form）

appium+python自動化33-解鎖九宮格（TouchAction）

selenium+python自動化97--unittest參數化（paramunittest）

Python自動化開發學習24-Django中（AJAX）

python使用scrapy爬取qq音樂（二）

python爬蟲爬取頁面源碼在本頁面展示

Selenium2+python自動化41-繞過驗證碼（add_cookie）

Selenium2+python自動化1-環境搭建(悠悠課程之路)

Selenium2+python自動化37-爬頁面源碼（page_source）

相關推薦