python爬取JS動態網頁完整指南（selenium+chrome headless）

阿新 • • 發佈：2019-01-25

11.23：更新，每次還要開啟瀏覽器多影響執行效率，看到蟲師講了chrome headless，非常好用

引用新增：
from selenium.webdriver.chrome.options import Options 
程式碼新增：
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=chrome_options)

完整程式碼參考最下方

------------------------------------------------------------------簡單分割線------------------------------------------------------------------

11.22：最近，是的又是最近，前端元件優化，我需要做一個非常簡單但是機械的動作，就是點選各個頁面的連結，確保訪問都是正常的。於是想寫個指令碼, 簡單實現驗證網頁無效連結.

本以為是個很簡單的指令碼，但是寫著寫著發現爬取的網頁找不到<a>標籤，也找不到連結地址，和前端小夥伴詢問了一下，發現，html頁面需要執行js後才會展示，直接爬取無法獲得需要的資訊。

解決思路：

1. 右鍵inspect後最重要的一個資訊就是body部分有一個<div id='XXXX'>

2. 在網頁控制檯上執行 document.getElementById("ID").innerHTML可獲取html頁面資訊，所以我的整體思路就是基於如何在python腳本里執行js

3. 於是，全網搜尋，然大部分文章都一無所獲，嘗試了幾種網上提供的辦法，有一個看起來很靠譜的，是用dryscrape庫，說是開源瀏覽器引擎webkit可以解決這個問題，而dryscrape就是其中一個庫，可是，這個庫根本無法下載成功，浪費了不少時間，最後還是轉戰到selenium，所以安裝selenuim，並且下載對應的谷歌或火狐驅動。

4. 這個思路的另一個關鍵是一條語句：

html=driver.execute_script('return document.getElementById("ID").innerHTML')

5. 然後用正則表示式通過<a>標籤找到頁面的所有連結，至此，大部分工作已經完成。

具體程式碼如下，僅供參考：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options 
import re
from urllib.parse import urlparse,urljoin
import requests

url='目標地址' 如https://www.baidu.com
domain='域名' 如www.baidu.com

'''無頭瀏覽器模式，執行放在後臺'''
chrome_options=Options()
chrome_options.add_argument('--headless')

driver=webdriver.Chrome(executable_path='存放chrome驅動的路徑',chrome_options=chrome_options)
driver.get(url)
html=driver.execute_script('return document.getElementById("rc-root").innerHTML')
driver.quit()
pattern = '(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')'
links=re.findall(pattern,html)
print(links)
for link in links:
    result=urlparse(link)
    if result.netloc=='':
        if result.path=='[email protected]': #這是一個郵箱地址直接跳轉，我排除了該連結
            continue
        else:
            url_type='內部連結'
    else:
        if domain in link:
            url_type='內部連結'
        else:
            url_type='外部連結'
# 使用 urllib.parse.urljoin將相對的一個地址組合成一個url，對於輸入沒有限制，開頭必須是http://或者https://，否則將不組合前面的部分。
    try:
        response=requests.get(link)
        if 500>response.status_code>=400:
            print(f"{url_type}-{response.status_code}-{link} 失敗")
        else:
            print(f"{url_type}-{response.status_code}-{link} 成功")
    except Exception as e:
        print("出現異常:",e)

謝謝你的瀏覽，一切順利！

python爬取JS動態網頁完整指南（selenium+chrome headless）

python爬取JS動態網頁完整指南（selenium+chrome headless）

使用python抓取js動態載入的網頁

scrapy利用scrapy-splash爬取JS動態生成的標籤

爬取JS動態生成的URL

Python爬取ajax動態載入內容

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

通過抓取淘寶評論為例講解Python爬取ajax動態生成的資料

Python爬取異步加載的網站selenium+PhantomJS

用python爬取新浪微博資料（無需手動獲取cookie)

關於爬取json內容生成詞雲（瘋狂踩坑）

HttpClient 實現爬取百度搜索結果（自動翻頁）

用R語言（rvest包）爬取獵聘網招聘資訊（保證可重複性）

scrapy 爬取知乎登入認證部分（採用cookie登入）

python爬取網頁包含動態js資訊（3.7 +，2.7+）

python 爬取世紀佳緣,經過js渲染過的網頁的爬取

Python 爬取網頁中JavaScript動態添加的內容（二）

python 爬取動態網頁（百度圖片）

Python 爬取網頁中JavaScript動態新增的內容（二）

Python 爬取網頁中JavaScript動態新增的內容（一）

selenium+chromedrive 爬取js載入的動態網頁（下拉才能顯示內容）

python爬取JS動態網頁完整指南（selenium+chrome headless）

相關推薦