Scrapy利用Splash抓取動態頁面

阿新 • • 發佈：2019-02-14

之前的例子，我爬取的都是些靜態頁面中的資訊，爬取容易。但是目前大多數網站都是動態的，動態頁面中的部分內容是瀏覽器執行頁面中的JavaScript指令碼動態生成的，爬取相對困難。

動態網頁一般兩種思路，一是找到api介面偽裝請求直接請求資料，另一種是沒有辦法模擬的時候需要渲染環境。

這裡我使用了第二種方法

Splash是Scrapy官方推薦的JavaScript渲染引擎，它是使用Webkit開發的輕量級無介面瀏覽器，提供基於HTTP介面的JavaScript渲染服務，支援以下功能：

為使用者返回經過渲染的HTML頁面或頁面截圖
併發渲染多個頁面
關閉圖片載入，加速渲染
在頁面中執行使用者自定義的JavaScript程式碼

執行使用者自定義的渲染指令碼（lua），功能類似於PhantomJS

如何使用Splash:

splash使用的是Splash HTTP API，所以需要一個Splash Instance,一般採用docker執行splash，所以需要安裝docker
```
sudo apt-get install docker
```
拉取映象
```
sudo docker pull scrapinghub/splash
```

在本機的8050和8051埠開啟Splash服務

docker run -p 8050:8050 -p 8051:8051 scrapinghub/splash

安裝scrapy-splash
```
pip install scrapy-splash
 
```

配置splash服務（settings.py）

# Splash伺服器地址
SPLASH_URL = 'http://localhost:8050'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
# 設定去重過濾器
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

# 用來支援cache_args
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

例子：

for index, id in enumerate(ids):
            req = SplashRequest(self.detail_url + str(id))
            req.callback = self.parse_detail
            req.endpoint = 'render.html'
            req.meta['tel'] = tel
            req.meta['name'] = name
            req.meta['id'] = id
            req.args = {'wait': 0.5}
            yield req

Scrapy利用Splash抓取動態頁面

之前的例子，我爬取的都是些靜態頁面中的資訊，爬取容易。但是目前大多數網站都是動態的，動態頁面中的部分內容是瀏覽器執行頁面中的JavaScript指令碼動態生成的，爬取相對困難。動態網頁一般兩種思路，一是找到api介面偽裝請求直接請求資料，另一種是沒有辦法模

scrapy-splash抓取動態數據例子八

ear .config war rep ont code port 動態數據 shm 一、介紹　　　　本例子用scrapy-splash抓取界面網站給定關鍵字抓取咨詢信息。　　　　給定關鍵字：個性化；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題

scrapy-splash抓取動態數據例子十一

tel ems 網站 tput findall spi 來源標題 end 　　一、介紹　　　　本例子用scrapy-splash抓取活動樹網站給定關鍵字抓取活動信息。　　　　給定關鍵字：數字；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題　

scrapy實戰：scrapy-splash抓取動態資料

scrapy實戰：scrapy-splash抓取動態資料 docker安裝拉取scrapinghub/splash映象啟動Splash 安裝 scrapy-splash 新建taobao spider專案 settings.py

scrapy-splash抓取動態資料例子一

　　目前，為了加速頁面的載入速度，頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得　　解決方案：　　1、利用第三方中介軟體來提供JS渲染服務： scrapy-splash 等

玩玩小爬蟲——抓取動態頁面

在ajax橫行的年代，很多網頁的內容都是動態載入的，而我們的小爬蟲抓取的僅僅是web伺服器返回給我們的html，這其中就跳過了js載入的部分，也就是說爬蟲抓取的網頁是殘缺的，不完整的，下面可以看下部落格園首頁從首頁載入中我們看到，在頁面呈現後，還會有5

C#利用phantomJS抓取AjAX動態頁面

tin 文件 stringbu == 導致 style 間隔 edi zip壓縮在C#中，一般常用的請求方式，就是利用HttpWebRequest創建請求，返回報文。但是有時候遇到到動態加載的頁面，卻只能抓取部分內容，無法抓取到動態加載的內容。如果遇到這種的話，推薦

Scrapy抓取動態網頁

都是搜索華盛頓 etime 觀察 review llb 得到我們動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過JS/ AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成&l

爬蟲（抓取靜態頁面和動態頁面的區別，get請求和post請求的區別）

靜態頁面：非結構化資料：HTML 處理方式：正則表示式，xpath, beautifulsoup4 靜態頁面中的資料都包含在網頁的HTML中（一般都是get請求）所以可以直接在網頁的HTML中提取資料關鍵詞一般都以查詢字串的方式拼接在URL中分析URL的變

利用selenium爬取動態渲染的頁面

說明對於有些網站來說，他的網頁不是純HTML標籤加載出來的，而是用javascript渲染出來的，對於這樣的網頁，如果單純的靠正則表示式、XPath來解析是行不通的。對於這樣的網頁，一是我們可以分析ajax請求，分析ajax引數發現其規律，自行模擬ajax請求

Selenium及Headless Chrome抓取動態HTML頁面

一般的的靜態HTML頁面可以使用requests等庫直接抓取，但還有一部分比較複雜的動態頁面，這些頁面的DOM是動態生成的，有些還需要使用者與其點選互動，這些頁面只能使用真實的瀏覽器引擎動態解析，Selenium和Chrome Headless可以很好的達到這種目的。 Headless Chrome He

（python解析js）scrapy結合ghost抓取js生成的頁面，以及js變數的解析

現在頁面用ajax的越來越多, 好多程式碼是通過js執行結果顯示在頁面的（比如：http://news.sohu.com/scroll/，搜狐滾動新聞的列表是在頁面請求時由後臺一次性將資料渲染到前臺js變數newsJason和arrNews裡面的，然後再由js生

Scrapy筆記（12）- 抓取動態網站

前面我們介紹的都是去抓取靜態的網站頁面，也就是說我們開啟某個連結，它的內容全部呈現出來。但是如今的網際網路大部分的web頁面都是動態的，經常逛的網站例如京東、淘寶等，商品列表都是js，並有Ajax渲染，下載某個連結得到的頁面裡面含有非同步載入的內容，這樣再使用之前的方式我們根本獲取不到非同步載入的這些網頁內

python scrapy爬取動態頁面

preface:最近學習工作之外，有個朋友需要爬取動態網頁的要求，輸入關鍵詞爬取某個專利網站在該關鍵詞下的一些專利說明。以往直接python urllib2可破，但是那只是對於靜態網頁可破，但是對於用js等其他的生成的動態網頁的話，則貌似不行（沒試過）。然後在網上找了些資料

利用 selenium 抓取淘寶信息

tle clas date screens pin sleep source log pre import lxml from bs4 import BeautifulSoup import time from selenium import webdriver impo

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

Winform實現抓取web頁面內容的方法

ati ins ren bottom parent bdc img ont c# 本文以一個非常簡單的實例講述了Winform實現抓取web頁面內容的方法，代碼簡潔易懂，非常實用！分享給大家供大家參考。具體實現代碼如下：WebRequest request = WebR

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

有時 oms 世界 tel 4.0 取出 itl imp syntax Web抓取Web站點使用HTML描述，這意味著每個web頁面是一個結構化的文檔。有時從中獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式，如 csv 或者 json 提供它們的數據

Python3的requests類抓取中文頁面出現亂碼的解決辦法

view www. .com ons 分享圖片 exceptio code gem tex 這種亂碼現象基本上都是編碼造成的，我們要轉到我們想要的編碼，先po一個知識點，嵩天老師在Python網絡爬蟲與信息提取說到過的：response.encoding是指從

Scrapy利用Splash抓取動態頁面

相關推薦