爬蟲系列5：scrapy動態頁面爬取的另一種思路

阿新 • • 發佈：2019-02-05

前面有篇文章給出了爬取動態頁面的一種思路，即應用Selenium+Firefox（參考《scrapy動態頁面爬取》）。但是selenium需要執行本地瀏覽器，比較耗時，不太適合大規模網頁抓取。

事實上，還有一種執行效率更高的方法。就是事先分析js發出的GET或者POST請求的網址，這樣通過python向目標地址發出同樣的請求，就可以得到與瀏覽器一致的response結果。

具體的步驟是：採用chrome瀏覽器中的除錯工具，分析網頁中用JavaScript獲取資料的request語句。具體分析步驟是：開啟監視工具（inspect）——網路（Network）——XHR（XMLHttpRequest），可以找到一個POST request對應的JavaScript或者ajax。接下來要做的就是直接對這個JavaScript或ajax做request操作，以獲取我們想要的資訊。

以下是通過傳送request，獲取response的程式碼示例：

import urllib2
import codecs
import json
 
#讀取json中所有的pid，並且生成url list
#sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='
defgetUrlList(pContent, sessionUrl):   
    posts = pContent['result']['posts']
    result = ["".join([sessionUrl,i['pid']]) for i in posts]
    return result
   
url ='http://buluo.qq.com/cgi-bin/bar/post/get_post_by_page?bid=254116&num=20&start=1980&source=2'
#注意headers應當使用dict型別，以適應request.add_header(key,value)的引數要求
#Cookie:pgv_pvi=1061844992; pgv_si=s7051931648
headers ={'Host':'buluo.qq.com',
           'Connection':'keep-alive',
           'Accept': 'application/json',
           'X-Requested-With':'XMLHttpRequest',
           'User-Agent': 'Mozilla/5.0 (WindowsNT 6.1; WOW64) AppleWebKit/537.36 '+
           '(KHTML, like Gecko)Chrome/50.0.2661.102 Safari/537.36',
           'Referer':'http://buluo.qq.com/p/barindex.html?bid=254116',
           'Accept-Language': 'zh-CN,zh;q=0.8',                   
           }
data = None
req =urllib2.Request(url, data, headers)
response =urllib2.urlopen(req)
content =response.read().decode('utf-8')
 
withcodecs.open('./content.txt', 'wb', encoding = 'utf-8', errors='ignore') as f:
         f.write(content)
 
sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='
pContent =json.loads(content);
ifpContent['result']['total'] != 0:
    print getUrlList(pContent, sessionUrl)
else:
    print "no contents in this page!"

爬蟲系列5：scrapy動態頁面爬取的另一種思路

前面有篇文章給出了爬取動態頁面的一種思路，即應用Selenium+Firefox（參考《scrapy動態頁面爬取》）。但是selenium需要執行本地瀏覽器，比較耗時，不太適合大規模網頁抓取。事實上，還有一種執行效率更高的方法。就是事先分析js發出的GET或者POST請求

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

一、前言今天給大家分享的是，Python裡的爬蟲框架Scrapy學習，包含python虛擬環境的搭建、虛擬環境的使用、Scrapy安裝方法詳解、Scrapy基本使用、Scrapy專案目錄及內容基本介紹，let’s go！二、Python爬蟲框架Scrapy簡介推薦

Python3.X 爬蟲實戰（動態頁面爬取解析）

1 背景不知不覺關於 Python 3.X 爬蟲系列已經介紹瞭如下系列：到此關於 Python3.x 靜態頁面爬蟲的基礎核心基本已經介紹的差不多了，剩下的就是一些自己個性化的需求了，譬如爬取資料分析等，這種我們後面還會專門來說的。然而我們在該

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

爬蟲練習五：多進程爬取股市通股票數據

pen ... 3.6 job form append head odi date 在上網查閱一些python爬蟲文章時，看見有人分享了爬取股票的交易數據，不過實現得比較簡單。這裏就做個小練習，從百度股票批量爬取各股票的交易信息。文章出處為：Python 爬蟲實戰(2)：

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

環境：py3.6 核心庫：selenium(考慮到通用性，js載入的網頁)、pyinstaller 顏色顯示：colors.py colors.py 用於在命令列輸出文字時，帶有顏色，可有可無。 # -*- coding:utf-8 -*-# # filename: prt_cmd_color.py

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

爬蟲系列3：Requests+Xpath 爬取租房網站信息並保存本地

imp 情侶 http \n 頻率 lazy desktop 火車 mode 數據保存本地參考前文爬蟲系列1：https://www.cnblogs.com/yizhiamumu/p/9451093.html 參考前文爬蟲系列2：https://www.cnblo

一起學爬蟲 Node.js 爬蟲篇（三）使用 PhantomJS 爬取動態頁面

今天我們來學習如何使用 PhantomJS 來抓取動態網頁，至於 PhantomJS 是啥啊什麼的，看這裡我們這裡就不再討論 PhantomJS 的入門基礎了。下面正題 1.我們先準備，開啟瀏覽器，輸入網址 http://news.163

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

Java爬蟲系列二：使用HttpClient抓取頁面HTML

爬蟲要想爬取需要的資訊，首先第一步就要抓取到頁面html內容，然後對html進行分析，獲取想要的內容。上一篇隨筆《Java爬蟲系列一：寫在開始前》中提到了HttpClient可以抓取頁面內容。今天就來介紹下抓取html內容的工具：HttpClient。圍繞下面幾個點展開：什麼是HttpCl

C++遊戲系列5：不止有一件武器

location ref 初始 .text isalive urn lan dead then 很多其它見：C++遊戲系列文件夾知識點：對象數組作為數據成員改進：每一個角色所持有的武器不僅僅一件，故持有的武器，用了對象數組來表示，當然，也能

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

爬蟲系列5：scrapy動態頁面爬取的另一種思路

相關推薦