Python爬蟲爬取動態頁面思路+例項（一）

阿新 • • 發佈：2019-01-07

簡介

有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。

這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷QQ空間或者微博評論的時候，一直往下刷，網頁越來越長，內容越來越多，就是這個讓人又愛又恨的動態載入。

爬取動態頁面目前來說有兩種方法

分析頁面請求（這篇介紹這個）
selenium模擬瀏覽器行為（霸王硬上弓，以後再說）

言歸正傳，下面介紹一下通過分析頁面請求的方法爬取動態載入頁面的思路。中心思想就是找到那個發請求的javascript檔案所發的請求。

舉兩個例子，京東評論和上證股票。

後注：本文的兩個例子都是get請求，可以顯示的在瀏覽器中檢視效果，如果是post請求，需要我們在程式中構造資料，構造方法可以參考我從前的一篇博文Scrapy定向爬蟲教程(六)——分析表單並回帖。

京東評論

這是一個比較簡單的例子。

首先我們隨便找一個熱賣的商品，評論比較多。

點進去看看這個頁面現在的狀況

滾動條給的第一印象感覺這頁彷彿沒多少內容。

鍵盤F12開啟開發者工具，選擇Network選項卡，選擇JS（3月12日補：除JS選項卡還有可能在XHR選項卡中，當然也可以通過其它抓包工具），如下圖

然後，我們來拖動右側的滾動條，這時就會發現，開發者工具裡出現了新的js請求（還挺多的），不過草草翻譯一下，很容易就能看出來哪個是取評論的，如下圖

在瀏覽器中開啟，發現我們想要的資料就在這裡，如下圖

這整個頁面是一個json格式的資料，對於京東來說，當用戶下拉頁面時，觸發一個js事件，向伺服器傳送上面的請求取資料，然後通過一定的js邏輯把取到的這些json資料填充到HTML頁面當中。對於我們Spider來說，我們要做的就是把這些json資料整理提取。

在實際應用中，當然我們不可能去每個頁面裡找出來這個js發起的請求目標地址，所以我們需要分析這個請求地址的規律，一般情況下規律是比較好找的，因為規律太複雜服務方維護也難。那我們就來看一下京東這個請求：

https://club.jd.com/comment/productPageComments.action 
?callback=fetchJSON_comment98vv337&productId=3311073&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0

挺長的一個GET請求，不過引數命名都很規範，產品ID，評論頁碼什麼的，因為我這裡只是舉個例子，我就不一個一個去研究了~

思路有了，就按照正常的爬蟲去寫就好了，發請求，得到響應，解析資料，後續處理等等……

上證股票

這是前段時間一位道友問我的一個問題，感覺還是挺有嚼頭的，比上例要難。

目的是把每一頁的股票資訊都得到，看似很簡單，但是通過檢視原始碼發現，每一頁的連結在原始碼裡是看不到的。如下圖

ok，又是js動態載入，在原始碼裡不顯示，不過一定躲不過我們的開發者工具，按照上面京東的思路，切到Network、js選項卡，點選頁碼，獲得請求地址，一切行雲流水，如下圖

然而，當我們複製出這個url，在瀏覽器中開啟的時候，瀏覽器呈現的資訊卻是：

403錯誤！奇哉怪也！

究其原因，403狀態碼什麼意思呢？意思就是說，本伺服器知道你發來這一串url想找啥呢，但是老子就不給你！

怎麼辦，有辦法~

想想看，為什麼我們在那個頁面上點選第二頁第三頁的時候能夠正常的獲取到資料？為什麼我們直接請求不行？都是同一個瀏覽器呀。

問題就在於，瀏覽器通過上一個頁面發起的請求和單獨發的請求，頭資訊（request header）是不同的，比方說cookie、refer這些欄位，伺服器就通過這些就把我們的請求過濾掉了。

瀏覽器如此，我們的爬蟲也是如此，最後我解決這個問題的方法是給爬蟲設定詳細的請求頭（從我們能請求到的原始頁獲得），包括cookie，refer等，終於成功的得到了返回的json資料。

這份程式碼是用python3的urllib寫的，我只幫他寫了取一頁的資料，邏輯他自己去寫了。如下，看官不妨試試將頭資訊去掉~

import urllib.request

Cookie = "PHPStat_First_Time_10000011=1480428327337; PHPStat_Cookie_Global_User_Id=_ck16112922052713449617789740328; PHPStat_Return_Time_10000011=1480428327337; PHPStat_Main_Website_10000011=_ck16112922052713449617789740328%7C10000011%7C%7C%7C; VISITED_COMPANY_CODE=%5B%22600064%22%5D; VISITED_STOCK_CODE=%5B%22600064%22%5D; seecookie=%5B600064%5D%3A%u5357%u4EAC%u9AD8%u79D1; _trs_uv=ke6m_532_iw3ksw7h; VISITED_MENU=%5B%228451%22%2C%229055%22%2C%229062%22%2C%229729%22%2C%228528%22%5D"

url = "http://query.sse.com.cn/security/stock/getStockListData2.do?&jsonCallBack=jsonpCallback41883&isPagination=true&stockCode=&csrcCode=&areaName=&stockType=1&pageHelp.cacheSize=1&pageHelp.beginPage=3&pageHelp.pageSize=25&pageHelp.pageNo=3&pageHelp.endPage=31&_=1480431103024"

headers = {
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36',
    'Cookie': Cookie,
    'Connection': 'keep-alive',
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'Host': 'query.sse.com.cn',
    'Referer': 'http://www.sse.com.cn/assortment/stock/list/share/'
}

req = urllib.request.Request(url,None,headers)
response = urllib.request.urlopen(req)
the_page = response.read()
print(the_page.decode("utf8"))

結語

還是那句話，通過分析頁面請求的方法爬取動態載入頁面的思路。中心思想就是找到那個發請求的javascript檔案所發的請求。然後利用我們既有的爬蟲知識去構造請求就可以了。

臨近考試，寫作較為匆忙。如果本文有敘述不清或者不正確的地方，還請批評指正。

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

python爬蟲爬取ajax頁面

# coding:utf-8 # 引入selenium中的webdriver import re from urllib import urlretrieve from selenium import

python scrapy爬取動態頁面

preface:最近學習工作之外，有個朋友需要爬取動態網頁的要求，輸入關鍵詞爬取某個專利網站在該關鍵詞下的一些專利說明。以往直接python urllib2可破，但是那只是對於靜態網頁可破，但是對於用js等其他的生成的動態網頁的話，則貌似不行（沒試過）。然後在網上找了些資料

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

利用協程asyncio爬取搜狗美女圖片（一）——asyncio庫的介紹和使用

上一節，我們通過分析ajax爬取搜狗美女圖片，（連結https://blog.csdn.net/MG1723054/article/details/81735834）這樣爬取的效率相對來說比較高，在文章的末尾我們使用程序池來提高效率，但是由於爬蟲主要是密集型IO操作，利用程序對其提高時效率不高，

【利用python進行資料分析】準備與例項（一）

我已經分享了本書的ipynb，所以跟著我一起來實驗吧。如果你不懂怎麼開啟ipynb格式的檔案，那也沒關係，anaconda3讓一切變得更簡單（我像是打廣告的）。安裝玩anaconda之後，我們在開始裡就可以找到它的資料夾，裡面有一個Jupyter Notebook，就是它了。

零基礎爬取堆糖網圖片（一）

## 零基礎爬取堆糖網圖片（一） ### 全文介紹：首先**堆糖網**是一個美圖桌布興趣社群，有大量的~~美女~~圖片今天我們實現搜尋關鍵字爬取堆糖網上相關的美圖。當然我們還可以實現多執行緒爬蟲，加快爬蟲爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/

Python爬蟲之爬取動態頁面資料

很多網站通常會用到Ajax和動態HTML技術，因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。先看看如何分辨網站時靜態的還是動態的，正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的，簡便的方法就是在

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python爬蟲——爬取網站的例項化原始碼

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題 2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作 import re import urllib.request def function(): """需求：1 https://re

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

一起學爬蟲 Node.js 爬蟲篇（三）使用 PhantomJS 爬取動態頁面

今天我們來學習如何使用 PhantomJS 來抓取動態網頁，至於 PhantomJS 是啥啊什麼的，看這裡我們這裡就不再討論 PhantomJS 的入門基礎了。下面正題 1.我們先準備，開啟瀏覽器，輸入網址 http://news.163

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

Python爬蟲爬取動態頁面思路+例項（一）

簡介

京東評論

上證股票

結語

相關推薦