Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

阿新 • • 發佈：2019-01-08

爬蟲的一般思路：

抓取網頁、分析請求
解析網頁、尋找資料
儲存資料、多頁處理

本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。

尋找真實請求的三個步驟

分析：使用谷歌瀏覽器開發者工具分析網頁的請求
測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數

重複：多次重複尋找符合爬蟲需要的真實請求

實戰環節：爬取知乎

通過爬取知乎“輪子哥”——vczh關注的人分析Ajax或者JavaScript載入的資料的真實請求並展示這種爬取方法的具體過程。

1. 尋找真實請求的測試

首先，進入“輪子哥——vczh”關注的人的頁面（注意：需要先登入個人知乎賬號）
通過禁止JavaScript載入的方法發現頁面不能正常載入，確認該頁面的翻頁是通過JavaScript載入資料實現的

使用谷歌瀏覽器開發者工具尋找包含關注人資訊的真實請求，可以發現真實請求是以“followees”開頭的請求，其返回一個JSON格式的資料，該資料對應下一頁的“他關注的人”：
雙擊這個請求，返回一個JSON格式的資料，可以通過安裝JSONView外掛在瀏覽器中更好地顯示該資料
接下來便可以嘗試爬取該請求的資料

2. 嘗試爬取真實請求的資料

首先使用前幾節課所學requests.get()嘗試爬取資料

可以發現返回了“500 Server Error”，即由於網站反爬蟲的原因，伺服器返回了“500服務錯誤”

該問題可以通過新增hearders請求頭資訊解決

3. 新增hearders請求頭資訊模擬瀏覽器訪問

請求頭資訊承載了關於客戶端瀏覽器、請求頁面、伺服器等相關的資訊，用來告知伺服器發起請求的客戶端的具體資訊

知乎的反爬蟲機制是通過核對請求頭資訊實現的，所以需要在使用requests請求資料的時候加上所需的請求頭

對比知乎的請求頭資訊和常見的請求頭資訊，發現知乎請求頭多了authorization和X-UDID的資訊

在爬蟲程式中新增請求頭資訊，即新增headers

# -*- coding:utf-8 -*-

import requests

headers = {
   'authorization':' ', #括號中填上你的authorization
   'User-Agent':' ', #括號中填上你的User-Agent
}
url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=20&limit=20'
response= requests.get(url, headers = headers).json()

print(response)

最終程式碼：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Tue Mar 20 16:01:47 2018

@author: Jackie
"""

import requests
import pandas as pd
import time

headers = {
        'authorization':'Bearer 2|1:0|10:1519627538|4:z_c0|92:Mi4xYzBvWkFBQUFBQUFBSU1JaTVqRU1EQ1lBQUFCZ0FsVk5FdnVBV3dEdHdaRmtBR1lmZEpqT3VvdmtpSm5QMWtkZ1ZB|787597598f41757929f46f687f78434dbc66d6abc980e40fb50b55cd09062b07',
        'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
        'x-udid':'ACDCIuYxDAyPTg7eVnDe8ytVGX6ivGdKZ9E=',
        }


user_data = []

def get_user_data(page):
    
    for i in range(page):
        url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
        response = requests.get(url, headers = headers).json()['data']
        user_data.extend(response)
        print('正在爬取第%s頁' %str(i+1))
        time.sleep(1)
    
    
if __name__ == '__main__':
    get_user_data(3)
    df = pd.DataFrame(user_data)
    df.to_csv('users.csv')

補充知識

1. JSON

JSON是一個輕量級的資料交換格式，連線API進行資料爬取的時候，資料的一般返回格式為JSON。
JSONView外掛：前往Chrome JSONView外掛安裝，下載並安裝JSONView外掛，使JSON格式的資料在谷歌瀏覽器中更好地呈現

2. HTTP請求

HTTP請求方法：閱讀HTTP請求方法，學習HTTP的GET和POST請求方法，瞭解其它請求方法
HTTP Hearders：閱讀HTTP響應頭和請求頭資訊對照表，瞭解請求頭和響應頭的概念以及每個Header所代表的具體含義
更多關於requests headers的用法，可以查閱requests的官方文件

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

前面幾篇文字我們介紹了相關的爬蟲的方法爬取網站內容和網站的圖片，且儲存到資料庫中。今天呢，我們來次實戰練習，爬取知乎網站跟話題網站top的幾個問題和答案，然後儲存到資料庫中，最後把資料庫中的所有內容再匯出到Excel中。我們還是繼續之前的程式碼，同樣的程式碼

Python爬蟲（入門+進階）學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體，知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件通常，Request物件在爬蟲程式中生成並傳遞到系統，直到它們到達下載程式，後者執行請求並返回一個Response物件，

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

爬蟲的定義：網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。網頁的兩種載入方法同步載入：改變網址上的某些引數會導致網頁發生改變，例如：www.itjuzi.com/compa

Python爬蟲（入門+進階）學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包numpy： (Numerical Python的簡稱)，是高效能科學計算和資料分析的基礎包pandas：基於Numpy建立的Python包，含有使資料分析工作變得更加簡單的高階資料結構和操作工具matplotlib：是一個用於創建出版質量圖

Python爬蟲（入門+進階）學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

本章節將會系統地介紹如何通過Scrapy框架把爬蟲工程化。本節主要內容是：簡單介紹Python和爬蟲的關係，以及將要使用的Scrapy框架的工作流程。Python適合做爬蟲的原因語言本身簡單，適合敏捷開發有比較完善的工具鏈足夠靈活，以應對各種突然狀況爬蟲的知識體系前端相關知識：html，css，js；瀏覽器相

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（資料視覺化）

上一篇總結了《Python從入門到實踐》的第1章至第11章即基礎語法篇，這篇文章將介紹本書的專案篇之資料視覺化。 #專案一資料視覺化 #繪製簡單的折線圖 import matplotlib.p

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（API的使用）

上幾篇介紹了《Python程式設計從入門到實踐》的語法篇及2個專案篇。這篇文章介紹Python專案篇之API的使用。 #Python網路程式設計--API的使用 #執行API呼叫並處理結果 imp

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（下載資料）

上兩篇文章分別介紹了《Python程式設計從入門到實踐》的語法篇和專案篇（資料視覺化），這篇文 #專案二下載資料 #訪問並可視化csv和json這兩種常見格式儲存的資料 #csv #提取並讀取資料 import csv filename='filename.c

ES6標準入門（第三版）學習筆記(1)

ES6宣告變數的六種方法 ES5只有兩種 var，function命令 ES6新增了let，const，class，import命令驗證var與let用法上的不同 var a = []; for (var i = 0; i < 10; i++){

【進階3-5期】深度解析 new 原理及模擬實現（轉）

這是我在公眾號（高階前端進階）看到的文章，現在做筆記 https://github.com/yygmind/blog/issues/24 new 運算子建立一個使用者定義的物件型別的例項或具有建構函式的內建物件的例項。 ——（來自於MDN）舉個例子： function Car(color) {

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

【Python3.6爬蟲學習記錄】（五）Cookie的使用以及簡單的爬取知乎

前言 Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）。有些網站需要登入後才能訪問某個頁面，比如知乎的回答，QQ空間的好友列表、微博上關注的人和粉絲等，在登入之前，你想抓取某

卷積神經網路（cnn）學習筆記1:入門

卷積神經網路卷積神經網路（Convolutional Neural Network,CNN）是深度學習技術中極具代表的網路結構之一，在影象處理領域取得了很大的成功，在國際標準的ImageNet資料集上，許多成功的模型都是基於CNN 的。CNN相較於傳統的影象

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

最完整的臺達PLC培訓教程（沈陽工大）學習筆記1

啟動 ces 編程管理可擴展開頭使用 body 出錯 1）可編程控制器的應用1 開關量邏輯控制：電動機啟動與停止2 運動控制：對步進電動機或伺服電動機的單軸或多軸系統實現位置控制3 過程控制：對溫度、壓力、流量等連續變化的模擬量進行閉環控制4 數據處理：數據采集-

spring (4.0.2)——（尚矽谷）學習筆記1

aspect 什麽企業應用周期持久層非侵入 mvc 註入 JD 1、Spring是什麽？　　①Spring 是一個開源框架；　　②Spring 為簡化企業級應用開發而生。使用Spring可以使簡單的JavaBean實現以前只有EJB才能實現的功能。　　③Spr

Python 爬蟲第一天改良版【學習筆記】

晚上改良了下午寫的那個，可以批量獲取新浪新聞網頁了。不過也是搬磚來的別人寫好我抄了一遍。from bs4 import BeautifulSoup as bs import requests import csv import json, re import pandas #csv_file = o

影象處理與分析（岡薩雷斯第二版）學習筆記1

第一章，緒論 1，數字影象處理裡面的影象是什麼？一幅影象可以定義為一個二維函式f(x,y)，其中（x,y）表示影象中每一點空間座標，f(x,y)為幅值大小，對應每一點的強度或者灰度，當x,y和幅值f為離散數值時，該影象被稱為數字影象。 2，數字影象處理是什麼？數字影象處理是指借用

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：

尋找真實請求的三個步驟

實戰環節：爬取知乎

1. 尋找真實請求的測試

2. 嘗試爬取真實請求的資料

3. 新增hearders請求頭資訊模擬瀏覽器訪問

補充知識

1. JSON

2. HTTP請求

相關推薦