知乎爬蟲之模擬登入

阿新 • • 發佈：2019-01-14

爬蟲簡單的原理就是傳送一個請求到網站的伺服器，伺服器進行響應，然後從伺服器響應的內容解析出我們想要的資料
這裡我們將用requests庫來發送請求（Windows上面在控制檯通過pip3 install requests 進行安裝），
解析可以用beautifulsoup庫（用 pip3 install beautifulsoup安裝），不過在這裡暫時用不到解析，
python版本是3

第一步分析
使用chrome瀏覽器和火狐瀏覽器都可以，這裡我將使用火狐瀏覽器進行示範。
首先開啟知乎登入頁面，同時按F12開啟開發者工具：
這裡寫圖片描述

然後我們在這裡需要對瀏覽器進行一下設定，勾選啟用快取日誌，不然登入的時候你會發現傳送登入的請求連結剛開始一秒左右還能看見，載入一會後就消失了：這裡寫圖片描述

好了，輸入賬號密碼然後點選登入，神奇的一幕出現了：
這裡寫圖片描述
這個phone_num檔案就是我們想要找的，點選可以檢視到請求的網址是https://www.zhihu.com/login/phone_num和請求頭，請求頭的資訊將會被用到來構建我們程式碼中的請求頭，然後我們再看看引數，這是我們傳送請求是傳給網站伺服器的資料，待會也要用到，這裡我就不點開引數了給大家展示了，因為這裡有我自己的賬號資訊
登入成功會響應登入成功
好了，分析過程完了，我們開始寫程式碼了

第二步 寫程式碼

# -*- coding:utf-8 -*-
__author__="weikairen"

import  requests
from bs4 import  BeautifulSoup

URL='https://www.zhihu.com/login/phone_num' 

User_Agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36X-Requested-With:XMLHttpRequest'
headers = {'user-agent': User_Agent}
data={
 '_xsrf':'a626e45048da76595564ec6607fa0c9c',
  'password':'*******',
  'remember_me':'true',
  'phone_num' 
:'********'

}
#requests_session = requests.session()
#response = requests_session.post(url=URL, headers=headers,data=data)
# 這種和下面一行的方法是一樣的，這使用session方法是因為可以儲存cookie
# 這裡你可以先知道有這麼個用法
response=requests.post(url=URL, headers=headers,data=data)
print(response.json()['msg'])

好了，執行程式你就會在控制檯看見登入成功的字樣。
不過有時候你過於頻繁的登入，知乎就會讓你輸入驗證碼，驗證碼怎麼搞呢？不用怕，還是箱上面那樣在瀏覽器開發者工具裡面找驗證碼檔案，然後檢視它的請求URL，這個URL是以時間戳來構造的，我昨天還要輸入驗證碼，今天又不用輸入了，所以這裡我就不再截圖分析了，參考下面的程式碼

# -*- coding:utf-8 -*-
__author__="weikairen"

import  requests
from bs4 import  BeautifulSoup
import  time

BASE_URL='https://www.zhihu.com/'
LOGIN_URL=BASE_URL+'login/phone_num'
CAPTCHA_URL=BASE_URL+'captcha.gif?r='+str(int(time.time())*1000)+'&type=login'


def login():
    headers={
        'host':'www.zhihu.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0',
        'referer':"https://www.zhihu.com/",
        'X - Requested - With': "XMLHttpRequest"
    }                                                 #構造請求頭，講它偽裝成為瀏覽器
    captcha_content=requests.get(CAPTCHA_URL,headers=headers).content
    with open('C:\cap.gif','wb') as cap:       #將驗證碼圖片下載下來儲存到C盤的根目錄下面
        cap.write(captcha_content)
    captcha=input('請輸入驗證碼: ')
    data={
        '_xsrf': "94b6a3f4ba711971716bd8b863d9c91c",
        'password': "********",
        'captcha_type': "cn",
        'remember_me': "true",
        'phone_num': "********"
    }
    session = requests.session()                                      #這裡使用了session方法是因為可以自動儲存cookie在session中
    response=session.post(LOGIN_URL,data=data,headers=headers)
    print(response.json()['msg'])

login()

然後控制檯會列印登入成功，模擬登入就完成啦。。

每天一小步。。

知乎爬蟲之模擬登入

知乎爬蟲之模擬登入

python--python3爬蟲之模擬登入知乎

Python爬蟲之模擬登入豆瓣獲取最近看過的電影

知乎爬蟲之爬取專欄資訊

轉載-Python爬蟲之模擬登入總結

零基礎寫Java知乎爬蟲之準備工作

零基礎寫Java知乎爬蟲之進階篇

Python爬蟲之模擬登陸知乎

JAVA爬蟲初識之模擬登入

python 爬蟲之模擬登陸

知乎爬蟲（scrapy預設配置下單機1小時可爬取60多萬條資料）

Python3爬蟲之模擬登陸

豆瓣爬蟲：模擬登入（可直接在cmd執行）

VUE DEMO 之模擬登入個人中心頁面之間資料傳值

Python爬蟲之自動登入與驗證碼識別

一個簡單的分散式的知乎爬蟲

爬蟲入門到精通-headers的詳細講解（模擬登入知乎）

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

第一個爬蟲-知乎使用者關係之登入

知乎爬蟲之模擬登入

相關推薦