1. 程式人生 > >網站爬取-案例四:知乎抓取(COOKIE登錄抓取個人中心)(第二卷)

網站爬取-案例四:知乎抓取(COOKIE登錄抓取個人中心)(第二卷)

img 正則 人員 gin 爬取 com 個人 我們 一個

接著上卷來分析,作為開發人員我們都知道,登錄是一個想指定URL發送POST請求的過程,所以我們需要找到請求的URL,以及字段,先用一個錯誤賬號和密碼做一下嘗試,如果是正確的話會直接跳轉到別的頁面,這樣COOKIE就會刷新

技術分享圖片

很明顯拿到了URL看的出來這是手機號的方式進行登錄,看下數據

技術分享圖片

_xsrf保證請求得安全性防止攻擊

再用EMAIL試一下

技術分享圖片看下參數

技術分享圖片

效果相似

這樣請求的URL以及字段都找到了

現在我們需要判斷請求類型,先通過源碼找一下_xsrf

技術分享圖片

現在我們開始編譯

技術分享圖片兼容寫法引入COOKLELIB

技術分享圖片登陸請求

技術分享圖片獲取_xsrf

技術分享圖片正則獲取

技術分享圖片看下結果

技術分享圖片這次可以請求,但是這裏需要做個登陸,我們這裏用下REQUESTS裏的SESSION,加大效率

技術分享圖片這樣不用一次次請求了

技術分享圖片全部換掉

技術分享圖片調用方法用於存儲

技術分享圖片

技術分享圖片

保存到本地,以後就可以使用了

技術分享圖片加一步異常處理

技術分享圖片讀寫下頁面

技術分享圖片獲取了頁面

技術分享圖片再加一步郵箱驗證

最後一步加一步判斷用戶是否登陸

技術分享圖片

網站爬取-案例四:知乎抓取(COOKIE登錄抓取個人中心)(第二卷)