1. 程式人生 > >python爬蟲——記一次前所未有的經歷(爬取魔方格作文)

python爬蟲——記一次前所未有的經歷(爬取魔方格作文)

前言

我還是第一次遇到魔方格這麼處理請求的網站,這裡記錄一下

 

過程

1、爬取物件:http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html

需要抓取中間作文格里的作文

 

2、分析

直接請求得到的結果是:

這裡我有點懵逼,自己又請求一遍自己?隨後抓包,發現魔方格這個網站要在5~7秒內同時對一個作文頁面請求,才會返回真正的html頁面,而且,它貌似是通過IP地址來辨別使用者的,不是常規的sessionid、cookie、token,學爬蟲到現在也處理過幾十個網站了,第一次見這樣的,暫時不清楚開發者這麼做的目的,如果是反爬,基本無效,畢竟爬蟲的請求速度擺在那裡