1. 程式人生 > >【Python3 爬蟲學習筆記】pyspider框架的使用 3

【Python3 爬蟲學習筆記】pyspider框架的使用 3

啟動爬蟲

返回爬蟲的主頁面,將爬蟲的status設定成DEBUG或RUNNING,點選右側的Run按鈕即可開始爬取。 在這裡插入圖片描述 在最左側我們可以定義專案的分組,以方便管理。rate/burst代表當前的爬取速率,rate代表1秒發出多少個請求,burst相當於流量控制中的令牌桶演算法的令牌數,rate和burst設定的越大,爬取速率越快,當然速率需要考慮本機效能和爬取過快被封的問題。process中的5m、1h、1d指的是最近5分、1小時、1天內的請求情況,all代表所有的請求情況。請求由不同顏色表示,藍色的代表等待被執行的請求,綠色的代表請求成功的請求,黃色的代表請求失敗後等待重試的請求,紅色的代表失敗次數過多而被忽略的請求,這樣可以直觀知道爬取的進度和請求情況。 點選Active Tasks,即可檢視最近請求的詳細情況。 在這裡插入圖片描述

點選Results,即可檢視所有的爬取結果。 在這裡插入圖片描述 點選右上角的按鈕,即可獲取資料的JSON、CSV格式。