Scrapy爬取頁面錯誤原因彙總

阿新 • • 發佈：2018-11-17

錯誤原因彙總

１．網址錯誤
２．縮排問題
３．網頁有反爬蟲
反爬蟲解決方案：

基本：請求頭user-agent
IP代理
改機器人協議以及cookie
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
設定延遲
　DOWNLOAD_DELAY = 3
在分段函式中所要爬取的url有反爬蟲
解決方案：在請求的url後面新增標頭檔案如以下，標頭檔案可以從問題三的附錄中隨機取

url獲取出錯示例

url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0]
print(url)
yield scrapy.Request(url, callback=self.parse)
如上圖程式碼，scrapy 爬蟲過程中，在實現翻頁時，偶然遇見如下報錯：
Missing scheme in request url：
百度許多同學總結了一下原因：
1.requests版本太低：
2.scrapy.Resquest(URL),url 應該是一個list…

但是實際問題並不是這些原因所致

經過反覆研究，發現上圖程式碼中獲取的到 url 連結內部，用“；”替代了“&”。因此scrapy 不能識別該網頁所致。
解決辦法：
1.改用URL 拼接而成的url list 做yield 呼叫self.parse
2.頁面本來可能純在一些問題。等待頁面更新，正常頁面連結不應該使用“；”（剛開始使用1方法實現了。後來，準備用原始程式碼記錄錯誤時，發現頁面已經更新為“&”，該報錯已經不純在）。

Scrapy爬取頁面錯誤原因彙總

錯誤原因彙總

url獲取出錯示例

相關文件：

Scrapy爬取頁面錯誤原因彙總

Scrapy爬取簡單百度頁面

scrapy 爬取資料遞歸回掉出錯錯誤日誌【Filtered offsite request to】

scrapy爬取相似頁面及回撥爬取問題（以慕課網為例）

scrapy 爬取https網頁時出現ssl錯誤

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

scrapy 爬取 javscript 動態渲染頁面

python scrapy爬取動態頁面

scrapy爬取中關村在線手機頻道

scrapy爬取豆瓣電影top250

scrapy爬取小說盜墓筆記

scrapy爬取西刺網站ip

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

[實戰演練]python3使用requests模塊爬取頁面內容

用scrapy爬取搜狗Lofter圖片

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

用scrapy爬取京東商城的商品信息

利用 Scrapy 爬取知乎用戶信息

1.scrapy爬取的數據保存到es中

Scrapy爬取頁面錯誤原因彙總

錯誤原因彙總

url獲取出錯示例

相關文件：

相關推薦