1. 程式人生 > >京東商品列表反爬解析+下拉url介面構造(反爬蟲)

京東商品列表反爬解析+下拉url介面構造(反爬蟲)

由於京東運用ajax載入頁面,正常的爬取頁面不能獲得全部頁面內容,之前做過用Scrapy + Selenium實現京東商品列表摘要資訊的爬取,今天又研究了一下其下拉後接口url的構造,終於發現了其中的奧祕!

經過分析可以發現:第二次截獲的ur有三處需要構造 在這裡插入圖片描述

經分析發現:

  1. 第一處不同為log_id其值應該是時間戳去掉最後兩位即time.time()[:-2]
  2. 第二處為page是第一個頁面請求的page+1
  3. 第三處為最後的一串數字的組成,檢視前面第一張圖中的data-pid標籤發現,正是這前30個data-pid構成。

這樣就大工告成了,就不需要用Selenium爬取了,可以用requests或者scrapy快速請求啦。

之前用Scray寫過爬取的程式碼,這裡就不放了,有需要的可以去github翻,希望能幫到大家!