python簡單爬蟲多執行緒爬取京東淘寶資訊教程

阿新 • • 發佈：2019-01-21

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用到的模組新增到python中。

需要新增的模組有 lxml，Pool,requests,json,pymongo或者pymysql

1，開啟wingide 新建一個python檔案在裡面匯入我們需要用到的模組

2，尋找我們需要爬取的網頁這裡我以京東的搜尋為例 url為：https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&pvid=4e336fe84d3247f0b0795a790b09b422 主要是獲取京東手機的名稱，價格以及一些其他詳細資訊

寫一個方法獲取我們初次爬取的網頁 get_sku_id(url)

3，由於京東搜尋查詢的手機資訊無法完全滿足我們所需要的資訊所以需要進一步去詳情頁面爬取內容

寫一個爬取手機具體內容的方法 get_phone_content(sku) sku為京東為手機設定的獨特id

4，通過瀏覽器工具查詢，我們可以知道獲取價格是單獨通過一個請求返回讓介面顯示的，所以如果我們想在手機詳情頁面獲取價格就必須再次請求這個連結才能獲取價格

在這裡我建議大家使用火狐瀏覽器查詢谷歌看的眼睛花得知的url為：https://p.3.cn/prices/mgets?callback=jQuery1346298&type=1&area=1_72_2799_0&pdtk=&pduid=1713961549&pdpin=&pin=null&pdbp=0&skuIds=J_{手機獨特的ID}

寫一個方法來獲取每個手機的價格

get_phone_price(sku)

5，在主頁面解析的方法（get_sku_id）中呼叫我們的兩個子頁面的方法（get_phone_content,get_phone_price）傳入手機獨特的id

6，將集合存入到我們的資料庫中 mysql或者mongodb 都可以

寫一個主函式呼叫我們的get_sku_id方法即可

主流程圖如下:

github地址：https://github.com/ElvisLiang/reptilefortaobao.git

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

Python 爬蟲多執行緒爬取美女圖片儲存到本地

用JAVA實現簡單爬蟲多執行緒抓取

java redis多執行緒爬取國美商品資訊

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

Python爬蟲教程：圖蟲網多執行緒爬取

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

Python爬蟲教程：多執行緒爬取電子書

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

python爬蟲進階使用多執行緒爬取小說

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

使用python的requests、xpath和多執行緒爬取糗事百科的段子

使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

python多執行緒爬取網頁

網路爬蟲：使用多執行緒爬取網頁連結

爬蟲記錄（4）——多執行緒爬取圖片並下載

python使用多執行緒爬取表情包

spider----利用多執行緒爬取51job案例

python簡單爬蟲 多執行緒爬取京東淘寶資訊教程

相關推薦

python簡單爬蟲多執行緒爬取京東淘寶資訊教程