1. 程式人生 > >python簡單爬蟲 多執行緒爬取京東淘寶資訊教程

python簡單爬蟲 多執行緒爬取京東淘寶資訊教程

1,需要準備的工作,電腦已經安裝好python,如果沒裝,可以執行去https://www.python.org/官網下載,初學者可以安裝輕量級的wingide python開發工具,python安裝成功後配置好環境變數,在dos環境使用pip install 模組 將需要用到的模組新增到python中。

需要新增的模組有 lxml,Pool,requests,json,pymongo或者pymysql

1,開啟wingide 新建一個python檔案  在裡面匯入我們需要用到的模組


2,尋找我們需要爬取的網頁  這裡 我以京東的搜尋為例  url為:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&pvid=4e336fe84d3247f0b0795a790b09b422  主要是獲取京東手機的名稱,價格以及一些其他詳細資訊

寫一個方法獲取我們初次爬取的網頁    get_sku_id(url)


3,由於京東搜尋查詢的手機資訊無法完全滿足我們所需要的資訊  所以需要進一步去詳情頁面爬取內容

     寫一個爬取手機具體內容的方法 get_phone_content(sku)   sku為京東為手機設定的獨特id 

   

4,通過瀏覽器工具查詢,我們可以知道獲取價格是單獨通過一個請求返回讓介面顯示的,所以如果我們想在手機詳情頁面獲取價格就必須再次請求這個連結才能獲取價格


在這裡我建議大家使用火狐瀏覽器查詢    谷歌看的眼睛花  得知的url為:https://p.3.cn/prices/mgets?callback=jQuery1346298&type=1&area=1_72_2799_0&pdtk=&pduid=1713961549&pdpin=&pin=null&pdbp=0&skuIds=J_{手機獨特的ID}

寫一個方法來獲取每個手機的價格

get_phone_price(sku)


5,在主頁面解析的方法(get_sku_id)中呼叫我們的兩個子頁面的方法(get_phone_content,get_phone_price) 傳入手機獨特的id


6,將集合存入到我們的資料庫中   mysql或者mongodb 都可以


寫一個主函式呼叫我們的get_sku_id方法即可


主流程圖如下:


github地址:https://github.com/ElvisLiang/reptilefortaobao.git

相關推薦

python簡單爬蟲 執行京東資訊教程

1,需要準備的工作,電腦已經安裝好python,如果沒裝,可以執行去https://www.python.org/官網下載,初學者可以安裝輕量級的wingide python開發工具,python安裝成功後配置好環境變數,在dos環境使用pip install 模組 將需要用

Python 爬蟲執行美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工 資源來至於 ,程式碼基於Python 3.5.2 友情提醒:血氣方剛的騷年。請 謹慎 閱圖 !!! 謹慎 閱圖 !!! 謹慎 閱圖 !

用JAVA實現簡單爬蟲執行

在迴圈爬取得基礎上進行多執行緒爬蟲,本程式中使用的三個執行緒,執行緒為實現runnable介面,並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

java redis執行國美商品資訊

前面那篇爬蟲文章用的是單執行緒沒有用到其它一些比較提高效率的工具比較遺憾,所以今天做了一個比較全面的爬蟲。首先謝謝 @[天不生我萬古長](https://www.jianshu.com/u/e34019621ee9)這位小夥伴的留言,不然還真有點懶了。因為上班所以也只能利用

Python爬蟲入門教程 10-100 圖蟲網執行

寫在前面 經歷了一頓噼裡啪啦的操作之後,終於我把部落格寫到了第10篇,後面,慢慢的會涉及到更多的爬蟲模組,有人問scrapy 啥時候開始用,這個我預計要在30篇以後了吧,後面的套路依舊慢節奏的,所以莫著急了,100篇呢,預計4~5個月寫完,常見的反反爬後面也會寫的,還有fuck login類的內容。

Python爬蟲教程:圖蟲網執行

我們這次也玩點以前沒寫過的,使用python中的queue,也就是佇列 下面是我從別人那順來的一些解釋,基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群:960410445 1. 初始化: classQueue.Queue(maxsize)FIFO

Python爬蟲入門教程 13-100 鬥圖啦表情包執行

寫在前面 今天在CSDN部落格,發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站,裡面很多表情包,然後瞅了瞅,各種實現方式都有,今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ,你可以看一下我前面的文章,然後在學習一下。 網站就不分析了,無非就是找到規律,拼接URL,匹配關鍵點,然後爬取。 擼

Python爬蟲入門教程 14-100 All IT eBooks執行

寫在前面 對一個爬蟲愛好者來說,或多或少都有這麼一點點的收集癖 ~ 發現好的圖片,發現好的書籍,發現各種能存放在電腦上的東西,都喜歡把它批量的爬取下來。 然後放著,是的,就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析 開啟網址 http://www.allitebooks.c

Python爬蟲教程執行電子書

程式碼非常簡單,有咱們前面的教程做鋪墊,很少的程式碼就可以實現完整的功能了,最後把採集到的內容寫到  csv 檔案裡面,(  csv  是啥,你百度一下就知道了) 這段程式碼是  IO密集操作  我們採用  aiohttp  模

Python爬蟲入門教程 10-100 圖蟲網執行

寫在前面 經歷了一頓噼裡啪啦的操作之後,終於我把部落格寫到了第10篇,後面,慢慢的會涉及到更多的爬蟲模組,有人問 scrapy 啥時候開始用,這個我預計要在30篇以後了吧,後面的套路依舊慢節奏的,所以莫著急了,100篇呢,預計4~5個月寫完,常見的反反爬後面也會寫的,還有fuck login類的

python爬蟲進階使用執行小說

Python多執行緒,thread標準庫。都說Python的多執行緒是雞肋,推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒      GIL的全稱是Global Interpreter

Jsoup簡單例子2.0——執行網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱,雖然爬取成功了,但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱,最快用時8秒,一般需要9秒。在思考了一下怎麼提升效率後,決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說,直接上程式碼。 引入Jsoup的jar包此處省略,沒有的可以檢視上篇文

【Python3爬蟲-圖片】執行中國國家地理全站美圖,圖可以提高你的審美哦

宣告:爬蟲為學習使用,請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路:古鎮——古鎮列表(迴圈獲取古鎮詳情href)——xx古鎮詳情(獲取所有img的src) - 1.  單分類爬: from bs4 import BeautifulSo

使用python的requests、xpath和執行糗事百科的段子

 程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別,年齡和頭像。 # author: aspiring import requests from lxml import

使用threading,queue,fake_useragent,requests ,lxml,執行嗅事百科13頁文字資料,爬蟲案例

#author:huangtao # coding=utf-8 #多執行緒庫 from threading import Thread #佇列庫 from queue import Queue #請求庫 from fake_useragent import UserAgent

python執行網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

網路爬蟲:使用執行網頁連結

前言:   經過前面兩篇文章,你想大家應該已經知道網路爬蟲是怎麼一回事了。這篇文章會在之前做過的事情上做一些改進,以及說明之前的做法的不足之處。 思路分析: 1.邏輯結構圖      上圖中展示的就是我們網路爬蟲中的整個邏輯思路(呼叫Python解析URL,這裡只作了簡略

爬蟲記錄(4)——執行圖片並下載

還是繼續前幾篇文章的程式碼。 當我們需要爬取的圖片量級比較大的時候,就需要多執行緒爬取下載了。這裡我們用到forkjoin pool來處理併發。 1、DownloadTask下載任務類 package com.dyw.crawler.util;

python使用執行表情包

使用多執行緒爬取資料可以顯著提高效率 編輯環境:pycharm 目標:爬取表情包庫的所有表情包 首先在同目錄下建一個images資料夾 程式碼如下 #cod

spider----利用執行51job案例

程式碼如下 import json from threading import Thread from threading import Lock from queue import Queue import requests from bs4 import BeautifulSoup i