Python爬蟲系列：京東商品爬蟲

阿新 • • 發佈：2019-02-10

需求：爬取京東手機頻道的手機商品資訊：名稱、價格、評論數、商家名稱等
這裡涉及2個問題需要解決。
1、手機圖片的爬取和儲存
2、手機價格的爬取與儲存（因為手機價格是非同步載入的，無法從網頁原始碼中直接獲取）

圖片的爬取和儲存

import requests
url="https://img13.360buyimg.com/n7/jfs/t3391/79/1963324994/297093/187de6d4/583ced0fN27e50577.jpg"
res=requests.get(url)

with open("E:\\jupyter-notebook\\PyCrawler\\jd1.jpg","wb" 
) as fd:
    fd.write(res.content)

非同步載入的資料-以京東商城價格資訊提取為例

import re
url="https://p.3.cn/prices/mgets?callback=jQuery6775278&skuids=J_5089253"
res=requests.get(url)
pat='"p":"(.*?)"}'
price=re.compile(pat).findall(res.text)
print(price)

京東手機圖片採集

url="https://list.jd.com/list.html?cat=9987,653,655" 

res=requests.get(url)
imagepat='<img width="220" height="220" data-img="1" data-lazy-img="//(.*?)">'
imagelist=re.compile(imagepat).findall(res.text)
print(imagelist)

x=1
for imageurl in imagelist:
    imagename="E:\\jupyter-notebook\\PyCrawler\\jdpic\\"+str(x)+".jpg"
    x+=1
    imageurl="http://" 
+imageurl
    res=requests.get(imageurl)
    with open(imagename,'wb') as fd:
        fd.write(res.content)

完整程式碼如下

#京東手機資訊採集：名稱、價格、評論數、商家名稱等
import requests
from lxml import etree
from pandas import DataFrame
import pandas as pd

jdInfoAll=DataFrame()
for i in range(1,4):
    url="https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)
    res=requests.get(url)
    res.encoding='utf-8'
    root=etree.HTML(res.text)
    name=root.xpath('//li[@class="gl-item"]//div[@class="p-name"]/a/em/text()')
    for i in range(0,len(name)):
        name[i]=re.sub('\s','',name[i])

    #sku
    sku=root.xpath('//li[@class="gl-item"]/div/@data-sku')

    #價格
    price=[]
    comment=[]
    for i in range(0,len(sku)):
        thissku=sku[i]
        priceurl="https://p.3.cn/prices/mgets?callback=jQuery6775278&skuids=J_"+str(thissku)
        pricedata=requests.get(priceurl)
        pricepat='"p":"(.*?)"}'
        thisprice=re.compile(pricepat).findall(pricedata.text)   
        price=price+thisprice

        commenturl="https://club.jd.com/comment/productCommentSummaries.action?my=pinglun&referenceIds="+str(thissku)
        commentdata=requests.get(commenturl)
        commentpat='"CommentCount":(.*?),"'
        thiscomment=re.compile(commentpat).findall(commentdata.text)
        comment=comment+thiscomment

    #商家名稱
    shopname=root.xpath('//li[@class="gl-item"]//div[@class="p-shop"]/@data-shop_name')
    print(shopname)

    jdInfo=DataFrame([name,price,shopname,comment]).T
    jdInfo.columns=['產品名稱','價格','商家名稱','評論數']
    jdInfoAll=pd.concat([jdInfoAll,jdInfo])
jdInfoAll.to_excel('jdInfoAll.xls')

Python爬蟲系列：京東商品爬蟲

需求：爬取京東手機頻道的手機商品資訊：名稱、價格、評論數、商家名稱等這裡涉及2個問題需要解決。 1、手機圖片的爬取和儲存 2、手機價格的爬取與儲存（因為手機價格是非同步載入的，無法從網頁原始碼中直接獲取）圖片的爬取和儲存 import re

爬蟲專案：京東商品資料爬取

spider程式碼：# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from jingdong.items import JingdongItem import re import u

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

利用Python爬蟲爬取京東商品的簡要資訊

一、前言　　本文適合有一定Python基礎的同學學習Python爬蟲，無基礎請點選：慕課網——Python入門　　申明：例項的主體框架來自於慕課網——Python開發簡單爬蟲　　語言：Python2 　　IDE：VScode二、何為爬蟲　　傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的UR

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Java程式設計師的第一個Python小程式：京東暢銷書榜爬蟲

畢業後的5年多時間裡一直在Java的生態體系裡遊走，很少觸碰其他非Java技術棧。職業安全感隱隱的警告我不能一直逗留在自己的舒適區裡，不能被大時代拋棄。時下最火的莫過於AI，而AI時代則帶火了AI第一語言Python，那就學學Python。學習一門新技術的最佳

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

Python爬蟲系列：騰訊課堂Scrapy爬蟲

業務需求：需要爬取騰訊課堂IT.網際網路類別下的雲端計算大資料子類別下的所有課程資料：課程名稱、價格、購買人數、機構名稱1、編寫item.py檔案定義要爬取的資料欄位：import scrapy class TxktcrawlerItem(scrapy.Item):

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

Python3爬蟲系列：理論+實驗+爬取妹子圖實戰

爬蟲系列： (1) 理論 (2) 實驗 (3) 實戰 1. 準備環境 1.1 安裝CentOS 1.2 安裝Python3 1.3 安裝MongoDB 嘗試使用motor實現

初試python爬蟲之：豆瓣電影爬蟲

因為課程需要，前兩天花了一天學習python並寫了一個豆瓣電影的爬蟲。課程要求是這樣的：爬取豆瓣網站上，電影排名在前50名的電影，包括電影名字，電影評分，電影簡介，爬下來的電影資料進行分類，按照不同分類儲存在資料庫/Excel中的不同表中。python的環境安裝配置，以及語法

Python爬蟲系列之----Scrapy(一)爬蟲原理

一、Scrapy簡介 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。 Scrapy 使用 Twisted這個

Python基礎系列：初識python引用計數與弱引用

寫在前邊：之前的socket系列就告一段落，主要是對自己所學做一個總結與記錄。接下來我打算基於libevent寫一個支援併發的HTTP伺服器。因為之前學習群裡大神早就開發過一個同時支援HTTP與WebSocket的伺服器，我看了之後感覺很有興趣，所以才買

python筆記系列：檔案內容、檔案及資料夾的對比difflib、filecmp

檔案內容對比#!/usr/bin/pythonimport difflibtext1 = """text1:This module provides classes and functions for comparing sequences.including HTML an

Python高手系列：自定義異常類（帶寫入日誌功能）

class MYException(Exception): def __init__(self,Message): Exception.__init__(self) self.__str__=Message def WriteLog(s

python入門系列：Python基礎知識

tor mat 大小寫內存版本資料顯示器沒有 ict Python註釋單行註釋這是一個單行註釋 print("test")多行註釋 ‘‘‘這裏就是python的多行註釋方式可以直接分行進行註釋操作本質上是字符串‘‘‘import thisp

python入門系列：Python使用虛擬環境

python環境 python http 但是 sys 3.6 sha require url 虛擬環境背景有兩個項目，A和B。都依賴一個模塊m，但是他們所需要的版本不一樣。默認的情況是，只能安裝一個版本的模塊m。所以一臺電腦上，兩個項目無法同時運行。解決方案創建一

python入門系列：包和模塊

源代碼 mar 簡單使用 auth ins 需求 eve 用法 python2.7 基本概念模塊：將一組功能相關的代碼寫入一個單獨的.py文件中，需要時進行導入，這個文件就是模塊。包：有層次的文件目錄結構，內部有多個模塊或多個子包，一般要有init.py這個文件(3.3+

Python爬蟲系列：京東商品爬蟲

圖片的爬取和儲存

非同步載入的資料-以京東商城價格資訊提取為例

京東手機圖片採集

完整程式碼如下

相關推薦