Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

阿新 • • 發佈：2018-04-19

9.png amp F12 不存在 strong xls sco 列表 std

(一) 分析網頁

下載下面這個鏈接的銷售數據

https://item.jd.com/6733026.html#comment

1、翻頁的時候，谷歌F12的Network頁簽可以看到下面的請求。

技術分享圖片

從Preview頁簽可以看出，這個請求是獲取評論信息的

技術分享圖片

2、對比第一頁、第二頁、第三頁…請求URL的區別

可以發現 page=0、page=1，0和1指的應該是頁數。

第一頁的 request url：沒有這個rid=0& 。第二、三頁…的request url：多了這個rid=0&

除了上面這2個地方,其他內容都是一樣的。

技術分享圖片

3、直接在瀏覽器輸入復制出來的request url，可以看到評論、顏色、版本、內存信息，代碼將根據這些信息來寫正則表達式進行匹配。

技術分享圖片

(二) 實現代碼

delayed.py的代碼和我前面發的是一樣的(Python網絡爬蟲筆記（二）),不限速的話把和這個模塊相關的代碼刪除就行了

 1 import urllib.request as ure
 2 import urllib.parse
 3 import openpyxl
 4 import re
 5 import os
 6 from delayed import WaitFor
 7 def download(url,user_agent=‘FireDrich‘,num=2,proxy=None):
 8     print(‘下載:‘+url)
 9     # 
設置用戶代理
10     headers = {‘user_agent‘:user_agent}
11     request = ure.Request(url,headers=headers)
12     #支持代理
13     opener = ure.build_opener()
14     if proxy:
15         proxy_params = {urllib.parse.urlparse(url).scheme: proxy}
16         opener.add_handler(ure.ProxyHandler(proxy_params))
17     try 
:
18         #下載網頁
19         # html = ure.urlopen(request).read()
20         html = opener.open(request).read()
21     except ure.URLError as e:
22         print(‘下載失敗‘+e.reason)
23         html=None
24         if num>0:
25             #遇到5XX錯誤時，遞歸調用自身重試下載，最多重復2次
26             if hasattr(e,‘code‘) and 500<=e.code<600:
27                 return download(url,num=num-1)
28     return html
29 def writeXls(sale_list):
30     #如果Excel不存在，創建Excel，否則直接打開已經存在文檔
31     if ‘P20銷售情況.xlsx‘ not in os.listdir():
32         wb =openpyxl.Workbook()
33     else:
34         wb =openpyxl.load_workbook(‘P20銷售情況.xlsx‘)
35     sheet = wb[‘Sheet‘]
36     sheet[‘A1‘] = ‘顏色‘
37     sheet[‘B1‘] = ‘版本‘
38     sheet[‘C1‘] = ‘內存‘
39     sheet[‘D1‘] = ‘評論‘
40     sheet[‘E1‘] = ‘評論時間‘
41     x = 2
42     #叠代所有銷售信息（列表）
43     for s in sale_list:
44         #獲取顏色等信息
45         content = s[0]
46         creationTime = s[1]
47         productColor = s[2]
48         productSize = s[3]
49         saleValue = s[4]
50         # 將顏色等信息添加到Excel
51         sheet[‘A‘ + str(x)] = productColor
52         sheet[‘B‘ + str(x)] = productSize
53         sheet[‘C‘ + str(x)] = saleValue
54         sheet[‘D‘ + str(x)] = content
55         sheet[‘E‘ + str(x)] = creationTime
56         x += 1
57     wb.save(‘P20銷售情況.xlsx‘)
58 
59 page = 0
60 allSale =[]
61 waitFor = WaitFor(2)
62 #預編譯匹配顏色、版本、內存等信息的正則表達式
63 regex = re.compile(‘"content":"(.*?)","creationTime":"(.*?)".*?"productColor":"(.*?)","productSize":"(.*?)".*?"saleValue":"(.*?)"‘)
64 #這裏只下載20頁數據，可以設置大一些（因為就算沒評論信息，也能下載到一些標簽信息等，所以可以if 正則沒匹配的話就結束循環，當然，下面沒處理這個）
65 while page<20:
66     if page==0:
67         url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv176&productId=6733026&score=0&sortType=5&page=‘ + str(page) + ‘&pageSize=10&isShadowSku=0&fold=1‘
68     else:
69         url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv176&productId=6733026&score=0&sortType=5&page=‘ + str(page) + ‘&pageSize=10&isShadowSku=0&rid=0&fold=1‘
70     waitFor.wait(url)
71     html = download(url)
72     html = html.decode(‘GBK‘)
73     #以列表形式返回顏色、版本、內存等信息
74     sale = regex.findall(html)
75     #將顏色、版本、內存等信息添加到allSale中（擴展allSale列表）
76     allSale.extend(sale)
77     page += 1
78 
79 writeXls(allSale)

(三) 數據分析

1、下載後的數據如下圖所示。

技術分享圖片

2、生成圖表。

技術分享圖片

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

9.png amp F12 不存在 strong xls sco 列表 std (一) 分析網頁下載下面這個鏈接的銷售數據 https://item.jd.com/6733026.html#comment 1、翻頁的時候，谷歌F12的Network頁簽可以

python網絡爬蟲筆記（四）

inf 比較小寫字母網絡爬蟲作用自定義 gpo 外部而且一、python中的高階函數算法 1、sorted()函數的排序 sorted()函數是一個高階函數，還可以接受一個key函數來實現自定義的函數排序，key指定的函數作用於每個序列元素上，並根據key函

python網絡爬蟲筆記（九）

out 模塊 ade npe tex visible 代碼端口號 pac 4.1.1 urllib2 和urllib是兩個不一樣的模塊 urllib2最簡單的就是使用urllie2.urlopen函數使用如下 urllib2.urlopen(url[,

Python自動化運維筆記（五）：使用filecmp模組實現檔案以及檔案目錄差異對比

執行環境：Python3.6，Windwos10 RS1，Pycharm 參考書籍—《Python自動化運維--技術與最佳實踐》劉天斯著模組介紹 Python2.3以上的版本

網絡學習筆記（二）：TCP可靠傳輸原理

不必要不一定網絡學習建立位置 arq協議四種數據碎片 cnblogs ??TCP數據段作為IP數據報的數據部分來傳輸的，IP層提供盡最大努力服務，卻不保證數據可靠傳輸。TCP想要提供可靠傳輸，需要采取一定的措施來讓不可靠的傳輸信道提供可靠傳輸服務。比如：出現差錯

python | 爬蟲筆記（五）- 數據存儲

height iter use jordan rip 輕量數據存儲回滾 nosql 5.1 文件存儲先用request把源碼獲取，再用解析庫解析，保存到文本 1- txt 文本打開方式： file = open(‘explore.txt‘, ‘a‘, encodin

流暢的python和cookbook學習筆記（五）

pytho col () 學習 util 學習筆記取出 minute python 1.隨機選擇　　python中生成隨機數使用random模塊。　　1.從序列中隨機挑選元素，使用random.choice() >>> import random

Python筆記（五）：異常處理和數據存儲

utf-8 load 模塊修改 val 麻煩數據存儲 poke 關閉註：和上一篇有關聯（一） finally 和輸出異常信息 try: the_man = open(r‘C:\Users\123456\Desktop\test.txt‘)

以太網絡--學習筆記（課外）

以太網絡一·概念：一種局域網標準。二·以太網絡的速度與標準以前IEEE所制訂的以太網絡標準為 802.3 的 IEEE 10BASE5 ，這個標準主要的定義是：10 代表傳輸速度為 10Mbps，BASE 表示采用基頻信號來進行傳輸，至於 5 則是指每個網絡節點之間最長可達 500 公尺。三·以太網絡的

python 網絡編程（Socket）

python recv ets forever AI AC sim 文件執行 # from wsgiref.simple_server import make_server## def RunServer(environ,start_response):# sta

python網絡編程（一）

unix imp p地址 mail 傳輸層很多一個說明 reat socket簡介 1.本地的進程間通信（IPC）有很多種方式，例如隊列同步（互斥鎖、條件變量等）以上通信方式都是在一臺機器上不同進程之間的通信方式，那麽問題來了網絡中進程之間如何通信？ 2.

python網絡編程（八）

IE finally 空閑 while 因此 ddr tcp服務器隊列 %s 單進程服務器 1. 完成一個簡單的TCP服務器 from socket import * serSocket = socket(AF_INET, SOCK_STREAM) # 重復使用綁定

python網絡編程（六）

想要打電話 HA ima 輸入數據撥打 news 提示構建 tcp通信模型 tcp服務器在程序中，如果想要完成一個tcp服務器的功能，需要的流程如下： socket創建一個套接字 bind綁定ip和port listen使套接字變為可以被動鏈接 accept等待

python網絡編程（轉）

true target 通過 encode welcom 協議消息機器接收本文代碼轉自廖雪峰老師的python教程網絡編程底層其實就是一個socket，代表兩臺機器之間的一個連接。 s = socket.socket(socket.AF_INET, socket.

Python爬蟲開發（五）：反爬蟲措施以及爬蟲編寫注意事項

0×01 介紹本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並

Python下opencv使用筆記（五）（影象的平滑與濾波）

對於圖形的平滑與濾波，但從濾波角度來講，一般主要的目的都是為了實現對影象噪聲的消除，增強影象的效果。首先介紹二維卷積運算，影象的濾波可以看成是濾波模板與原始影象對應部分的的卷積運算。關於卷積運算，找到幾篇相關的部落格：對於2D影象可以進行低通或者高通

斯坦福機器學習：網易公開課系列筆記（五）——高斯判別分析、樸素貝葉斯

高斯判別分析(Gaussian discriminant analysis) 判別模型和生成模型前面我們介紹了Logistic迴歸，通過學習hΘ(x)來對資料的分類進行預測：給定一個特徵向量x→輸出分類y∈{0,1}。這類通過直接

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

《Python資料分析與挖掘實戰》筆記（五）：資料建模

分類與預測主要分類與預測演算法迴歸分析確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等決策樹自頂向下分類人工神經網路用神經網路表示輸入與輸出之間的關係貝葉斯網路又稱信度網路，是不確定知識表達和推理領域最有效的理論模

python學習筆記（五）-- 深拷貝、淺拷貝

end 另一個 rem remove xiaomi pri epc code 變量深拷貝--兩個變量指向不同內存地址L1 = [1,2,3,4,5]L2 = L1[:]#深拷貝淺拷貝--兩個變量指向同一內存地址L3 = L1#淺拷貝 #循環list的時候，不要刪除元

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

相關推薦