教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

阿新 • • 發佈：2018-11-01

爬蟲永不停息

最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。

研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉

1,對上一篇的代表進行修改和新增

class Spider():
    def __init__(self):
        # score:1為差評；2為中評；3為好評，0為所有評論
        # 這連結是京東jsonp回撥的資料，我們要給這連結加上商品id和評論頁碼。
        self.start_url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv30672&productId={}&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1' 

        # 新增一個新的佇列
        self.pageQurl = Queue()
        # 上一篇是list，現在是dict
        self.data = dict()
複製程式碼

2，修改上一篇整個 parse_first函式

    def parse_first(self):
        if not self.qurl.empty():
            goodsid = self.qurl.get()
            url = self.start_url.format(goodsid,1)
            print 
('parse_first',url)
            try:
                r = requests.get(url, headers={'User-Agent': random.choice(self.user_agent)},proxies=self.notproxy,verify=False)
                # 編碼格式是GBK，不是UTF-8
                r.encoding = 'GBK'
                if r.status_code == 200:
                    # 對回調回來的資料進行處理 

                    res = r.text.replace('fetchJSON_comment98vv30672(', '').replace(');', '').replace('false', '0').replace('true','1')
                    res = json.loads(res)
                    lastPage = int(res['maxPage'])
                    # 爬1-5頁評論
                    for i in range(lastPage)[1:5]:
                        temp = str(goodsid)+ ',' + str(i)
                        self.pageQurl.put(temp)

                    arr = []
                    for j in res['hotCommentTagStatistics']:
                        arr.append({'name':j['name'],'count':j['count']})

                    self.data[str(goodsid)] = {
                        'hotCommentTagStatistics':arr,
                        'poorCountStr':res['productCommentSummary']['poorCountStr'],
                        'generalCountStr': res['productCommentSummary']['generalCountStr'],
                        'goodCountStr': res['productCommentSummary']['goodCountStr'],
                        'goodRate': res['productCommentSummary']['goodRate'],
                        'comments': []
                    }

                    self.parse_first()
                else:
                    self.first_running = False
                    print('ip被遮蔽')
            except:
                self.first_running = False
                print('代理ip代理失敗')
        else:
            self.first_running = False
複製程式碼

3，修改上一篇整個 parse_second函式

    def parse_second(self):
        while self.first_running or not self.pageQurl.empty():
            if not self.pageQurl.empty():
                arr = self.pageQurl.get().split(',')
                url = self.start_url.format(arr[0],arr[1])
                print(url)
                try:
                    r = requests.get(url,headers={'User-Agent': random.choice(self.user_agent)},proxies=self.notproxy,verify=False)
                    r.encoding = 'GBK'
                    if r.status_code == 200:
                        res = r.text.replace('fetchJSON_comment98vv30672(', '').replace(');', '').replace('false','0').replace('true', '1')
                        try:
                            res = json.loads(res)
                            for i in res['comments']:
                                images = []
                                videos = []
                                # 記錄使用者的評論圖片與視訊
                                if i.get('images'):
                                    for j in i['images']:
                                        images.append({'imgUrl': j['imgUrl']})
                                if i.get('videos'):
                                    for k in i['videos']:
                                        videos.append({'mainUrl': k['mainUrl'], 'remark': k['remark']})
                                # 記錄使用者的詳細資料
                                mydict = {
                                    'referenceName': i['referenceName'],
                                    'content': i['content'],
                                    'creationTime': i['creationTime'],
                                    'score': i['score'],
                                    'userImage': i['userImage'],
                                    'nickname': i['nickname'],
                                    'userLevelName': i['userLevelName'],
                                    'productColor': i['productColor'],
                                    'productSize': i['productSize'],
                                    'userClientShow': i['userClientShow'],
                                    'images': images,
                                    'videos': videos
                                }
                                self.data[arr[0]]['comments'].append(mydict)

                                # 執行緒隨機休眠
                                time.sleep(random.random() * 5)
                        except:
                            print('無法編譯成物件',res)
                except Exception as e:
                    print('獲取失敗',str(e))
複製程式碼

4，修改一部分run函式，

    @run_time
    def run(self):
        # 爬京東商品的ID，用陣列對它們進行存放
        goodslist = ['6784500','31426982482','7694047']
        for i in goodslist:
            self.qurl.put(i)

        ths = []
        th1 = Thread(target=self.parse_first, args=())
        th1.start()
        ths.append(th1)

        for _ in range(self.thread_num):
            th = Thread(target=self.parse_second)
            th.start()
            ths.append(th)

        for th in ths:
            # 等待執行緒終止
            th.join()

        s = json.dumps(self.data, ensure_ascii=False, indent=4)
        with open('jdComment.json', 'w', encoding='utf-8') as f:
            f.write(s)

        print('Data crawling is finished.')
複製程式碼

5，最後爬出來的資料是，這只是部分程式碼，對上一篇程式碼進行替換即可執行。

京東原版資料：

爬出來的資料格式：

京東原版評論：

爬出來的資料格式：

下面是個人寫的小程式，資料也是爬蟲得來的，希望大家看看，給點意見。

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

python多執行緒爬取網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

《Python多執行緒的初步使用》—人生苦短，我用Python（七）

寫在前面：最近，博主在之前開發的網路配置自動化工具的基礎上，進行了修改。將該工具改為多執行緒，執行效率大大提升。原本可能需要半個小時以上跑完的任務，現在只需要幾十秒。下面我們來看看是怎麼實現的吧~ 先看東西：首先引入threading模組 import threadin

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

教你用Python爬取豆瓣圖書Top250

質量、速度、廉價，選擇其中兩個這篇文章將會用到上一篇文章所講的內容，如果沒有看過可以去看一下教你用Python寫excel 今天我們要做的就是用Python爬取豆瓣圖書Top250，先開啟網站看一下今天不談這豆瓣圖書top250垃圾不垃圾的問題，只看看怎麼用p

10分鐘內教你用Python實現多個檔案自動上傳到百度雲

一、環境說明 Python 3.7 和 win10系統二、準備工作首先我們需要安裝一個包，在cmd命令列介面安裝 bypy包。 pip install bypy 然後安裝成功後，在命令列執行命令 bypy info 會彈出一些類似一下的介

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

python多執行緒並行爬取

#-*-coding:utf8-*- from multiprocessing.dummy import Pool as ThreadPool import requests import time def getsource(url): html = reque

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

Swaggy教你用python實現NBA資料統計的爬取

相信很多喜歡NBA的小夥伴們經常會關注NBA的資料統計，今天我就用虎撲NBA的得分榜為例，實現NBA資料的簡單爬取。https://nba.hupu.com/stats/players是虎撲體育的NBA球員得分榜：當我們右鍵檢視該網站的原始碼時，會發現所有的資料統計都存放在&

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

[C++]多執行緒: 教你寫第一個執行緒

hello thread! 宣告執行緒A的埠號 #include <pthread.h> pthread_t tid; 定義執行緒執行函式 void thread_function(void *args) { printf("th

python爬蟲進階使用多執行緒爬取小說

Python多執行緒，thread標準庫。都說Python的多執行緒是雞肋，推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒 GIL的全稱是Global Interpreter

15分鐘，教你用Python爬網站資料，並用BI視覺化分析！

作為一名在資料行業打拼了兩年多的資料分析師，雖然目前收入還算ok，但每每想起房價，男兒三十還未立，內心就不免彷徨不已~ 兩年時間裡曾經換過一份工作，一直都是從事大資料相關的行業。目前是一家企業的BI工程師，主要工作就是給業務部門出報表和業務分析報告。回想自己過去的工作成績也還算是不錯的，多

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息

1,對上一篇的代表進行修改和新增

2，修改上一篇整個 parse_first函式

3，修改上一篇整個 parse_second函式

4，修改一部分run函式，

5，最後爬出來的資料是，這只是部分程式碼，對上一篇程式碼進行替換即可執行。

相關推薦