使用python爬取京東評論（json）

阿新 • • 發佈：2019-01-18

任務：爬取京東某手機的評論

這次爬取的內容是動態的所以不能直接爬原始碼中的內容

開啟網頁按下F12在Network裡找到productPageComments檔案
開啟這個檔案
這個檔案是由json儲存的（這裡面就是要爬取的內容)
先用讀取網頁

url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' 

#這裡是上面網頁的url
request=urllib2.Request(url)
response=urllib2.urlopen(request)
html =response.read().decode('GBK')

5 . 處理字串使它可以使用json.loads語句

html=html.replace('fetchJSON_comment98vv17182(','')
html=html.replace(');','')
b=json.loads(html)

6 .整體程式碼：

#--*--coding:utf-8--*--
import urllib2
import 
 json
import sys
reload(sys)
sys.setdefaultencoding('utf8')

f = open('01.txt','w')
for i in range(0,10):
    url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page='+str(i)+'&pageSize=10&isShadowSku=0&fold=1' 

    #實現爬多頁
    print url
    request=urllib2.Request(url)
    response=urllib2.urlopen(request)
    html =response.read().decode('GBK')


    html=html.replace('fetchJSON_comment98vv17182(','')
    html=html.replace(');','')
    #去掉多餘的字元
    b=json.loads(html)

    for k in b['comments']:

        content = k["content"].encode('utf-8')
        print content
        f.write(k["content"].encode('utf-8')+'\n')
        referenceName=k["referenceName"].encode('utf-8')
        print referenceName
        f.write(k["referenceName"].encode('utf-8')+'\n')
        referenceTime=k["referenceTime"].encode('utf-8')
        print referenceTime
        f.write(k["referenceTime"].encode('utf-8')+'\n\n')

使用python爬取京東評論（json）

任務：爬取京東某手機的評論這次爬取的內容是動態的所以不能直接爬原始碼中的內容開啟網頁按下F12在Network裡找到productPageComments檔案開啟這個檔案這個檔案是

python3[爬蟲實戰] 使用selenium，xpath爬取京東手機（上）

當然了，這個任務也是從QQ群裡面接過來的，主要是想提升自己的技術，一接過來是很開心的，但是，接完之後，寫了又寫，昨晚寫了3小時，前提晚上寫了2小時，搞的有些晚了，搞來搞去就卡在一個地方了，希望懂的大神們多幫忙指點一下，使用selenium ，可能感覺用

python爬取安居客（BeautifulSoup）

# -*- coding: utf-8 -*- """ Created on Fri Dec 15 10:26:06 2017 @author: Administrator """ import requests from bs4 import BeautifulSou

用Python爬取英雄聯盟（lol）全部面板

小三：“怎麼了小二？一副無精打采的樣子！” ![](https://img2020.cnblogs.com/blog/1497257/202011/1497257-20201130203433362-343894738.jpg) 小二：“唉！別提了，還不是最近又接觸了一個叫英雄聯盟的遊戲，遊戲中很多面板都

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python 爬取動態網頁（百度圖片）

# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字

python使用scrapy爬取qq音樂（二）

聽一首還不錯的歌曲 1.有點累？那麼好，來歇息一下，聽一首歌。突然看到tf男孩的歌曲，你說啥？e_e,這個不要緊，來，點進去聽一下，（事實是我聽了一下下就換了首自己喜歡的歌）。就是這麼任性。點選，播放。就這麼神奇，你一點選，它就播放了，熟悉js

Python 3 爬取網路資源（一）

最近剛學習python爬蟲技術，查找了一下python爬蟲的demo，發現大部分都是python 2 的語法，於是自己查了一下api，自己變更修改了下，最終完成了圖片爬取。具體程式碼如下： #co

畢設二:python 爬取京東的商品評論

wait job 獲得榮耀 search finally content 系統 threading 1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48

python 爬取京東商品評論

#!/usr/bin/python # -*- coding: UTF-8 -*- import requests impo

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

Python爬取京東商品列表

+= 圖片 info sta HR earch tex new html 爬取代碼： import requests from bs4 import BeautifulSoup def page_url(url): for i in range(1, 3):

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

python爬取京東文胸資料(三)

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python爬取京東文胸資料(二)

##1.獲取js請求上一篇我們只抓取了一頁的評論，今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

爬取大規模資料（1）

本文以58同城網站為例子大概流程如下： 1、找到58類目頁的所有類目連結 2、設定資料庫（這裡使用MongoDB） 3、編寫兩個爬蟲分別爬取解析該類目下的所有商品連結、詳情頁資訊並存入資料庫中 4、首先獲取所有類目的連結： # channel_extract.py fr

selenium爬取QQ空間（上）

這幾天在看《從零開始學python網路爬蟲》中的模擬瀏覽器篇，對其中的爬取好友說說比較感興趣，不過書中只是爬取每個好友第一頁說說，因此我稍微改進了下（發書名是尊重作者，不過個人認為這本書講得比較淺，不求甚解）。先大致說一下我遇到的坑。首先，如果想要看別人的說說，是必須要登入的（使用cookie

python爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:

使用python爬取京東評論（json）

任務：爬取京東某手機的評論

相關推薦