1. 程式人生 > >使用python爬取京東評論(json)

使用python爬取京東評論(json)

任務:爬取京東某手機的評論

這次爬取的內容是動態的所以不能直接爬原始碼中的內容

  1. 開啟網頁按下F12在Network裡找到productPageComments檔案
    這裡寫圖片描述
  2. 開啟這個檔案
    這裡寫圖片描述
  3. 這個檔案是由json儲存的(這裡面就是要爬取的內容)
    這裡寫圖片描述
  4. 先用讀取網頁
url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
#這裡是上面網頁的url request=urllib2.Request(url) response=urllib2.urlopen(request) html =response.read().decode('GBK')

5 . 處理字串使它可以使用json.loads語句

html=html.replace('fetchJSON_comment98vv17182(','')
html=html.replace(');','')
b=json.loads(html)

6 .整體程式碼:

#--*--coding:utf-8--*--
import urllib2
import
json import sys reload(sys) sys.setdefaultencoding('utf8') f = open('01.txt','w') for i in range(0,10): url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page='+str(i)+'&pageSize=10&isShadowSku=0&fold=1'
#實現爬多頁 print url request=urllib2.Request(url) response=urllib2.urlopen(request) html =response.read().decode('GBK') html=html.replace('fetchJSON_comment98vv17182(','') html=html.replace(');','') #去掉多餘的字元 b=json.loads(html) for k in b['comments']: content = k["content"].encode('utf-8') print content f.write(k["content"].encode('utf-8')+'\n') referenceName=k["referenceName"].encode('utf-8') print referenceName f.write(k["referenceName"].encode('utf-8')+'\n') referenceTime=k["referenceTime"].encode('utf-8') print referenceTime f.write(k["referenceTime"].encode('utf-8')+'\n\n')

相關推薦

使用python京東評論json

任務:爬取京東某手機的評論 這次爬取的內容是動態的所以不能直接爬原始碼中的內容 開啟網頁按下F12在Network裡找到productPageComments檔案 開啟這個檔案 這個檔案是

python3[爬蟲實戰] 使用selenium,xpath京東手機

當然了,這個任務也是從QQ群裡面接過來的,主要是想提升自己的技術,一接過來是很開心的,但是,接完之後,寫了又寫,昨晚寫了3小時,前提晚上寫了2小時,搞的有些晚了,搞來搞去就卡在一個地方了,希望懂的大神們多幫忙指點一下, 使用selenium ,可能感覺用

python安居客BeautifulSoup

# -*- coding: utf-8 -*- """ Created on Fri Dec 15 10:26:06 2017 @author: Administrator """ import requests from bs4 import BeautifulSou

Python英雄聯盟lol全部面板

小三:“怎麼了小二?一副無精打采的樣子!” ![](https://img2020.cnblogs.com/blog/1497257/202011/1497257-20201130203433362-343894738.jpg) 小二:“唉!別提了,還不是最近又接觸了一個叫英雄聯盟的遊戲,遊戲中很多面板都

Python爬蟲之利用BeautifulSoup豆瓣小說——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python 動態網頁百度圖片

# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字

python使用scrapyqq音樂

聽一首還不錯的歌曲 1.有點累?那麼好,來歇息一下,聽一首歌。 突然看到tf男孩的歌曲,你說啥?e_e,這個不要緊,來,點進去聽一下,(事實是我聽了一下下就換了首自己喜歡的歌)。就是這麼任性。 點選,播放。就這麼神奇,你一點選,它就播放了,熟悉js

Python 3 網路資源

最近剛學習python爬蟲技術,查找了一下python爬蟲的demo,發現大部分都是python 2 的語法,於是自己查了一下api,自己變更修改了下,最終完成了圖片爬取。 具體程式碼如下: #co

畢設二:python 京東的商品評論

wait job 獲得 榮耀 search finally content 系統 threading 1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48

python 京東商品評論

#!/usr/bin/python # -*- coding: UTF-8 -*- import requests impo

python 京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到 初學urllib,高手勿噴... import re import urllib.request #函數:每一頁抓取的30張圖片 def craw(url,page): ima

Scrapy分布式爬蟲打造搜索引擎慕課網--知乎

false pat 模塊 text 文件的 服務 協議 .py execute 通過Scrapy模擬登陸知乎 通過命令讓系統自動新建zhihu.py文件 首先進入工程目錄下 再進入虛擬環境 通過genspider命令新建zhihu.py scrap

Python京東商品列表

+= 圖片 info sta HR earch tex new html 爬取代碼: import requests from bs4 import BeautifulSoup def page_url(url): for i in range(1, 3):

scrapy框架豆瓣讀書1

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化

python京東文胸資料(三)

上篇我們只爬了一個牌子的文胸,這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python京東文胸資料(二)

##1.獲取js請求 上一篇我們只抓取了一頁的評論,今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python京東文胸資料(一)

##點選——>要爬取網址 作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ),就這幾行程式碼,我折磨了一下午,然後我發現,學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身,只要學,任何人都能學會 **1.**先到達頁面開啟開發者模式(F12),點選商品評論,我們隨便的複

大規模資料1

本文以58同城網站為例子 大概流程如下: 1、找到58類目頁的所有類目連結 2、設定資料庫(這裡使用MongoDB) 3、編寫兩個爬蟲分別爬取解析該類目下的所有商品連結、詳情頁資訊並存入資料庫中 4、 首先獲取所有類目的連結: # channel_extract.py fr

seleniumQQ空間

這幾天在看《從零開始學python網路爬蟲》中的模擬瀏覽器篇,對其中的爬取好友說說比較感興趣,不過書中只是爬取每個好友第一頁說說,因此我稍微改進了下(發書名是尊重作者,不過個人認為這本書講得比較淺,不求甚解)。 先大致說一下我遇到的坑。首先,如果想要看別人的說說,是必須要登入的(使用cookie

python京東店鋪商品價格資料(更新版)

主要使用的庫: requests:爬蟲請求並獲取原始碼 re:使用正則表示式提取資料 json:使用JSON提取資料 pandas:使用pandans儲存資料 ##sqlalchemy :備用方案,上傳資料到mysql 以下是原始碼: # -*- coding: