使用python爬取京東評論(json)
任務:爬取京東某手機的評論
這次爬取的內容是動態的所以不能直接爬原始碼中的內容
- 開啟網頁按下F12在Network裡找到productPageComments檔案
- 開啟這個檔案
- 這個檔案是由json儲存的(這裡面就是要爬取的內容)
- 先用讀取網頁
url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
#這裡是上面網頁的url
request=urllib2.Request(url)
response=urllib2.urlopen(request)
html =response.read().decode('GBK')
5 . 處理字串使它可以使用json.loads語句
html=html.replace('fetchJSON_comment98vv17182(','')
html=html.replace(');','')
b=json.loads(html)
6 .整體程式碼:
#--*--coding:utf-8--*--
import urllib2
import json
import sys
reload(sys)
sys.setdefaultencoding('utf8')
f = open('01.txt','w')
for i in range(0,10):
url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv17182&productId=4554969&score=0&sortType=5&page='+str(i)+'&pageSize=10&isShadowSku=0&fold=1'
#實現爬多頁
print url
request=urllib2.Request(url)
response=urllib2.urlopen(request)
html =response.read().decode('GBK')
html=html.replace('fetchJSON_comment98vv17182(','')
html=html.replace(');','')
#去掉多餘的字元
b=json.loads(html)
for k in b['comments']:
content = k["content"].encode('utf-8')
print content
f.write(k["content"].encode('utf-8')+'\n')
referenceName=k["referenceName"].encode('utf-8')
print referenceName
f.write(k["referenceName"].encode('utf-8')+'\n')
referenceTime=k["referenceTime"].encode('utf-8')
print referenceTime
f.write(k["referenceTime"].encode('utf-8')+'\n\n')
相關推薦
使用python爬取京東評論(json)
任務:爬取京東某手機的評論 這次爬取的內容是動態的所以不能直接爬原始碼中的內容 開啟網頁按下F12在Network裡找到productPageComments檔案 開啟這個檔案 這個檔案是
python3[爬蟲實戰] 使用selenium,xpath爬取京東手機(上)
當然了,這個任務也是從QQ群裡面接過來的,主要是想提升自己的技術,一接過來是很開心的,但是,接完之後,寫了又寫,昨晚寫了3小時,前提晚上寫了2小時,搞的有些晚了,搞來搞去就卡在一個地方了,希望懂的大神們多幫忙指點一下, 使用selenium ,可能感覺用
python爬取安居客(BeautifulSoup)
# -*- coding: utf-8 -*- """ Created on Fri Dec 15 10:26:06 2017 @author: Administrator """ import requests from bs4 import BeautifulSou
用Python爬取英雄聯盟(lol)全部面板
小三:“怎麼了小二?一副無精打采的樣子!” ![](https://img2020.cnblogs.com/blog/1497257/202011/1497257-20201130203433362-343894738.jpg) 小二:“唉!別提了,還不是最近又接觸了一個叫英雄聯盟的遊戲,遊戲中很多面板都
Python爬蟲之利用BeautifulSoup爬取豆瓣小說(三)——將小說信息寫入文件
設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7
python 爬取動態網頁(百度圖片)
# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字
python使用scrapy爬取qq音樂(二)
聽一首還不錯的歌曲 1.有點累?那麼好,來歇息一下,聽一首歌。 突然看到tf男孩的歌曲,你說啥?e_e,這個不要緊,來,點進去聽一下,(事實是我聽了一下下就換了首自己喜歡的歌)。就是這麼任性。 點選,播放。就這麼神奇,你一點選,它就播放了,熟悉js
Python 3 爬取網路資源(一)
最近剛學習python爬蟲技術,查找了一下python爬蟲的demo,發現大部分都是python 2 的語法,於是自己查了一下api,自己變更修改了下,最終完成了圖片爬取。 具體程式碼如下: #co
畢設二:python 爬取京東的商品評論
wait job 獲得 榮耀 search finally content 系統 threading 1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48
python 爬取京東商品評論
#!/usr/bin/python # -*- coding: UTF-8 -*- import requests impo
python 爬取京東手機圖
跳過 close 高手 cnblogs port cep findall pen 得到 初學urllib,高手勿噴... import re import urllib.request #函數:每一頁抓取的30張圖片 def craw(url,page): ima
Scrapy分布式爬蟲打造搜索引擎(慕課網)--爬取知乎(二)
false pat 模塊 text 文件的 服務 協議 .py execute 通過Scrapy模擬登陸知乎 通過命令讓系統自動新建zhihu.py文件 首先進入工程目錄下 再進入虛擬環境 通過genspider命令新建zhihu.py scrap
Python爬取京東商品列表
+= 圖片 info sta HR earch tex new html 爬取代碼: import requests from bs4 import BeautifulSoup def page_url(url): for i in range(1, 3):
scrapy框架爬取豆瓣讀書(1)
tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化
python爬取京東文胸資料(三)
上篇我們只爬了一個牌子的文胸,這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp
python爬取京東文胸資料(二)
##1.獲取js請求 上一篇我們只抓取了一頁的評論,今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s
python爬取京東文胸資料(一)
##點選——>要爬取網址 作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ),就這幾行程式碼,我折磨了一下午,然後我發現,學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身,只要學,任何人都能學會 **1.**先到達頁面開啟開發者模式(F12),點選商品評論,我們隨便的複
爬取大規模資料(1)
本文以58同城網站為例子 大概流程如下: 1、找到58類目頁的所有類目連結 2、設定資料庫(這裡使用MongoDB) 3、編寫兩個爬蟲分別爬取解析該類目下的所有商品連結、詳情頁資訊並存入資料庫中 4、 首先獲取所有類目的連結: # channel_extract.py fr
selenium爬取QQ空間 (上)
這幾天在看《從零開始學python網路爬蟲》中的模擬瀏覽器篇,對其中的爬取好友說說比較感興趣,不過書中只是爬取每個好友第一頁說說,因此我稍微改進了下(發書名是尊重作者,不過個人認為這本書講得比較淺,不求甚解)。 先大致說一下我遇到的坑。首先,如果想要看別人的說說,是必須要登入的(使用cookie
python爬取京東店鋪商品價格資料(更新版)
主要使用的庫: requests:爬蟲請求並獲取原始碼 re:使用正則表示式提取資料 json:使用JSON提取資料 pandas:使用pandans儲存資料 ##sqlalchemy :備用方案,上傳資料到mysql 以下是原始碼: # -*- coding: