爬蟲爬取京東部分需要的資料

阿新 • • 發佈：2019-02-20

#_*_coding=utf-8 _*_
#__author__ = 'Administrator'


from selenium import webdriver
from bs4 import BeautifulSoup
import sys
import urllib2
import time
from compiler.ast import flatten
import re
import xlwt
reload(sys)
sys.setdefaultencoding('utf-8')


deiver =webdriver.Firefox()
deiver.get('https://fresh.jd.com/' 
)
deiver.find_element_by_xpath('/html/body/div[4]/div/div[1]/div[2]/div[1]/div[1]/div[2]/div[1]/div[1]/div/a').click()#需要手動輸入div[1]/div/a')  ，第一個div值
windows = deiver.window_handles
deiver.switch_to.window(windows[-1]) #點選進入商品列表介面
deiver.switch_to.window(windows[0])
deiver.close()
deiver.switch_to.window(windows[-1 
])
time.sleep(2)
pages = deiver.find_element_by_xpath('/html/body/div[7]/div[1]/div[1]/div[1]/div/span').text #獲取一共有多少頁商品
pages = pages.encode("utf-8")
pages = int(pages)
page = pages/60 + 1
all_goods = []
all_url_goods = []#所有商品的url
for aa in range(1,page):
#    print aa
    a = 'https://list.jd.com/list.html?cat=12218,12221&page=' 
#*****需要手動輸入cat=12218,12221，cat後值
    b = '&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main'
    bb = aa
    x = '%s%d%s'%(a,bb,b)
    jd = urllib2.urlopen(x)#訪問生鮮下商品列表頁
    html = jd.read()
    soup = BeautifulSoup(html,'html.parser')
    list = soup.select('div[class="p-name"]')
    new_list1 = []
    name = []
    for i in range(len(list)):
        try :
            b = re.findall('">\n<a href="(.*)'" target=",str(list[i]))[0].decode()#匹配商品列表頁的url
            new_list1.append(b)#匹配獲取商品列表頁一頁的60個url地址，並新增到new_list1下
        except Exception as e:
            pass
    print('第%s頁'%aa)
    all_url_goods.append(new_list1)
print('url獲取結束，開始獲取規格名稱')
all_url_goods = flatten(all_url_goods)
#print(all_url_goods)
#獲取page頁數，並將所有頁數下的url新增到all_url_goods

for i in all_url_goods:
    x = 'http:'
    i = i.replace('"','')
    xx = '%s%s'%(x,i)
    goods = urllib2.urlopen(xx)#訪問商品列表頁每個商品的url
    html =goods.read()
    soup = BeautifulSoup(html,'lxml')
    list1 = soup.findAll(attrs={'data-sku':True})
    goods_url = []
    for i in range(len(list1)):
        a = re.findall('data-sku="(.*)" data-value="',str(list1[i]))#匹配sku
        goods_url.append(a)
    goods_url=flatten(goods_url)
    #print(goods_url)
    for i in range(len(goods_url)):
        a = 'https://item.jd.com/'
        b =int(goods_url[i])
        c = '.html'
        last_url = '%s%d%s'%(a,b,c)
        html = urllib2.urlopen(last_url)#訪問商品詳情頁的各個規格
        soup = BeautifulSoup(html,'lxml')
        last_list =soup.select('div[class="sku-name"]')#匹配名稱
        for i in range(len(last_list)):
            re_goodsname = last_list[i].string
            name.append(re_goodsname)
print(name)
print(len(name))

#all_goods = flatten(all_goods)
work_excel = xlwt.Workbook()
sheet1 = work_excel.add_sheet(u"sheet1",cell_overwrite_ok= True)
for i in range(len(name)):
    sheet1.write(i,0,name[i])
    #print i
work_excel.save('xinxianshuiguo.xls')

歡迎大神給與提點。另外想問一下，非同步載入的資料，可不可以不直接使用time.sleep（）？有沒有別的方法，類似selenium中顯式等待的？

爬蟲爬取京東部分需要的資料

#_*_coding=utf-8 _*_ #__author__ = 'Administrator' from selenium import webdriver from bs4 import BeautifulSoup import sys import

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

python爬取京東文胸資料(三)

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python爬取京東文胸資料(二)

##1.獲取js請求上一篇我們只抓取了一頁的評論，今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

利用Python爬蟲爬取京東商品的簡要資訊

一、前言　　本文適合有一定Python基礎的同學學習Python爬蟲，無基礎請點選：慕課網——Python入門　　申明：例項的主體框架來自於慕課網——Python開發簡單爬蟲　　語言：Python2 　　IDE：VScode二、何為爬蟲　　傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的UR

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

c# 爬蟲爬取京東所有商品資訊

在一個小專案中,需要用到京東的所有商品ID,因此就用c#寫了個簡單的爬蟲。在解析HTML中沒有使用正則表示式，而是藉助開源專案HtmlAgilityPack解析HTML，找到需要的節點。一、下載網頁HTML 首先我們寫一個公共方法用來下載網頁的HTML。在寫下載HTML方

java 爬蟲爬取酷狗歌手資料

記錄防止忘記包： jsoup-1.4.1 html解析 httpcore-4.0.1_1 httpclient-4.0.1 程式碼：已經訪問的url佇列 //已經訪問連結佇列 public class VisitedUrlQueue { public static

利用python爬蟲爬取京東商城商品圖片

筆者曾經用python第三方庫requests來爬取京東商城的商品頁內容，經過解析之後發現只爬到了商品頁一半的圖片。（這篇文章我們以爬取智慧手機圖片為例）當滑鼠沒有向下滑時，此時檢視原始碼的話，就會看到上圖的內容，只有三十個 li 標籤（一個li標籤中有一個圖片地址）。但是滑

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

關於java實現需要登入且帶驗證碼的定時網路爬蟲(爬取的資料存庫)

博主6月初的時候換了個工作，剛進來的時候什麼事沒有，愣是上班喝茶逛網站渡過了一週。那週週五的boss突然問我會不會爬蟲。作為一個才工作一年的javaer表示根本沒接觸過，但是那種情況下你還敢說不會麼，但是當時也不敢說的很絕對，因此就和boss就會一點。當時就隱隱約約有爬

分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲

大數據分布式爬蟲 Java Redis [TOC] 1 概述在不用爬蟲框架的情況，經過多方學習，嘗試實現了一個分布式爬蟲系統，並且可以將數據保存到不同地方，類似MySQL、HBase等。基於面向接口的編碼思想來開發，因此這個系統具有一定的擴展性，有興趣的朋友直接看一下代碼，就能理

爬取京東收件地址下得所有資料

1.工具備用 package reptile; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import

爬蟲爬取京東部分需要的資料

相關推薦