使用selenium和pyquery來爬取淘寶ipad商品資訊

阿新 • • 發佈：2018-12-15

使用selenium爬取淘寶ipad商品資訊

爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫

訪問淘寶

爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。 防止ip被限制訪問可以通過使用代理，或者降低訪問的頻率

1.獲取商品的總頁數

檢查其html原始碼
可通過CSS選擇器來選取總頁數，進而獲取其總頁數程式碼如下：

def search(url):  # 獲取商品的總頁數
    try:
        browser.get(url)  # 訪問url
        browser.maximize_window()  # 最大化瀏覽器
        sum = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
        # 等待總頁數的加載出現
        return int(sum.text[1:-2]) # 擷取價格的數字部分，第二個元素至倒數第二個元素
        # 返回總頁數
    except TimeoutException:
        search(url)

2.實現翻頁操作

這裡通過頁數輸入框和確定按鈕來實現翻頁操作，而不是用下一頁按鈕。因為如果使用下一頁按鈕的話，需要記錄頁數，而且如果中間出錯的話，無法判別正確頁數是哪一個，及後續操作無法進行
同樣的，通過CSS選擇器來選取輸入框和確定按鈕

input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > input')))
            # 等待輸入框加載出現,並選取
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
            # 等待確定按鈕加載出現(element_to_be_clickable可點選元素，來確定是按鈕元素)，並選取

翻頁時，首先清空輸入框中的內容，再輸入目標頁，單擊確定按鈕，實現翻頁

input.clear()
# 清除輸入框內容
input.send_keys(page)
# 將要跳轉的頁數輸入到輸入框中
submit.click()
# 點選確定按鈕

翻頁之後還需要判斷該頁是否與我們的目標頁是同一頁選取高亮的頁碼數，與目標頁數比較

wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page)))
# 選擇高亮的頁碼數，判斷它是否等於我們所跳轉的頁數(str(page))

接著，在分析原始碼的時候我們發現，所有的資訊都在class值為item的標籤之中，所以首先要等在這些原始碼載入成功，進而在其內通過pyquery提取資訊這裡有五個item，內含五個商品的資訊（item與之後的內容間隔一個空格，所以選擇的時候class屬性直接指定為item）在這裡插入圖片描述內部資訊如下：提取資訊的程式碼如下：

def get_products():
    # 用pyquery解析網頁
    html = browser.page_source  # 獲取原始碼
    doc = pq(html)  # 生成pyquery物件
    items = doc('#mainsrp-itemlist .items .item').items()  # items()得到一個可遍歷的生成器
    for item in items:
        product = {
            'image': item('.pic').find('img').attr('data-src'),  # 提取image
            'price': item('.price').text(),  # 提取價格
            'deal': item('.deal-cnt').text()[:-3],   # 擷取第一個字元至倒數第三個字元
            'location': item('.location').text()  # 提取店鋪位置
        }
        print(product)  # 列印資訊
        save_to_mongo(product)  # 將提取到的資訊儲存到MongoDB資料庫中

3.將資料儲存到MongoDB資料庫中

使用pymongo庫與MongoDB進行互動程式碼如下：

import pymongo

MONGO_URL = 'localhost'  # 指定ip地址，localhost本地地址
MONGO_DB = 'taobao'  # 指定資料庫名
MONGO_TABLE = 'iPad'  # 指定資料表名(在mongodb中叫做集合)
client = pymongo.MongoClient(MONGO_URL)  # 建立一個MONGODB連線物件
db = client[MONGO_DB]  # 連線到MONGO_DB資料庫
def save_to_mongo(result):  # 將資料匯入到資料庫中
    try:
        if db[MONGO_TABLE].insert(result):   # 如果在MONGO_DB中插入資料成功，執行print語句
            print('儲存成功')
    except Exception:
        print('儲存失敗')

END…

全部程式碼如下：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from pyquery import PyQuery as pq
import time
import pymongo  # 匯入pymongo庫，與mongodb互動


browser = webdriver.Firefox()  # 建立火狐瀏覽器物件
wait = WebDriverWait(browser, 10)  # 建立等待物件，最大等待時間10s，超過10s丟擲TimeOutException異常
MONGO_URL = 'localhost'  # 指定ip地址，localhost本地地址
MONGO_DB = 'taobao'  # 指定資料庫名
MONGO_TABLE = 'iPad'  # 指定資料表名(在mongodb中叫做集合)


def search(url):  # 獲取商品的總頁數
    try:
        browser.get(url)  # 訪問url
        browser.maximize_window()  # 最大化瀏覽器
        sum = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
        # 等待總頁數的加載出現
        return int(sum.text[1:-2])
        # 返回總頁數
    except TimeoutException:
        search(url)


def index_page(page):  # 換頁，跳轉正第page頁
    try:
        if page > 1:
            input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > input')))
            # 等待輸入框加載出現,並選取
            submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
            # 等待確定按鈕加載出現(element_to_be_clickable可點選元素，來確定是按鈕元素)
            input.clear()
            # 清除輸入框內容
            input.send_keys(page)
            # 將要跳轉的頁數輸入到輸入框中
            submit.click()
            # 點選確定按鈕
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page)))
        # 選擇高亮的頁碼數，判斷它是否等於我們所跳轉的頁數
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
        # 等待商品資訊的載入
        get_products()  # 獲取商品資訊
    except TimeoutException:
        index_page(page)


def get_products():
    # 用pyquery解析網頁
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()  # items()得到一個可遍歷的生成器
    for item in items:
        product = {
            'image': item('.pic').find('img').attr('data-src'),
            'price': item('.price').text(),
            'deal': item('.deal-cnt').text()[:-3],   # 擷取第一個字元至倒數第三個字元
            'location': item('.location').text()
        }
        print(product)
        save_to_mongo(product)  # 將提取到的資訊儲存到MongoDB資料庫中


client = pymongo.MongoClient(MONGO_URL)  # 建立一個MONGODB連線物件
db = client[MONGO_DB]  # 連線到MONGO_DB資料庫


# 資料匯入資料庫中
def save_to_mongo(result):
    try:
        if db[MONGO_TABLE].insert(result):   # 如果在MONGO_DB中插入資料成功，執行print語句
            print('儲存成功')
    except Exception:
        print('儲存失敗')


def main():
    try:
        url = 'https://s.taobao.com/search?q=iPad'
        total = search(url)
        for i in range(1, total + 1):
            index_page(i)
    except Exception:   # Exception 異常的父類
        print('error!')


if __name__ == '__main__':
    main()

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

比價網站的基礎-爬取淘寶的商品資訊

淘寶網站，頁面上有很多動態載入的AJAX請求，並且很多引數做過加密處理，如果直接分析網頁，會非常繁瑣，難度極大。本文利用selenium驅動chrome瀏覽器完成關鍵字輸入、搜尋、點選等功能，完成頁面的資訊的獲取，並利用pyquery庫進行解析，獲取商品資訊並將

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

python3實現爬取淘寶頁面的商品的資料資訊（selenium+pyquery+mongodb）

1.環境須知做這個爬取的時候需要安裝好python3.6和selenium、pyquery等等一些比較常用的爬取和解析庫，還需要安裝MongoDB這個分散式資料庫。 2.直接上程式碼 spider.py import re from config

用selenium爬取淘寶美食

display cts win clas .get cto 分享 element nal ‘‘‘利用selenium爬取淘寶美食網頁內容‘‘‘ import re from selenium import webdriver from selenium.common.

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

利用selenium爬取淘寶美食內容

pycharm pid dea int mpi bubuko Go con port 1、啟動pycharm 首先咱們新建一個項目名字大家可以自己設定接著新建一個spider.p文件 #author: "xian" #date: 2018/5/4 import re #

scrapy+selenium 爬取淘寶

SM end nts items 參數 lang 組元 accept .get # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

Python爬取淘寶店鋪和評論

adg 測試工具 .exe .html bar lis 界面參數 bdr 1 安裝開發需要的一些庫 (1) 安裝mysql 的驅動：在Windows上按win+r輸入cmd打開命令行，輸入命令pip install pymysql，回車即可。 (2) 安裝自動化測試的驅動

Selenium:爬取淘寶商品

from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By

使用Selenium爬取淘寶商品

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditi

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊

訪問淘寶

1.獲取商品的總頁數

2.實現翻頁操作

3.將資料儲存到MongoDB資料庫中

相關推薦