爬蟲實例之selenium爬取淘寶美食

阿新 • • 發佈：2017-12-04

獲取 web tex 匹配 ive cati def presence dea

這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。

首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是否出現時使用，第二個參數為等待最長時間，超過該值則拋出異常。

browser = webdriver.Chrome()
wait = WebDriverWait(browser,10)

聲明好之後就需要進行打開網頁、進行搜索的操作。

#使用webdriver打開chrome，打開淘寶頁面，搜索美食關鍵字，返回總頁數
def search():
    try:
        browser.get( 
‘https://www.taobao.com‘)
 
#判斷輸入框是否已經加載
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#q‘)))  

#判斷搜索按鈕是否可以進行點擊操作       
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,‘#J_TSearchForm > div.search-button > button‘)))

#輸入美食，點擊搜索按鈕
        input.send_keys(‘ 
美食‘)
        submit.click()    

#使用css_selector找到顯示總頁面的元素，判斷是否出現並獲取其中文字
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.total‘)))
        get_products()
        return total.text
    except TimeoutException:
        print 
(‘timeout!‘)
        return search()

第一個頁面操作之後，我們需要進行翻頁操作，如下：

#進行頁面的跳轉，輸入下一頁的頁號，然後點擊確定按鈕，在高亮區域判定是否正確跳轉
def next_page(page_num):
    try:

#判斷輸入框是否出現
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.form > input‘)))

#判斷確定按鈕是否可點擊
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘)))

#清空輸入框現有內容然後輸入頁號，點擊確定
        input.clear()
        input.send_keys(page_num)
        submit.click()

#根據高亮區域顯示數字來判斷頁面是否跳轉成功        
wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > ul > li.item.active > span‘),str(page_num)))

#跳轉成功則獲取該頁所有商品詳情
        get_products()        
    except TimeoutException:
        next_page(page_num)

寫完搜索操作和翻頁操作後，我們需要完成對每個頁面的商品信息獲取功能。

#獲取商品詳情
def get_products():

#判斷商品的item是否加載出來
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-itemlist .items .item‘)))

#獲取該頁的源代碼
    html = browser.page_source

#使用pyquery進行解析，獲取需要的信息
    doc = pq(html)
    items = doc(‘#mainsrp-itemlist .items .item‘).items()
    for item in items:
        product = {
            ‘image‘:item.find(‘.pic .img‘).attr(‘src‘),
            ‘price‘:item.find(‘.price‘).text(),
            ‘deal‘:item.find(‘.deal-cnt‘).text()[:-3],
            ‘title‘:item.find(‘.title‘).text(),
            ‘shop‘:item.find(‘.shop‘).text(),
            ‘location‘:item.find(‘.location‘).text(),
        }
        print(product)
        save_to_mongo(product)

獲取信息之後則需要對信息進行存儲：

def save_to_mongo(result):
    try:
        if db[MONGO_TABLE].insert(result):
            print(‘存儲成功‘,result)
    except Exception:
        print(‘存儲失敗‘,result)

主函數：

def main():
    total = search()
    total = int(re.search(‘(\d+)‘,total).group(1))   #‘\d‘表示匹配數字
    for i in range(2,total+1):
        next_page(i)

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

用selenium爬取淘寶美食

display cts win clas .get cto 分享 element nal ‘‘‘利用selenium爬取淘寶美食網頁內容‘‘‘ import re from selenium import webdriver from selenium.common.

利用selenium爬取淘寶美食內容

pycharm pid dea int mpi bubuko Go con port 1、啟動pycharm 首先咱們新建一個項目名字大家可以自己設定接著新建一個spider.p文件 #author: "xian" #date: 2018/5/4 import re #

爬蟲實例利用Ajax爬取微博數據

alt b2b 每次 png 微博可變實例我們 images 隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

pyhton爬蟲筆記之實戰爬取淘寶商品價格和名稱

# -*- coding: utf-8 -*- """ Created on Wed Nov 8 18:55:18 2017 @author: xuanxuan """ # -*- codin

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

思路就是用selenium操作瀏覽器，訪問淘寶，輸入關鍵詞，查詢，用pyquery解析目標資訊，翻頁，儲存到mongodb. 函式定義三個： 1 開啟瀏覽器，查詢初始化，翻頁 from selenium import webdriver from se

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

scrapy+selenium 爬取淘寶

SM end nts items 參數 lang 組元 accept .get # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

Selenium:爬取淘寶商品

from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By

使用Selenium爬取淘寶商品

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditi

使用selenium爬取淘寶店鋪資訊

使用selenium +PhantomJS()/Chrome爬取淘寶頁面，儲存到mongdb中使用config進行一些設定MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 將圖片設定為不下載

利用selenium爬取淘寶商品資訊

# coding: utf-8from selenium import webdriverimport time# 1.建立瀏覽器物件driver = webdriver.Firefox()# 2.開啟淘寶首頁driver.get('http://www.taobao.com

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

Selenium爬取淘寶商品概要入mongodb

enum style div location 如果 ces tex select target 準備： 1.安裝Selenium：終端輸入 pip install selenium 2.安裝下載Chromedriver：解壓後放在…\Google\Chr

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

pre pager 淘寶 NPU group color 存在 pan rgs 利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB 目標站點分析流程框架爬蟲實戰 spider詳情頁 import pymongo im

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

爬蟲實例之selenium爬取淘寶美食

相關推薦