通過selenium +headless瀏覽器爬取淘寶資訊

阿新 • • 發佈：2019-02-08

開始使用的是phantomJS瀏覽器但是出現警告,所以換成火狐的無頭瀏覽器,也可以使用谷歌的

from selenium import webdriver
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import re
from pyquery import PyQuery as pq
import pymysql
#from config import *
import logging
import sys

#使用selenium +火狐無頭瀏覽器:給webdriver設定引數
firefox_options = Options()
firefox_options.set_headless()
browser = webdriver.Firefox(firefox_options=firefox_options)
#設定請求等待時間
wait = WebDriverWait(browser, 10)
#連線mysql生成介面
conn = pymysql.connect('localhost','root','123456','taobao',charset='utf8')
cur = conn.cursor()


#生成日誌檔案
logger = logging.getLogger('meishierr')
formatter = logging.Formatter("%(asctime)s %(levelname)s %(message)s")
#file_handler = logging.FileHandler("meishi.log")
#file_handler.setFormatter(formatter)
console_hander = logging.StreamHandler(sys.stdout)

console_hander.setFormatter(formatter)


logger.setLevel(logging.ERROR)
#logger.addHandler(file_handler) 
logger.addHandler(console_hander)

def search(keywords):
    print('正在搜尋')
#    使用selenium訪問目標網站,通過CSS_SELECTOR找到需要的輸入框和按鈕,輸入並點選
    try:
        browser.get('https://www.taobao.com')
        
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#q")))
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,
                              '#J_TSearchForm > div.search-button > button')))
        input.send_keys(keywords)
        submit.click()
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.total')))
        get_page()
        return total.text
#    如果出現超時異常,重新呼叫自身
    except TimeoutException:
        print('###')
        return search()
    
#    找到頁面需要輸入頁碼的位置找到css選擇器
def next_page(page_num):
    print("正在翻頁",page_num)
    try:
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input")))
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,
                                  '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
#       先清空輸入框然後傳送頁碼 並點選
        input.clear()
        input.send_keys(page_num)
        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_num)))
        get_page()
    except TimeoutException:
        next_page(page_num)

def get_page():
    print('開始獲取詳情')
#    等待載入完成,獲取整個原始碼,使用pyquery進行篩選
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))
    html = browser.page_source                                           
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
#遍歷出每個資訊通過pyquery介面函式對目標引數資訊抓取
    for item in items:
        prodyct ={'image':item.find('.pic .img').attr('src'),
                  'prince':item.find('.price').text(),
                  'deal':item.find('.deal-cnt').text()[:-3],
                  'title':item.find('.title').text(),
                  'shop':item.find('.shop').text(),
                  'location':item.find('.location').text()
                
                }
        print(prodyct)
        save_to_mysql(prodyct)

def save_to_mysql(prodyct):
#    使用SQL語句將目標資訊插入到資料庫,並提交,並進行異常處理
    sql = 'insert into meishi(image,prince,deal,title,shop,location) values(%s,%s,%s,%s,%s,%s);'
    parime = (prodyct['image'],prodyct['prince'],prodyct['deal'],prodyct['title'],prodyct['shop'],prodyct['location'])
    try:
        cur.execute(sql,parime)
        conn.commit()
    except Exception as e:
        logging.error(e)
            
    
    
def main():
    keywords = '美食'
    total = search(keywords)
    
    total = int(re.search('\d+',total).group(0))
    print(total)
#    生成頁數
    for i in range(2,total+1):
        next_page(i)
    browser.close()    

            
if __name__ =="__main__":
    main()
    

#logger.removeHandler(file_handler)
logger.removeHandler(console_hander)
cur.close()
conn.close()

通過selenium +headless瀏覽器爬取淘寶資訊

開始使用的是phantomJS瀏覽器但是出現警告,所以換成火狐的無頭瀏覽器,也可以使用谷歌的 from selenium import webdriver from selenium.webdriver.firefox.options import Options f

python selenium控制瀏覽器爬取淘寶商品資訊

前言今天為大家介紹一個Python利用selenium開啟瀏覽器的方式來爬取淘寶商品的資訊,下面就來看看,關於selenium

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

使用Selenium模擬瀏覽器抓取淘寶商品美食信息

get cto sub element 得到 support pan args time 1.搜索關鍵詞：利用Selenium驅動瀏覽器，得到商品列表。 2.分析頁碼並翻頁：得到商品頁碼數，模擬翻頁，得到後續頁面的商品列表。 3.分析提取商品內容：利用PyQuery分析源碼

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

16-使用Selenium模擬瀏覽器抓取淘寶商品美食資訊

淘寶由於含有很多請求引數和加密引數，如果直接分析ajax會非常繁瑣，selenium自動化測試工具可以驅動瀏覽器自動完成一些操作，如模擬點選、輸入、下拉等，這樣我們只需要關心操作而不需要關心後臺發生了怎樣的請求。PhantomJS是一個無介面的瀏覽器。爬取淘寶搜尋關鍵詞下的寶貝內容，爬取到MONGODB，

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

python3+seleium+chrome headless+mongodb 爬取淘寶產品例項（僅程式碼+結果）

學習書籍：《python3 網路爬蟲開發實踐》視訊地址：例項視訊 1.main.py import re from pyquery import PyQuery as pq from selenium import webdriver from sele

用selenium爬取淘寶美食

display cts win clas .get cto 分享 element nal ‘‘‘利用selenium爬取淘寶美食網頁內容‘‘‘ import re from selenium import webdriver from selenium.common.

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

利用selenium爬取淘寶美食內容

pycharm pid dea int mpi bubuko Go con port 1、啟動pycharm 首先咱們新建一個項目名字大家可以自己設定接著新建一個spider.p文件 #author: "xian" #date: 2018/5/4 import re #

scrapy+selenium 爬取淘寶

SM end nts items 參數 lang 組元 accept .get # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

Selenium:爬取淘寶商品

from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By

使用Selenium爬取淘寶商品

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditi

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

Selenium+Scrapy爬取淘寶

好久不見，今天給大家分享如何用自動化工具selenium和scrapy框架來爬取淘寶。爬取網站時候的坑！剛開始爬的時候，就想著直接進入淘寶主頁，然後用selenium工具自動一步步執行然後爬取到自己想得到的資料，然而！令我沒想到的是，利用自動化工具可以對關鍵詞進

使用selenium爬取淘寶店鋪資訊

使用selenium +PhantomJS()/Chrome爬取淘寶頁面，儲存到mongdb中使用config進行一些設定MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 將圖片設定為不下載

通過selenium +headless瀏覽器爬取淘寶資訊

相關推薦