python +selenium 爬取淘寶網商品資訊

阿新 • • 發佈：2019-02-16

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研究了動態網頁的爬取，主要是爬取的淘寶網上商品資訊。主要是用到了selenium庫。

主要是實現一下幾個步驟：

（註釋）用到的python庫：

import re
import time
import random 
from bs4 import BeautifulSoup
from selenium import webdriver

（1）通過selenium模擬登陸瀏覽器（我用的是Firefox,其他的瀏覽器原理也類似。）

構造火狐模擬瀏覽器

firefox_login=webdriver.Firefox() （電腦上如果有火狐的話，或開啟一個空白的瀏覽器網頁）

登陸淘寶賬戶（使用者名稱，密碼）（註釋，必須切換到賬戶密碼登陸下才能這樣登陸，萬惡的淘寶，現在的登陸頁面是先跳轉到掃二維碼的登陸方式，所以必須要手動切換回來回事通過selenium 模擬切換回密碼登陸狀態才行），如果有大神可以告訴我一下如何通過二維碼登陸哈，萬分感激。

      firefox_login.find_element_by_id('TPL_username_1').clear()
      firefox_login.find_element_by_id('TPL_username_1').send_keys(u'使用者名稱')
      firefox_login.find_element_by_id('TPL_password_1').clear()
      firefox_login.find_element_by_id('TPL_password_1').send_keys(u'密碼')

點選登陸按鈕實現登陸

      firefox_login.find_element_by_id('J_SubmitStatic').click()

OK，現在瀏覽器已經登陸到自己的淘寶賬戶了。下一步就是搜尋你想要的東西了。

（2）搜尋相應的資訊（在這裡我搜了“”程式碼之美”的書的相關資訊）

    firefox_login.find_element_by_id('q').send_keys(u'程式碼之美')
    firefox_login.find_element_by_class_name('btn-search').click()

此時你的火狐瀏覽器中的頁面就會跳轉到“程式碼之美”網頁，此網頁中就包換了淘寶網上關於《程式碼之美》的資訊了（包括商家、書名‘、簡介、價格、店鋪所在地、已付款人數等’’）

（3）獲取迴圈翻頁的頁數。（為迴圈做準備）

首先，獲取瀏覽器下的靜態頁面

        html=firefox_login.page_source

這時候BeautifulSoup 庫就可以發揮它的強大了

      soup = BeautifulSoup(html,'lxml') 
      comments=soup.find_all("div", class_="total")  #匹配總的頁數
      pattern=re.compile(r'[0-9]')
      pageNum=pattern.findall(comments[0].text)     # 將數字頁數提取
      pageNum=int(pageNum[0])

必須注意的一點就是獲得的PageNum必須轉換成int型。

（3）對html進行解析

    Infolist=[]    #儲存爬去的資訊
    comments=soup.find_all("div", class_="ctx-box J_MouseEneterLeave J_IconMoreNew")
    for i in  comments:
        temp=[]
        Item=i.find_all("div",class_="row row-2 title")  #圖書相關資訊
        temp.append(Item[0].text.strip())
        shop=i.find_all("div",class_="row row-3 g-clearfix")
        for j in shop:
            a=j.find_all("span")
            temp.append(a[-1].text)    #店鋪名稱
        address=i.find_all('div',class_='location') 
        temp.append(address[0].text.strip())   #店鋪所在地
        priceandnum=i.find_all("div",class_="row row-1 g-clearfix")
        for m in priceandnum:
            Y=m.find_all('div',class_='price g_price g_price-highlight')
            temp.append(Y[0].text.strip()) #商品價格
            Num=m.find_all('div',class_='deal-cnt')
            temp.append(Num[0].text.strip())   #購買人數
        Infolist.append(temp)

以上爬蟲程式碼必須結合著網頁原始碼才能比較好的理解。

（4）爬完一頁就需要點選重新整理資料進行下一次爬去((淘寶頁面用的是ajax(意味著不必重新載入真個頁面的情況下，對區域性資料進行更新，所以網頁地址不會改變))

 firefox_login.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click()  #點選下一頁ajax重新整理資料

以上幾個部分基本上就是淘寶網的物品資訊必備的幾個步驟了。本人也是初步學習爬蟲。難免有錯誤和瑕疵，請大神批評指正。下面是完整的程式。比較簡單，後期會加上多執行緒以及其他相應的相應的情況處理（比如多次登入後，再次登入，淘寶會通過滑動的驗證碼進行驗證，這個可以做一下）。寫一下這個也是為了防止自己以後忘記，雖然對於大神來說有些簡單，但是，剛開始學習，就是從基礎做起。 Fighting,加油！
完整程式碼如下：

from selenium import webdriver 
from bs4 import BeautifulSoup
import random
import re
import time
Infolist=[]

def init():   
    firefox_login=webdriver.Firefox()   #構造模擬瀏覽器
    firefox_login.get('https://login.taobao.com/member/login.jhtml?redirectURL=https%3A%2F%2Fwww.taobao.com%2F') #淘寶登入頁面
    firefox_login.maximize_window()#視窗最大化，可有可無，看情況
    return firefox_login
    
def login(firefox_login):    
    #輸入賬戶密碼
    #我請求的頁面的賬戶輸入框的'id'是username和密碼輸入框的'name'是password
    firefox_login.find_element_by_id('TPL_username_1').clear()
    firefox_login.find_element_by_id('TPL_username_1').send_keys(u'使用者名稱')
    firefox_login.find_element_by_id('TPL_password_1').clear()
    firefox_login.find_element_by_id('TPL_password_1').send_keys(u'密碼')
    firefox_login.find_element_by_id('J_SubmitStatic').click()
    time.sleep(random.randint(2,5))
    firefox_login.find_element_by_id('q').send_keys(u'程式碼之美')
    firefox_login.find_element_by_class_name('btn-search').click()
    return firefox_login
def ObtainHtml(firefox_login):
    
    data=firefox_login.page_source
    soup = BeautifulSoup(data,'lxml') 
    comments=soup.find_all("div", class_="ctx-box J_MouseEneterLeave J_IconMoreNew")
    for i in  comments:
        temp=[]
        Item=i.find_all("div",class_="row row-2 title")  #圖書相關資訊
        temp.append(Item[0].text.strip())
        shop=i.find_all("div",class_="row row-3 g-clearfix")
        for j in shop:
            a=j.find_all("span")
            temp.append(a[-1].text)    #店鋪名稱
        address=i.find_all('div',class_='location') 
        temp.append(address[0].text.strip())   #店鋪所在地
        priceandnum=i.find_all("div",class_="row row-1 g-clearfix")
        for m in priceandnum:
            Y=m.find_all('div',class_='price g_price g_price-highlight')
            temp.append(Y[0].text.strip()) #商品價格
            Num=m.find_all('div',class_='deal-cnt')
            temp.append(Num[0].text.strip())   #購買人數
        Infolist.append(temp)
    
        
#   獲取迴圈爬蟲的頁碼數      
def getPageNum(firefox_login):
    data=firefox_login.page_source
    soup = BeautifulSoup(data,'lxml') 
    comments=soup.find_all("div", class_="total")  #匹配總的頁數
    pattern=re.compile(r'[0-9]')
    pageNum=pattern.findall(comments[0].text)     # 將數字頁數提取
    pageNum=int(pageNum[0])
    return pageNum     #用於迴圈的次數設定
   
   
# 點選下一頁 //更新資料。   
def NextPage(firefox_login):
    firefox_login.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click()  #點選下一頁ajax重新整理資料
         
if __name__=='__main__':
    firefox_login=init()  
    firefox_login=login(firefox_login)
    Num=getPageNum(firefox_login)
    for i in range(Num-1):
        ObtainHtml(firefox_login)
        NextPage(firefox_login)
    print("資訊爬取完成")

python +selenium 爬取淘寶網商品資訊

python +selenium 爬取淘寶網商品資訊

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

使用selenium和pyquery來爬取淘寶ipad商品資訊

比價網站的基礎-爬取淘寶的商品資訊

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

利用Selenium爬取淘寶商品信息

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

python爬蟲爬取淘寶搜尋頁面商品資訊資料

Selenium:爬取淘寶商品

使用Selenium爬取淘寶商品

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

利用selenium爬取淘寶商品資訊

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

Selenium爬取淘寶商品概要入mongodb

用selenium爬取淘寶美食

爬蟲實例之selenium爬取淘寶美食

scrapy結合selenium爬取淘寶等動態網站

利用selenium爬取淘寶美食內容

python +selenium 爬取淘寶網商品資訊

相關推薦