PythonSpider---爬取淘寶店鋪資訊並匯入excel

阿新 • • 發佈：2019-01-01

挺久沒更新簡書了，之前一直在忙機器視覺的開題報告，現在又要期末複習，射頻通訊，訊號處理看的腦闊疼，所以決定寫個簡單點的爬蟲，放鬆下，換個環境，也順便鞏固下爬蟲。

圖片來自網路

0.執行環境

Python3.6.5
Pycharm
win10

1.爬蟲思維框架

框架

1：從上圖中可以看出本次爬蟲所用到的庫，其中xlsxwriter庫是用來製作excel表格儲存資料的，剩餘兩個庫就不用多說了，爬蟲必備庫，你一定接觸過。
官方xlsxwriter解釋
 CSDN博主的精簡版
2：分四個步驟完成，詳見上圖框架。
3：爬取的淘寶頁面

本次所要爬取的資訊

2.可能遇到的問題及解決方案

Q1，無法獲取網頁原始碼，得到的text總是為空？
A1，必須在headers中加入cookie和user-agent，缺一不可。
Q2，使用beautifulsoup庫好還是直接正則表示式RE好？
A2，對於本次爬蟲還是正則表示式好，做了就知道了。==！
Q3，如何爬取多個頁面的資訊？
A3，仔細觀察多個頁面的URL有何區別，本次的URL最後，第一頁是0，第二頁是20，第三頁是40，找規律便可取得所有頁面的URL。
Q4，我還有其他疑問怎麼辦？
A4，在評論區提出，博主會第一時間回覆你的哦！

3.完整程式碼

import requests
import re
import xlsxwriter

def getUrl(page):   # page為[0,10]內的整數
    part1 = 'https://shopsearch.taobao.com/search?app=shopsearch&spm=a230r.7195193.0.0.45xMl6&q=%E9%A3%9F%E5%93%81&tracelog=shopsearchnoqcat&s='
    list = []
    for a in range(0, page):
        part2 = '{}'.format(20*a)
        url = part1 + part2
        list.append(url)
    return list
def getHtmlText(url):
    try:
        headers = {
            隱藏，因為每個人都不一樣，可通過F12獲取，具體方法自行百度
            Cookie 和 User-Agent必須要
        }
        res = requests.get(url, headers=headers, timeout=30)
        res.raise_for_status()
        res.encoding = res.apparent_encoding
        # time.sleep(1)
        return res.text
    except:
        return '網路異常'
def getTaobaoData(text):
    NAME = re.findall('"nick":"(.*?)"', text)
    PLACE = re.findall('"provcity":"(.*?)"', text)
    Totalsold = re.findall('"totalsold":(.*?),', text)
    Procnt = re.findall('"procnt":(.*?),', text)
    return NAME, PLACE, Totalsold, Procnt

def main(page):
    num = 0
    List = getUrl(page)
    TaobaoData = xlsxwriter.Workbook('E:\\taobaodata.xlsx')
    StoresData = TaobaoData.add_worksheet()
    title = [u'店鋪', u'地址', u'銷量', u'產品數']
    StoresData.write_row('A1', title)
    StoresData.set_column('A:D', 25)
    for URL in List:
        Text = getHtmlText(URL)
        name, place, totalsold, procnt = getTaobaoData(Text)
        StoresData.write_column(1+20*num, 0, name)
        StoresData.write_column(1+20*num, 1, place)
        StoresData.write_column(1+20*num, 2, totalsold)
        StoresData.write_column(1+20*num, 3, procnt)
        num += 1
        if not name:
            print('第{}頁爬取失敗'.format(num))
        else:
            print('第{}頁爬取成功'.format(num))
    TaobaoData.close()

if __name__ == '__main__':
    a = input('請輸入需要爬取的頁數(建議小於10):')
    main(int(a))

4.實現效果

Excel

PythonSpider---爬取淘寶店鋪資訊並匯入excel

挺久沒更新簡書了，之前一直在忙機器視覺的開題報告，現在又要期末複習，射頻通訊，訊號處理看的腦闊疼，所以決定寫個簡單點的爬蟲，放鬆下，換個環境，也順便鞏固下爬蟲。圖片來自網路 0.執行環境 Python3.6.5 Pycharm win10 1.爬蟲思維框架

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

使用selenium爬取淘寶店鋪資訊

使用selenium +PhantomJS()/Chrome爬取淘寶頁面，儲存到mongdb中使用config進行一些設定MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 將圖片設定為不下載

Python爬取淘寶店鋪和評論

adg 測試工具 .exe .html bar lis 界面參數 bdr 1 安裝開發需要的一些庫 (1) 安裝mysql 的驅動：在Windows上按win+r輸入cmd打開命令行，輸入命令pip install pymysql，回車即可。 (2) 安裝自動化測試的驅動

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

爬取淘寶商品資訊

我們先來解決一下前置知識，本爬蟲會用到以下庫 requests 是一個很實用Python的一個很實用的HTTP客戶端，可以滿足如今爬蟲的需要 json 用於資料的處理 csv 用於資料的儲存分析說明爬取淘寶商品的資訊，資料主要用於分析市場趨勢，從

抓取淘寶商品資訊並製作商品資訊比價表（以口紅為例）

快速抓取淘寶上口紅資訊 import requests import re import os def getHtmlText(url): try: r=reques

利用selenium爬取淘寶商品資訊

# coding: utf-8from selenium import webdriverimport time# 1.建立瀏覽器物件driver = webdriver.Firefox()# 2.開啟淘寶首頁driver.get('http://www.taobao.com

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

思路就是用selenium操作瀏覽器，訪問淘寶，輸入關鍵詞，查詢，用pyquery解析目標資訊，翻頁，儲存到mongodb. 函式定義三個： 1 開啟瀏覽器，查詢初始化，翻頁 from selenium import webdriver from se

python selenium控制瀏覽器爬取淘寶商品資訊

前言今天為大家介紹一個Python利用selenium開啟瀏覽器的方式來爬取淘寶商品的資訊,下面就來看看,關於selenium

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

比價網站的基礎-爬取淘寶的商品資訊

淘寶網站，頁面上有很多動態載入的AJAX請求，並且很多引數做過加密處理，如果直接分析網頁，會非常繁瑣，難度極大。本文利用selenium驅動chrome瀏覽器完成關鍵字輸入、搜尋、點選等功能，完成頁面的資訊的獲取，並利用pyquery庫進行解析，獲取商品資訊並將

PythonSpider---爬取淘寶店鋪資訊並匯入excel

0.執行環境

1.爬蟲思維框架

2.可能遇到的問題及解決方案

3.完整程式碼

4.實現效果

相關推薦