1. 程式人生 > >2018.2.23淘寶商品資訊爬蟲

2018.2.23淘寶商品資訊爬蟲

#以下只是爬取一頁可以通過for迴圈的辦法來爬取兩頁三頁甚至更多,

這是for in 的用法>>>languages = ["C", "C++", "Perl", "Python"] >>> forxinlanguages:... print(x)... CC++PerlPython>>>

import re
import requests

def gettext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return"wrong"
                        

def filltext(ilt,html):
    try:
        string1=re.findall(r'\"view_price\"\:\"[\d.]*\"',html)
        string2=re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(string1)):
            price=eval(string1[i].split(':')[1])
            title=eval(string2[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("no")

def printtext(ilt):
    try:
        tplt='{:4}\t{:8}\t{:16}'
        print(tplt.format("序價","價格","商品名稱"))
        count=0
        for g in ilt:
            count=count+1
            print(tplt.format(count,g[0],g[1]))
    except:
        print("nono")


def main():
    goods='口紅'
    url='https://s.taobao.com/search?q='+goods
    list1=[]  
    html=gettext(url)
    filltext(list1,html)
    printtext(list1)
main()

這個爬蟲沒有用bs4,因為看到搜尋頁面的原始碼發現,商品資訊全部放在一個標籤裡面,所以不需要解析頁面,直接用re搜尋就很簡單。