1. 程式人生 > >用一個小小小爬蟲,爬取淘寶寶貝評價內容

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

作為剁手族的成員、資深吃貨之一的我,在網購各種各樣的零食是非常頻繁的,可是要在浩瀚的商品庫中找到合適的寶貝,大多數情況下只能參考評論!為了解決這個麻煩,就用Python做了個抓取淘寶商品評論的小小爬蟲。今天就把這個爬蟲分享給大家!

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

思路

我們就拿“德州扒雞”做為參考目標吧~!如果想抓其他商品的話,自行更換目標即可!開啟淘寶,搜尋目標,隨便點選一個商品進入,在點選累計評論,開啟F12開發者工具——網路,先清除現有的所有內容,然後點選下一頁評論,在彈出的內容中查詢檔案中開頭為list_detail_rate.htm的html型別,如下圖所示

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

這個html中就含有我們需要的內容,左鍵點選然後選擇響應,就可以看到具體響應內容了!

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

這裡面是一大串包含我們需要的內容在內的原始碼,如果大家有興趣可以提取內容做成json資料,而我們這裡只需要評論資料,所以,用正則匹配評論部分就可以了!

開始寫程式碼

具體過程就贅述了,新建一個函式,接受店鋪ID(唯一)作為引數,做一個無限迴圈來翻頁,並以評論時間為判斷是否重複,如果重複則跳出迴圈(return可以直接跳出迴圈),整個函式部分程式碼如下

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

加入try是因為程式碼一直在抽風的跳出index錯誤,後續還可以改進!

作為一個爬蟲愛好者,必然要加深抓取的廣度的,試著將整個頁面的店鋪ID抓取出來!這次簡單,直接抓到json資料,然後用正則匹配,放回列表,因為時間有限,沒有研究出url翻頁的依據,就只抓取了一頁!

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

然後開始寫主函式,儲存到文件!執行結果如下

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

emmm,看評論是可以入手的!哈哈!

用一個小小小爬蟲,爬取淘寶寶貝評價內容

 

總結

這個爬蟲平時拿來小玩一下是可以的,用來分析也行,但是請切記不要外傳擴散,不然很容易進坑!另外淘寶的反爬其實也不是很難,比如上面的爬蟲,並沒有做反爬措施,大家可以拿這個來練練手,玩一玩,記得加入sleep就可以,不要給對方伺服器造成壓力為最好!希望這個小小爬蟲能給你帶來會心一笑。

寫在最後

喜歡本文的小夥伴或者覺得本文對你有幫助可以點播關注或轉發。小編在此推薦一個學習與交流Python學習的地方,如果有想學Python的小夥伴可以加群959997225,另外沒有裝Python環境的小夥伴也可以聯絡小編,小編這裡有免費的環境提供給大家!

本文來自網路,如有侵權,請聯絡小編刪除!