1. 程式人生 > >網站爬取-案例一:貓眼電影TOP100

網站爬取-案例一:貓眼電影TOP100

瀏覽器 取數據 pos 代碼 裏的 十個 wid 頁面 image

今天有小朋友說想看一下貓眼TOP100的爬取數據,要TOP100的名單,讓我給發過去,其實很簡單,先來看下目標網站:

建議大家都用谷歌瀏覽器:

技術分享圖片

這是我們要抓取的內容,100個數據,很少

我們看一下頁面結構

技術分享圖片100部電影分十個頁碼,也就是一頁10個電影,抓取方式為10頁循環抓取

先看下代碼:

引入模塊:

技術分享圖片 這次我用REQUEST模塊作為抓取工具,以JSON的形式做成文件存儲方式

第一步:請求網頁並且讀取:

技術分享圖片 這個網站並沒有設立反爬蟲手段

第二步:解析網頁函數:

技術分享圖片我這裏用的正則表達式

第三步:定義存儲函數:’

技術分享圖片

第四部:主函數:

技術分享圖片 請註意主函數裏的參數

第5步:執行爬取

技術分享圖片

看下結果:

技術分享圖片

這個真的很簡單

網站爬取-案例一:貓眼電影TOP100