1. 程式人生 > >給新手推薦幾個實用又適合上手的Python爬蟲專案

給新手推薦幾個實用又適合上手的Python爬蟲專案

1、爬取網站美圖

爬取圖片是最常見的爬蟲入門專案,不復雜卻能很好地熟悉Python語法、掌握爬蟲思路。

加python學習交流qun 784758214 各種Python新手專案資料包免費領取,不定時還有web、爬蟲等技術的免費知識分享直播教學

當然有兩個點要注意:

不要侵犯版權,
要注意營養。
思路流程

第一步:獲取網址的response,分頁內容,解析後提取圖集的地址。
第二步:獲取網址的response,圖集分頁,解析後提取圖片的下載地址。
第三步:下載圖片(也就是獲取二進位制內容,然後在本地復刻一份)。

部分程式碼

給新手推薦幾個實用又適合上手的Python爬蟲專案

執行結果

給新手推薦幾個實用又適合上手的Python爬蟲專案

爬取王者榮耀全套面板
怎麼獲取全套面板?用錢買,或者用爬蟲爬取下來~雖然後者不能穿。這個案例稍微複雜一點,但是一個非常值得學習的專案。

思路流程

首先進入所有英雄列表,你會看到下圖

給新手推薦幾個實用又適合上手的Python爬蟲專案

在這個網頁中包含了所有的英雄名稱。點選其中一個英雄例如“百里守約”,進去後如下圖:

給新手推薦幾個實用又適合上手的Python爬蟲專案

網址中196.shtml以前的字元都是不變的,變化的只是196.shtml。而196是“百里守約”所對應的數字,要想爬取圖片就應該進入每個英雄圖片所在的網址,而網址的關鍵就是對應的數字。那麼這些數字怎麼找呢?

在所有英雄列表中,開啟瀏覽器的開發者工具,重新整理,找到一個json格式的檔案,如圖所示:

給新手推薦幾個實用又適合上手的Python爬蟲專案

這時就會看到所有英雄對應的數字了。在上圖所示的Headers中可以找到該json檔案對應的網址形式。將其匯入Python,把這些數字提取出來,然後模擬出所有英雄的網址即可

小節程式碼:

給新手推薦幾個實用又適合上手的Python爬蟲專案

下載圖片

現在可以進入所有英雄的網址並爬取網址下的圖片了。進入一個英雄的網址,開啟開發者工具,在NetWork下重新整理並找到英雄的面板圖片。如圖所示:

給新手推薦幾個實用又適合上手的Python爬蟲專案

然後在Headers中檢視該圖片的網址。會發現面板圖片是有規律的。我們可以用這樣的方式來模擬圖片網址

給新手推薦幾個實用又適合上手的Python爬蟲專案

在該網址中只有str(v)與str(u)是改變的(str( )是Python中的一個函式),str(v)是英雄對應的數字,str(u)只是圖片編號,例如第一個圖片就是1,第二個就是2,第三個……而一個英雄的面板應該不會超過12個(可以將這個值調到20等)。接著就是下載了。

爬取下來的圖片是這樣,每個資料夾裡面是該英雄對應的圖片,如下圖:

給新手推薦幾個實用又適合上手的Python爬蟲專案

人生苦短,Python當歌!學習,其實是一個堅持、分享、交流、提高的過程。學會交流,不懂就問,與更多優秀的人一起成長,學習效果也會更加顯著。

加python學習交流qun 784758214 各種Python新手專案資料包免費領取,不定時還有web、爬蟲等技術的免費知識分享直播教學