1. 程式人生 > >20行Python程式碼爬取王者榮耀全英雄面板

20行Python程式碼爬取王者榮耀全英雄面板

引言
王者榮耀大家都玩過吧,沒玩過的也應該聽說過,作為時下最火的手機MOBA遊戲,咳咳,好像跑題了。我們今天的重點是爬取王者榮耀所有英雄的所有面板,而且僅僅使用20行Python程式碼即可完成。

準備工作
爬取面板本身並不難,難點在於分析,我們首先得得到面板圖片的url地址,話不多說,我們馬上來到王者榮耀的官網:

 

 我們點選英雄資料,然後隨意地選擇一位英雄,接著F12開啟除錯臺,找到英雄原面板的圖片地址:

 

 

 接著,我們切換一下英雄的面板,會發現圖片地址沒有明顯的變化,只是最後的數字序號改變了,我們將兩個面板圖片的地址放在一起比較一下:

 

1 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-1.jpg
2 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-2.jp

 我們可以猜測,對於同一個英雄的面板圖片地址,僅僅是最後的數字序號不同,為了證實我們的猜想,我們可以繼續找出一個英雄的全面板圖片,找一個面板多一點的,例如我這裡找的是孫尚香,將它的所有面板圖片地址放在一起比較:

 

1 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-1.jpg
2 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-2.jpg
3 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-3.jpg
4 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-4.jpg
5 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-5.jpg
6 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-6.jpg
7 http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-7.jpg

 

由此我們得出結論,同一個英雄的面板圖片路徑從1開始依次遞增,我們再來看看不同英雄之間是如何區分的。會發現,不管面板圖片如何改變,瀏覽器上方的地址始終是不變的,所以我們將兩個不同英雄的url地址放到一起比較一下:

 

1 https://pvp.qq.com/web201605/herodetail/523.shtml
2 https://pvp.qq.com/web201605/herodetail/111.shtml

 

乍一看,似乎沒有什麼規律,但我們要從這裡發現一點,就是最後的數字其實控制的是哪個英雄,我們暫且認為它是英雄的編號,可不幸的是,英雄編號之間好像沒有什麼規律,不用著急,我們再到官網上找找線索。

在英雄資料介面,我們開啟F12除錯臺,通過抓取網路請求,我發現了幾個檔案:

 

 點選網路,然後點選XHR,就可以看到這幾個檔案,看到檔案的名字大家應該就清楚了,這些檔案儲存的就是英雄列表資訊,我們點選檢視一下:

 

沒錯,這裡儲存的就是英雄資訊,包括英雄的名字,英雄編號等等其它資訊,我們可以試試這些資訊的準確性,例如小喬的ename,也就是英雄編號為106,所以按照之前的想法,英雄小喬的詳情地址應為:https://pvp.qq.com/web201605/herodetail/106.shtml
經過嘗試後發現確實如此。

到這裡,準備工作就完成了,其實進行到這裡,整個工程就完成了一半了,接下來就是程式碼的實現了。

程式碼實現
首先我們建立一個Python檔案,然後匯入os和requests模組。
按照前面的步驟,我們首先需要獲取到英雄列表資訊,也就是herolist.json檔案,檔案地址為:https://pvp.qq.com/web201605/js/herolist.json,這在除錯臺中可以找到。
那麼我們首先就要通過這個地址獲取到英雄列表資訊的json資料,然後解析json資料,將有用的資訊提取出來:

1 url = 'https://pvp.qq.com/web201605/js/herolist.json'
2 herolist = requests.get(url)  # 獲取英雄列表json檔案
3 
4 herolist_json = herolist.json()  # 轉化為json格式
5 hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
6 hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的編號

 

這樣我們就獲取到了英雄名字和編號,可以輸出測試一下:
拿到了英雄編號之後,事情就變得很簡單了,只需拼接一下url地址即可:
http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + hero_number + '/' + hero_number + '-bigskin-1.jpg,這樣可以獲取到所有英雄的面板圖片了,但是這裡會有一個問題,英雄的面板是有多有少的,有的英雄只有兩個面板,有的卻有六七個,所以圖片編號的最大值我們並不清楚,這裡我採用了一個比較笨的辦法,就是讓一個變數從1到10依次遞增去拼接圖片地址,如果遇到沒有的圖片我們就不處理,因為沒有一個英雄的面板超過了10個,所以我們就能獲取到所有的圖片了。下面看程式碼實現:

 

 1 # 下載圖片
 2 def downloadPic():
 3     i = 0
 4     for j in hero_number:
 5         # 建立資料夾
 6         os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])
 7         # 進入建立好的資料夾
 8         os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])
 9         i += 1
10         for k in range(10):
11             # 拼接url
12             onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
13                 j) + '-bigskin-' + str(k) + '.jpg'
14             im = requests.get(onehero_link)  # 請求url
15             if im.status_code == 200:
16                 open(str(k) + '.jpg', 'wb').write(im.content)  # 寫入檔案

 

實現非常地簡單,程式碼註釋也已經寫得很清楚了,有了這個函式之後,我們只需呼叫一下,就可以下載圖片了,整個程式的完整程式碼如下:

 

 1 import os
 2 import requests
 3 
 4 url = 'https://pvp.qq.com/web201605/js/herolist.json'
 5 herolist = requests.get(url)  # 獲取英雄列表json檔案
 6 
 7 herolist_json = herolist.json()  # 轉化為json格式
 8 hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
 9 hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的編號
10 
11 
12 # 下載圖片
13 def downloadPic():
14     i = 0
15     for j in hero_number:
16         # 建立資料夾
17         os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])
18         # 進入建立好的資料夾
19         os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i])
20         i += 1
21         for k in range(10):
22             # 拼接url
23             onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
24                 j) + '-bigskin-' + str(k) + '.jpg'
25             im = requests.get(onehero_link)  # 請求url
26             if im.status_code == 200:
27                 open(str(k) + '.jpg', 'wb').write(im.content)  # 寫入檔案
28 
29 
30 downloadPic()

 

 除去註釋,接近20行的程式碼我們就完成了王者榮耀全英雄面板的爬取,是不是非常簡單呢?我們可以測試一下這個程式,首先要在桌面上建立一個資料夾,名為wzry,因為這裡的程式碼我已經寫死了,如果要修改的話大家也可以進行修改,資料夾建立完成後點選執行即可,等待片刻,圖片就全部下載完成了。

 

 

 

 

 

對於程式中json字串的解析,我們還可以使用jsonpath模組來進行,使用該模組能夠更加快捷地獲取到我們想要的資訊,解析方式如下:

 

1 hero_name = jsonpath.jsonpath(html_json, "$..cname")
2 hero_number = jsonpath.jsonpath(html_json, "$..ename")

 

該方法接收一個json字串和解析規則,$…cname則表示從根目錄下找尋任意位置的以cname為鍵的值,並放入字典中。 

結尾

爬蟲是非常有趣的,因為它非常直觀,視覺衝擊感強,寫出來也很有成就感,爬蟲雖然強大,但千萬不能隨意爬取隱私資訊。

最後,如果對文中程式有更好的建議,及其他疑惑,關注微信公眾號python社群營