1. 程式人生 > >Python爬蟲系列(四)(簡單)Dota排行榜爬取,並存入Excel表格

Python爬蟲系列(四)(簡單)Dota排行榜爬取,並存入Excel表格

在編寫Python程式的時候,有很多庫供我們選擇,如urllib、requests,BeautifulSoup,lxml,正則表示式等等,使得我們在獲取網頁原始碼或者選擇元素的時候很方便,但是庫多了,自己糾結症也犯了。。。額。自己今天爬的是對戰平臺的DOTA排行榜(ps:我在簡書看到的一個評論,關於這個網站的,索性自己爬下了-_-),鞏固下知識吧。

1240
排行榜

1、分析網站

開啟開發者工具,我們觀察到排行榜的資料並沒有在doc裡

1240
doc文件

在Javascript裡我麼可以看到下面程式碼:

1240
ajax的post方法非同步請求資料

在 XHR一欄裡,我們找到所請求的資料

1240
json儲存的資料

請求欄位為:

1240
post請求欄位

2、偽裝瀏覽器,並將json資料存入excel裡面

1240
獲取玩家資訊 1240
將資料儲存到excel中

3、結果展示

1240
儲存的資料

4、總結

在掌握一些基本的爬蟲知識之後,自己想做一些爬蟲進階的實戰專案,比如使用一些框架(scrapy、pyspider等)、還有使用代理池等等。還有很多知識要學習自己加油吧。