Python爬蟲系列(四)(簡單)Dota排行榜爬取,並存入Excel表格
在編寫Python程式的時候,有很多庫供我們選擇,如urllib、requests,BeautifulSoup,lxml,正則表示式等等,使得我們在獲取網頁原始碼或者選擇元素的時候很方便,但是庫多了,自己糾結症也犯了。。。額。自己今天爬的是對戰平臺的DOTA排行榜(ps:我在簡書看到的一個評論,關於這個網站的,索性自己爬下了-_-),鞏固下知識吧。
排行榜
1、分析網站
開啟開發者工具,我們觀察到排行榜的資料並沒有在doc裡
doc文件
在Javascript裡我麼可以看到下面程式碼:
ajax的post方法非同步請求資料
在 XHR一欄裡,我們找到所請求的資料
json儲存的資料
請求欄位為:
post請求欄位
2、偽裝瀏覽器,並將json資料存入excel裡面
獲取玩家資訊
將資料儲存到excel中
3、結果展示
儲存的資料
4、總結
在掌握一些基本的爬蟲知識之後,自己想做一些爬蟲進階的實戰專案,比如使用一些框架(scrapy、pyspider等)、還有使用代理池等等。還有很多知識要學習自己加油吧。
相關推薦
Python爬蟲系列(四)(簡單)Dota排行榜爬取,並存入Excel表格
在編寫Python程式的時候,有很多庫供我們選擇,如urllib、requests,BeautifulSoup,lxml,正則表示式等等,使得我們在獲取網頁原始碼或者選擇元素的時候
Python爬蟲系列之四:利用Python爬取PyODPS頁面並整合成PDF文件
文章架構 開發場景 在日常開發過程中, 經常需要參考一些文件。對於線上文件,往往由於網速等原因,用起來總不是那麼(ma)順(fan)心。 開發工具 Anaconda Python 2 實現方案 基於 bs4 模組標籤解析 爬取
Python爬蟲: "追新番"網站資源鏈接爬取
== n) web ace class timeout grep target true “追新番”網站 追新番網站提供最新的日劇和日影下載地址,更新比較快。 個人比較喜歡看日劇,因此想著通過爬取該網站,做一個資源地圖 可以查看網站到底有哪些日劇,並且隨時可以下載。 資源地
[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架
目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩,開源支持者,深信Python大
[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎
目錄 1.Intro 2.Source 1.Intro 檔名:scheduleEngine.py 模組名:排程引擎 引用庫: random time gc os sys date
[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌
目錄 1.Intro 2.Source 1.Intro 檔名:spiderLog.py 模組名:爬蟲日誌 引用庫: logging 功能:日誌寫入到文字,包含普通訊息、警告、錯誤、異常等,可以跟蹤爬蟲執行過程。 &nb
[Python] [爬蟲] 8.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料推送模組
目錄 1.Intro 2.Source (1)dataPusher (2)dataPusher_HTML 1.Intro 檔名:dataPusher.py、dataPusher_HTML.py 模組名:資料推送模組 引用庫: smtpl
[Python] [爬蟲] 7.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料處理器
目錄 1.Intro 2.Source 1.Intro 檔名:dataDisposer.py 模組名:資料處理器 引用庫: pymongo datetime time sys
[Python] [爬蟲] 6.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁解析器
目錄 1.Intro 2.Source 1.Intro 檔名:pageResolver.py 模組名:網頁解析器 引用庫: re lxml datetime sys retry
[Python] [爬蟲] 5.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁下載器
目錄 1.Intro 2.Source 1.Intro 檔名:pageDownloader.py 模組名:網頁下載器 引用庫: selenium random sys socket tim
[Python] [爬蟲] 4.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——配置管理器
目錄 1.Intro 2.Source 1.Intro 檔名:configManager.py 模組名:配置管理器 引用庫:None 功能:儲存爬蟲相關配置資訊,如資料庫配置、資料表名、網站URL、報頭等。 2.Source #!/usr/bin/env Py
[Python] [爬蟲] 3.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池
目錄 1.Intro 2.Source 1.Intro 檔名:proxyPool.py 模組名:代理池 引用庫: requests urllib2 lxml scrapy pymongo
[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組
目錄 1.Intro 2.Source 1.Intro 檔名:authentication.py 模組名:驗證模組 引用庫: urllib2 requests pymongo socket
Python爬蟲入門教程 3-100 美空網數據爬取
個數 exception 意思 消費 時間模塊 intel insert -o switch 簡介 從今天開始,我們嘗試用2篇博客的內容量,搞定一個網站叫做“美空網”網址為:http://www.moko.cc/, 這個網站我分析了一下,我們要爬取的圖片在 下面這個網址
Python爬蟲入門教程 15-100 石家莊政民互動資料爬取
寫在前面 今天,咱抓取一個網站,這個網站呢,涉及的內容就是 網友留言和回覆,特別簡單,但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告,為了學習,絕無惡意抓取資訊,不管
[Python] [爬蟲] 11.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——日誌監控
目錄 1.Intro 檔名:log_record.py 模組名:日誌監控 引用庫: pymongo 功能:爬蟲執行結果寫入到資料庫的日誌表中,便於檢視每天執行情況,執行失敗時再追溯日誌。 2.Source #!/usr/bin/env pytho
[Python] [爬蟲] 12.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池重建
目錄 1.Intro 檔名:rebuild_proxy.py 模組名:代理池重建 引用庫: pymongo random 自定義引用檔案:proxyPool、configManager 功能:清空代理池,重新爬取代理,提高代理可用性。 2.So
Python爬蟲:Scrapy框架基礎框架結構及騰訊爬取
Scrapy終端是一個互動終端,我們可以在未啟動spider的情況下嘗試及除錯程式碼,也可以用來測試XPath或CSS表示式,檢視他們的工作方式,方便我們爬取的網頁中提取的資料。 如果安裝了 IPython ,Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho
Python爬蟲入門教程 12-100 半次元COS圖爬取
寫在前面 今天在瀏覽網站的時候,忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後,發現也沒有什麼有意思的內容,職業的敏感讓我瞬間聯想到了 cosplay ,這種網站必然會有這個的存在啊,於是乎,我準備好我的大爬蟲了。 把上面的連結開啟之後
Python爬蟲入門教程 12-100 二次元COS圖爬取
寫在前面 今天在瀏覽網站的時候,忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後,發現也沒有什麼有意思的內容,職業的敏感讓我瞬間聯想到了 cosplay ,這種網站必然會有這個的存在啊,於是乎,我準備好我的大爬蟲了。