從零開始寫Python爬蟲 --- 1.6 爬蟲實踐： DOTA'菠菜'結果查詢

阿新 • • 發佈：2019-02-13

說起來目錄裡面本來是準備雙色球資訊查詢的，但是我一點都不懂這個啊，恰好身邊有個老賭棍，沉迷Dota飾品交易，俗稱 “菠菜”。老賭棍啊，老賭棍，能不能不要每天我說天台見。。。
這次的爬蟲功能十分的簡答，主要目的是延展一下bs4庫的使用。

目標分析：

看一看網站裡的資訊是怎麼排列的：

和上一次一樣我們使用開發者工具，快速定位到比賽結果的div中：

有了上一次爬取百度貼吧的經驗。我們很容易就能發現，每一場比賽的資訊都儲存在：

<div class="matchmain bisai_qukuai">

這個div中。
這樣我們先利用bs4庫的findall()方法抓取到每個div，
再迴圈遍歷出每一條我們需要的資訊就大功告成了！

程式碼的實現：

抓取頭：

依舊是我們經常用的抓網頁到本地的程式碼框架，

def get_html(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return " ERROR "

主要處理函式：

def print_result(url):
    '''
    查詢比賽結果，並格式化輸出！
    ''' 

    html = get_html(url)
    soup =  bs4.BeautifulSoup(html,'lxml')
    match_list = soup.find_all('div', attrs={'class': 'matchmain bisai_qukuai'})
    for match in match_list:
        time = match.find('div', attrs={'class': 'whenm'}).text.strip()
        teamname = match.find_all('span', attrs={ 
'class': 'team_name'})
       
        
        #由於網站的構造問題，隊名有的時候會不顯示，所以我們需要過濾掉一些註釋,方法如下:
        if teamname[0].string[0:3] == 'php':
            team1_name = "暫無隊名"
        else:
            team1_name = teamname[0].string
        
        # 這裡我們採用了css選擇器：比原來的屬性選擇更加方便
        team1_support_level = match.find('span', class_='team_number_green').string

        team2_name = teamname[1].string
        team2_support_level = match.find('span', class_='team_number_red').string

        print('比賽時間：{}，\n 隊伍一：{}      勝率 {}\n 隊伍二：{}      勝率 {} \n'.format(time,team1_name,team1_support_level,team2_name,team2_support_level))

這裡有些內容要想說一下：

bs4css選擇器的使用：

原來我們在文件中查詢tag的時候，總是習慣使用這個方法：

find_all('name',attrs={})

這個方法的的確是很方便的幫我們定位元素，
之前的查詢中，我們只用到attrs={}字典中的一個class值。
如果單單通過class屬性來定位我們有更好的方式：css選擇器：

語法：

soup.find_all("a", class_="xxx")

這樣我們就能迅速的找到soup中的class為‘xxx’的元素了

Comment型別的註釋檔案：

這次我們在爬取的時候，由於網站可能沒做好，有的隊伍名字查詢不到，就會顯示一個php的查詢註釋：

<div class="teamtext">
<span class="team_name"><?php phpinfo(); ?></span>
</div>`

這裡我選擇了硬編碼的方式來解決：

#由於網站的構造問題，隊名有的時候會不顯示，所以我們需要過濾掉一些註釋,方法如下:
        if teamname[0].string[0:3] == 'php':
            team1_name = "暫無隊名"
        else:
            team1_name = teamname[0].string

由於是十分小的專案，可以這樣解決，但是如果是較大，
並且需要複用的情況，
我們來看看推薦的做法：

html = '''
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
'''
#可以看到，a標籤下的內容是一個註釋型別，但是如果我們直接輸出它的話
#會輸把註釋符號去掉的 Elsie：

print(soup.a.string) #Elsie

#所以為了過濾掉註釋型別，我們可以這樣做：

if type(soup.a.string)==bs4.element.Comment:
    //TO DO
#上面通過一個簡單的型別判斷解決了這個問題。

整體程式碼：

'''
爬取Dota菠菜結果資訊
使用 requests --- bs4 線路
Python版本： 3.6
OS： mac os 12.12.4
'''

import requests
import bs4

def get_html(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return " ERROR "

def print_result(url):
    '''
    查詢比賽結果，並格式化輸出！
    '''
    html = get_html(url)
    soup =  bs4.BeautifulSoup(html,'lxml')
    match_list = soup.find_all('div', attrs={'class': 'matchmain bisai_qukuai'})
    for match in match_list:
        time = match.find('div', attrs={'class': 'whenm'}).text.strip()
        teamname = match.find_all('span', attrs={'class': 'team_name'})
       
        
        #由於網站的構造問題，隊名有的時候會不顯示，所以我們需要過濾掉一些註釋,方法如下:
        if teamname[0].string[0:3] == 'php':
            team1_name = "暫無隊名"
        else:
            team1_name = teamname[0].string
        
        # 這裡我們採用了css選擇器：比原來的屬性選擇更加方便
        team1_support_level = match.find('span', class_='team_number_green').string

        team2_name = teamname[1].string
        team2_support_level = match.find('span', class_='team_number_red').string

        print('比賽時間：{}，\n 隊伍一：{}      勝率 {}\n 隊伍二：{}      勝率 {} \n'.format(time,team1_name,team1_support_level,team2_name,team2_support_level))



def main():
    url= 'http://dota2bocai.com/match'
    print_result(url)

if __name__ == '__main__':
    main()

爬取結果：

經過這兩個小例子，大家也可以開始動手去寫自己的爬蟲了
你可能會遇到很多小問題，不要畏懼，一點一點的去解決
看著debug資訊，遇到不懂的就去Google，其實我們遇到的很多問題，
前人都已經遇到過，並且大多數時候都有很好地解決辦法。
如果還是不能解決，歡迎在我這裡留言~

從零開始寫Python爬蟲 --- 1.6 爬蟲實踐： DOTA'菠菜'結果查詢

說起來目錄裡面本來是準備雙色球資訊查詢的，但是我一點都不懂這個啊，恰好身邊有個老賭棍，沉迷Dota飾品交易，俗稱 “菠菜”。老賭棍啊，老賭棍，能不能不要每天我說天台見。。。這次的爬蟲功能十分的簡答，主要目的是延展一下bs4庫的使用。目標分析：看一看網站裡的資訊是怎麼排列的：和上一次一樣我們

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用先來說說爬蟲的原理：爬蟲本質上是模擬人瀏覽資訊的過程，只不過他通過計算機來達到快速抓取篩選資訊的目的。所以我們想要寫一個爬蟲，最基本的就是要將我們需要抓取資訊的網頁原

[Golang] 從零開始寫Socket Server（6）【完結】：日誌模組的設計與定時任務模組模組

好久沒寫文章啦。。。今天把golang挖的這個坑給補完吧～作為一個Server，日誌（Log）功能是必不可少的，一個設計良好的日誌模組，不論是開發Server時的除錯，還是執行時候的維護，都是非常有幫助的。因為這裡寫的是一個比較簡化的Server框架，因此我選擇對Golang本

從零開始學Python【1】--資料型別及結構

一直想靜下心來、花點時間學習Python3這門火爆的高階語言，但總是事與願違，故只能擠點時間，做到每天進步一點點。從今天開始我把積累的點滴知識與大家做個分享，也歡迎感興趣的朋友指教與提議。首先從Python的基礎資料型別和資料結構說起，資料型別主要包含三種，分別是數值型、字元型和日

[筆記]架構探險-從零開始寫JavaWeb框架-1. 之搭建輕量級mvc框架

囉嗦一句: 看md語法寫的文章,注意檢視上面的目錄. 一般是很有節奏的導航. ヽ(ˋ▽ˊ)ノヽ(ˋ▽ˊ)ノ終於到了不會的地步了,該書的前面兩章節都是從零開始講解怎麼使用 idea搭建專案,從servlet開始講解怎麼使用. (idea的使用目錄)

python從零開始寫爬蟲（1）-- 開發環境搭建

我是一點都不會python,但為了寫爬蟲，所以就硬幹了。。。 1.windows下搭建python環境直接參考這個就行了安裝指南 2.透過pip安裝套件：1)pip install requests;2)pip install BeautifulSoup4 具體操

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

Python從零開始寫爬蟲（一）requests庫使用

requests是一個強大的網路請求庫，簡單易用-讓 HTTP 服務人類。可以參考這個網站的介紹：http://cn.python-requests.org/zh_CN/latest/index.html 直接使用pip install requests安裝此模組之後，開始吧。

從零開始的Python爬蟲速成指南，本文受眾：沒寫過爬蟲的萌新

引言用最短的時間寫一個最簡單的爬蟲，可以抓一些簡單的論壇、帖子、網頁。入門 1.準備工作安裝Python 安裝scrapy框架一個IDE或者可以用自帶的 2.開始寫爬蟲 &n

python從零開始寫爬蟲（5）-- 資料入庫

寫好的爬蟲，現在就讓他跑起來，把資料load到資料庫具體操作： 1.安裝python 連結mysql的庫:pip install PyMySql 2.新建資料庫及表： DROP TABLE IF

[Python接口自動化]從零開始學習python自動化（1）：環境搭建

help ins cnblogs 文件中 ssi 空格 plugins 變量 mod 第一步：安裝python編譯環境安裝python編譯環境之前，必須保證已安裝jdk哈，如果為安裝，請參考https://jingyan.baidu.com/article/6dad507

從零開始的 Python 爬蟲速成指南

Python序本文主要內容：以最短的時間寫一個最簡單的爬蟲，可以抓取論壇的帖子標題和帖子內容。本文受眾：沒寫過爬蟲的萌新。入門0.準備工作需要準備的東西： Python、scrapy、一個IDE或者隨便什麽文本編輯工具。1.技術部已經研究決定了，你來寫爬蟲。隨便建一個工作目錄，然後用命令行建立一個工程，工程名

[Golang] 從零開始寫Socket Server（1）： Socket-Client框架

第一次跑到網際網路公司實習。。感覺自己進步飛快啊~第一週剛寫了個HTTP伺服器用於微信公共號的點餐系統~ 第二週就直接開始一邊自學GO語言一邊寫用於Socket的伺服器了。。。因為發現Golang這一塊資料挺少的，接下來我會在Blog裡把整個Server的Coding，還有遇到的坑都記錄

從零基礎寫Python爬蟲是如何做到的？

任何一門技術，都應該帶著目標去學習，目標就像一座燈塔，指引你前進，很多人學著學著就學放棄了，很大部分原因是沒有明確目標，所以，在你準備學爬蟲前，先問問自己為什麼要學習爬蟲。有些人是為了一份工作，有些人是為了好玩，也有些人是為了實現某個黑科技功能。不過可以肯定的是，學會了爬蟲能給你

從零開始學習python，寫一個mp3播放器！

從零開始學習python，寫一個mp3播放器！《從零開始PYTHON3》第十四講通常來說，Python解釋執行，執行速度慢，並不適合完整的開發遊戲。隨著電腦速度的快速提高，這種情況有所好轉，但開發遊戲仍然不是Python的重點工作。從零開始學習python，寫一個mp3播放器

從零開始寫shell指令碼（1）--shell初體驗

初識shell 計算機智慧理解 0 和 1 組成的二進位制語言。早期計算機通過二進位制語言來執行指令，對人類來說難以理解，讀寫都很不友好。後來，作業系統裡提供了一種叫做shell的特殊的程式。shell接受你的英文格式（大多數情況下是英文）指令，如果指令有

從零開始學Python學習筆記---之--pandas資料框(1)

作為從事資料相關工作朋友，平時接觸的更多的可能是一張有板有眼的資料表格，在這裡我們就叫作資料框。在Python中可以通過pandas模組的DataFrame函式構造資料框。 1、資料框的構造在Python中,可以藉助於列表、元組、字典進行手工構建資料框，我們用例子說明：

Python從零開始系列連載（1）——安裝環境

前言人生苦短，我選Python！ ★★★★直奔主題！！！安裝環境現在，我帶大家裝anaconda，而不是裝Python。因為Python英文是蟒蛇，anaconda是水蟒。大家和我一起搜尋一下anaconda：在首頁我們可以看到： P

[筆記]架構探險-從零開始寫JavaWeb框架-2.1. 之使框架具有aop特性-aop框架載入與切面執行流程分析

囉嗦一句:本筆記只是自己在學習過程中的一些分析和理解,看的人不一定能看懂.如果有興趣還是去買這本書看.筆記就當是另外一種解說好了在本章節中會學習到如下的技術: 如何理解並使用代理技術如何使用Spring提供的AOP技術(忽略,太多知識) 如何使

學習《從零開始學Python網絡爬蟲》PDF+源代碼+《精通Scrapy網絡爬蟲》PDF

網站復雜精通 nbsp 註釋 mage targe 快速實現 bsp 學習網絡爬蟲，基於python3處理數據，推薦學習《從零開始學Python網絡爬蟲》和《精通Scrapy網絡爬蟲》。《從零開始學Python網絡爬蟲》是基於Python 3的圖書，代碼挺多，如果是

從零開始寫Python爬蟲 --- 1.6 爬蟲實踐： DOTA'菠菜'結果查詢

目標分析：

程式碼的實現：

抓取頭：

主要處理函式：

這裡有些內容要想說一下：

整體程式碼：

爬取結果：

相關推薦