Python爬取足球網站賽況

阿新 • • 發佈：2019-02-08

前言： 本次爬取資料本意為了作為學習決策樹，但發現構造特徵時因不瞭解足球賽制，難以構造出較好的特徵。如果有小夥伴也對這個感興趣的話就和我交流交流吧~~

程式碼：

'''
    #get_tata.py
    獲取uhchina.com的14-15西甲賽況（未作清洗）
    關鍵是觀察爬取資料的情況
'''
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
BASE_URL = 'http://www.uhchina.com/2014-2015xijia/{n_lun}lun.htm'
n_lun_limit = 38 

title_name = ['Turn','Time','Home_team','Score','Visitor_team','讓球全','讓球半','大小全','大小半','半場','誰會贏']
#獲取每一個url的比賽資料
def get_content(url):
    html = urlopen(url).read()
    bsObj = BeautifulSoup(html,'lxml')
    records = [dd for dd in bsObj.select('.maintable td')]
    text_record =[]
    matchs = []
    for 
 record in records:
        #print(record)
        #print(record.get_text())
        text_record.append(record.get_text())
    del text_record[:13]
    for i in range(0,int(len(text_record)/11)):
        train_records = text_record[i * 11:(i + 1) * 11]
        matchs.append(train_records)
    return matchs
#返回url 

def get_url(n_lun):
    url = BASE_URL.format(n_lun = n_lun)
    return url
#最後獲取資料儲存為scv格式
def final_get():
    file = open('D:/Python/PythonProject/football_mining/matches_data.csv','w')
    final_data = []
    for n_lun in range(1,n_lun_limit + 1):
        my_matches = get_content(get_url(n_lun))
        #print(my_matches)
        for my_match in my_matches:
            final_data.append(my_match)
    df_final_data = pd.DataFrame(columns = title_name,data = final_data)
    df_final_data.to_csv(file)

分析：
本次採集所用的包

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

這裡是我根據資料具體情況新增的，用來規範。小夥伴可以具體自己的情況。

del text_record[:13]
    for i in range(0,int(len(text_record)/11)):
        train_records = text_record[i * 11:(i + 1) * 11]

這裡提供url連結，同樣，小夥伴可以自己觀察自己網頁的特徵，一般有Base部分（即不會改變的），和可變部分。例如本例的比賽輪次會在url連結體現。

def get_url(n_lun):
    url = BASE_URL.format(n_lun = n_lun)
    return url

最後獲得每個連結的賽況後將其轉化為csv檔案

最後： 希望有志同道合的小夥伴一起做一下有趣的東西
———關注我的公眾號，一起學資料探勘————
這裡寫圖片描述

Python爬取足球網站賽況

前言：本次爬取資料本意為了作為學習決策樹，但發現構造特徵時因不瞭解足球賽制，難以構造出較好的特徵。如果有小夥伴也對這個感興趣的話就和我交流交流吧~~ 程式碼： ''' #get_tata.py 獲取uhchina.com的14-15西甲賽況（未

python爬取足球比賽賽程筆記

decode range 目標 err 函數 find ade col 表示目標：爬取某網站比賽賽程，動態網頁，則需找到對應ajax請求（具體可參考：https://blog.csdn.net/you_are_my_dream/article/details/533999

Python爬取小說網站頁面製作電子書

#-*- coding:utf-8 -*- from bs4 import BeautifulSoup from urlparse import urljoin import requests url="http://www.jinyongwang.com/yi/{page}.html

利用Python爬取攝影網站圖片，切勿商用

今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 Python學習資料或者需要程式碼、視訊加Python學習群：9604104

python爬取網頁—網站編碼

在爬取網站之前需要檢視網頁的編碼方式，對應的，通過檢視網頁原始碼，在網站頁面配合按鍵F12 ctrl+F 搜尋"charset"可找到如下類似資訊：<meta http-equiv="Conten

python爬取彩票網站開獎號碼

一直以來對python特別感興趣，但卻沒有一個目標去好好學習這門語言。昨天突然有個想法，老爸喜歡買七星彩，為何不抓取每一期的開獎號碼，通過郵件推送給他呢。這樣他既能第一時間知道開獎號碼了。然後就動手開幹，但是為什麼選擇python，其實用php我寫得更快一些

python 爬取圖片網站圖片連結並下載收集

python進行圖片網站圖片收集，主要分成如下幾個部分：（1）進行網站html頁面分析，分析你要找到的圖片的連結，以及每個連結url是怎麼構成的，如果通過爬取頁面的html獲取這些圖片的連結（2）通過python將這些已知連結的圖片下載下來注意這行程式碼header = {"

Python爬取異步加載的網站selenium+PhantomJS

ron .com .html scrip psu 語言 sel 文字 get 一個網站的爬蟲腳本，在調試的時候發現問題：腳本跑：content-type用text/xml 可以post成功，但post中body的內容沒有生效，所有的響應都是當前日期；用applicatio

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

Python爬取網站美女照片

上次無意之中看到一個網站，裡面全是美女的照片，我就心想，哪天有時間了得把這網站的所有美女照片都得爬下來。今天有時間，寫了點程式碼，爬去了網站的所有照片。附上戰果！圖片實在是太多了，爬了一個多小時，還在爬.... 先附上所有的原始碼： # -*- coding: utf-8 -*-

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年卷一前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將

Python爬取黑龍江科技大學URL教務網站

這個小東西從去年的寒假開始寫，直到現在才寫完，就是因為自己太懶了，不愛寫大概的框架是用urllib庫中的requests寫的，本來想用scrapy來寫的，但是scrapy庫沒有安裝好,所以只能用前者來寫。其實requests庫還是很方便的。主要用來做POST請求。

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

python 爬取網站獲得一個網站的所有連結

第一步，找個網站我這裡就找行業裡比較有名的收錄網站的網站酷113網第二步，開啟www.ku113.com 按下滑鼠右鍵點選檢視原始碼第三步，把原始碼複製下來儲存成一個檔案命名 ku113.html 第四步，執行以下python 程式我這裡用的py 2.7.13版

python 爬取視覺中國網站

python 爬取視覺中國設計師社團網站閱讀本文需要 5 分鐘如今版權越來越重要了，特別是今年。前幾天，在一個的圈子裡看到一條訊息，有公司專門針對一些圖片對不知情使用者索賠，說一句請各位使用圖片的時候明確是否侵權。藉此來學習一下 python 如何用

Python爬取足球網站賽況

相關推薦