Python資料探勘入門與實踐---用決策樹預測獲勝球隊

阿新 • • 發佈：2019-01-06

參考書籍：《Python資料探勘入門與實踐》

1.載入資料集：

使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料

#coding=gbk
#使用決策樹來預測獲勝球隊
import time 
start = time.clock()

#載入資料集
import pandas as pd
file_name = r'D:\datasets\NBA_2014_games.csv'
data = pd.read_csv(file_name)
print(data.head())  #讀取前5項資料集
#               Date Unnamed: 1       Visitor/Neutral  PTS         Home/Neutral  \.....
# 0  Tue Oct 29 2013  Box Score         Orlando Magic   87       Indiana Pacers   
# 1  Tue Oct 29 2013  Box Score  Los Angeles Clippers  103   Los Angeles Lakers   
# 2  Tue Oct 29 2013  Box Score         Chicago Bulls   95           Miami Heat   
# 3  Wed Oct 30 2013  Box Score         Brooklyn Nets   94  Cleveland Cavaliers   
# 4  Wed Oct 30 2013  Box Score         Atlanta Hawks  109     Dallas Mavericks  
print(data.shape)   # (1319, 8)
print(data[data.duplicated()])  # Empty DataFrame 沒有重複元素

資料集清洗：1.第一列資料日期是字串格式，改為日期格式； 2.修改表頭。

#修復表頭資料引數
data = pd.read_csv(file_name, parse_dates= ['Date'])    #skiprows 忽略的行數
data.columns = ['Date','Score Type', 'Visitor Team', 'VisitorPts', 'Home Team', 'HomePts', 'OT?', 'Notes']
print(data.head())  #重命名錶頭
#         Date Score Type          Visitor Team  VisitorPts  \。。。。
# 0 2013-10-29  Box Score         Orlando Magic          87   
# 1 2013-10-29  Box Score  Los Angeles Clippers         103   
# 2 2013-10-29  Box Score         Chicago Bulls          95   
# 3 2013-10-30  Box Score         Brooklyn Nets          94   
# 4 2013-10-30  Box Score         Atlanta Hawks         109 
print('-----')
# print(data.ix[1] )  #打印出第2行的資料

提取新特徵：通過現有的資料抽取特徵，首先確定類別，籃球只有勝負之分，不像足球還有平，局，以1 代表球隊取勝，0為失敗。

#提取新特徵

#找出獲勝的球隊
data['HomeWin'] = data['VisitorPts'] < data['HomePts']
y_true = data['HomeWin'].values
print(y_true[:5])   #[ True  True  True  True  True] 是 numpy 陣列
# print(data.head())

#建立2個新特徵， 分別是這兩隻球隊的上一場比賽的勝負情況
#建立字典，存放上次比賽結果
from collections import defaultdict
won_last = defaultdict(int)

data['HomeLastWin'] = None
data['VisitorLastWin'] = None   #此兩行程式碼原書上沒有，應該增加這2列，否則下面的迴圈不能建立這2列
 
for index, row in data.iterrows():
    home_team = row['Home Team']
    visitor_team = row['Visitor Team']  #迴圈獲得球隊名稱
    row['HomeLastWin'] = won_last[home_team]
    row['VisitorLastWin'] = won_last[visitor_team]
    data.ix[index] = row    #更新行數
    won_last[home_team] = row['HomeWin']    #判斷上一場是否獲勝
    won_last[visitor_team] =not row['HomeWin']
 
print('----')
# print(data.ix[20:25])
#              Home Team  HomePts  OT? Notes  HomeWin HomeLastWin VisitorLastWin  
# 20      Boston Celtics       98  NaN   NaN    False       False          False  
# 21       Brooklyn Nets      101  NaN   NaN     True       False          False  
# 22   Charlotte Bobcats       90  NaN   NaN     True       False           True  
# 23      Denver Nuggets       98  NaN   NaN    False       False          False  
# 24     Houston Rockets      113  NaN   NaN     True        True           True  
# 25  Los Angeles Lakers       85  NaN   NaN    False       False           True

一些練習測試程式碼：defaultdict 和 iterrows（）的使用方法

won_last['jj'] = 12
dd = won_last['Indiana Pacers'] #defaultdict的作用是在於，當字典裡的key不存在但被查詢時，返回的不是keyError而是一個預設值
print(dd)   # 0
print(won_last) #  defaultdict(<class 'int'>, {'Indiana Pacers': 0, 'jj': 12}) 返回的是defaultdict型別


dataset = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
print(dataset)
for index, row in dataset.iterrows():
    print(index)    # 0, 1, 2 打印出行號
    print(row)      #打印出第 1， 2， 3 行的全部元素

2.使用決策樹

這裡直接使用決策樹，沒有刻意地去調引數，可能是作者為了對比不同特徵的優劣吧。

從資料集中構建有效的特徵，（Feature Engineering 特徵工程）是資料探勘的難點所在，好的特徵直接關係到結果的正確率， -------甚至比選擇合適的演算法更重要。

#使用決策樹
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state =14)  #設定隨機種子，使結果復現，。。。 但是還是不同。
X_previousWins = data[['HomeLastWin', 'VisitorLastWin']].values #使用新建立的2個特徵作為輸入
 
from sklearn.model_selection import cross_val_score # 使 用交叉驗證模型平均得分
import numpy as np
scores = cross_val_score(clf, X_previousWins, y_true, scoring='accuracy')
mean_score = np.mean(scores) *100
print('the accuracy is %0.2f'%mean_score+'%')   #準確率為    the accuracy is 57.47%

使用另一資料集：13年NBA 排名情況

#讀取2013年球隊排名情況
file_name2 = r'D:\datasets\NBA_2013_stangdings.csv'
standings = pd.read_csv(file_name2)
# print(standings.head())
#    Rk                   Team Overall  Home   Road      E      W     A     C  \....
# 0   1             Miami Heat   66-16  37-4  29-12  41-11   25-5  14-4  12-6   
# 1   2  Oklahoma City Thunder   60-22  34-7  26-15   21-9  39-13   7-3   8-2   
# 2   3      San Antonio Spurs   58-24  35-6  23-18   25-5  33-19   8-2   9-1   
# 3   4         Denver Nuggets   57-25  38-3  19-22  19-11  38-14   5-5  10-0   
# 4   5   Los Angeles Clippers   56-26  32-9  24-17   21-9  35-17   7-3   8-2   
# print(standings.shape)  # (30, 24) 有30只球隊

建立一個新特徵值，主場球隊是否比對手排名高。然後使用建立的3個特徵去 fit 模型

#建立一個新特徵值， 主場球隊是否比對手排名高
data['HomeTeamRanksHigher'] = 0
for index, row in data.iterrows():
    home_team = row['Home Team']
    visitor_team = row['Visitor Team']
    if home_team =='New Orleans Pelicans':  #更換了名字的球隊
        home_team ='New Orleans Hornets'
    elif visitor_team == 'New Orleans Pelicans':
        visitor_team='New Orleans Hornets'
    
    #比較排名， 更新特徵值
    home_rank = standings[standings['Team']== home_team]['Rk'].values[0]
    visitor_rank = standings[standings['Team']== visitor_team]['Rk'].values[0]
    row['HomeTeamRanksHigher'] = int(home_rank > visitor_rank) 
    data.ix[index] = row 

X_homehigher = data[['HomeLastWin', 'VisitorLastWin', 'HomeTeamRanksHigher']].values
# clf1 = DecisionTreeClassifier(random_state=14)
# scores = cross_val_score(clf1, X_homehigher, y_true, scoring='accuracy')
# mean_score1 = np.mean(scores) *100
# print('the new accuracy is %.2f'%mean_score1 + '%') #the new accuracy is 59.67%

再建立新特徵，對比比賽的2隊上一場2隊比賽的結果

#再建立新特徵， 對比比賽的2隊上一場2隊比賽的結果
last_match_winner = defaultdict(int)
data['HomeTeamWonLast'] = 0
for index, row in data.iterrows():
    home_team = row['Home Team']
    visitor_team = row['Visitor Team']
    teams = tuple(sorted([home_team, visitor_team]))
    row['HomeTeamWonLast'] = 1 if last_match_winner[teams] == row['Home Team'] else 0
    data.ix[index] = row
    winner = row['Home Team'] if row['HomeWin'] else row['Visitor Team']
    last_match_winner[teams] = winner 
    
X_lastwinner = data[['HomeTeamWonLast', 'HomeTeamRanksHigher']]
# clf2 = DecisionTreeClassifier(random_state=14)
# scores = cross_val_score(clf2, X_lastwinner, y_true, scoring='accuracy')
# mean_score2 = np.mean(scores) *100
# print('the accuracy is %.2f'%mean_score2 + '%') #  the accuracy is 57.85%

觀察決策樹在訓練資料量很大的情況下，能否得到有效的模型，使用球隊，並對其編碼

#使用LabelEncoder 轉換器把字串型別的隊名轉換成整型
from sklearn.preprocessing import LabelEncoder
encoding = LabelEncoder()
encoding.fit(data['Home Team'].values)  #將主隊名稱轉換成整型
home_teams = encoding.transform(data['Home Team'].values)
visitor_teams = encoding.transform(data['Visitor Team'].values)

X_teams = np.vstack([home_teams, visitor_teams]).T 
from sklearn.preprocessing import OneHotEncoder
onehot = OneHotEncoder()
X_teams_expanded = onehot.fit_transform(X_teams).todense()
clf3 = DecisionTreeClassifier(random_state=14)
# scores = cross_val_score(clf3, X_teams_expanded, y_true, scoring='accuracy')
# mean_score3 = np.mean(scores) *100
# print('the accuracy is %.2f'%mean_score3+'%')   #  the accuracy is 59.52%

3.使用隨機森林

print('----rf-----')
#使用隨機森林進行預測
from sklearn.ensemble import RandomForestClassifier
# rf = RandomForestClassifier(random_state = 14, n_jobs =-1)  #最好調下決策樹的引數
# rf_scores = cross_val_score(rf, X_teams, y_true, scoring='accuracy')
# mean_rf_score = np.mean(rf_scores) *100
# print('the randforestclassifier accuracy is %.2f'%mean_rf_score+'%')    #the randforestclassifier accuracy is 58.38%

#多使用幾個特徵
print('使用多個引數')
X_all = np.hstack([X_homehigher, X_teams])
# rf_clf2 = RandomForestClassifier(random_state = 14, n_jobs=-1)
# rf_scores2 = cross_val_score(rf_clf2, X_all, y_true, scoring='accuracy')
# mean_rf_score2 = np.mean(rf_scores2) *100
# print('the accuracy is %.2f'%mean_rf_score2+'%')    # the accuracy is 57.62%

使用網格搜尋查詢最佳的模型，並檢視使用的引數。

#調引數， 使用網格搜尋
from sklearn.model_selection import GridSearchCV
param_grid = {
    'max_features':[2,3,'auto'],
    'n_estimators': [100,110,120 ],
    'criterion': ['gini', 'entropy'],
    "min_samples_leaf": [2, 4, 6]
    }
clf = RandomForestClassifier(random_state=14, n_jobs=-1)
grid = GridSearchCV(clf, param_grid)
grid.fit(X_all, y_true)
score = grid.best_score_ *100
print('the accuracy is %.2f'%score +'%')    #the accuracy is 62.02%
something= str(grid.best_estimator_)
print(something)     #輸出網格搜尋找到的最佳模型
print(grid.best_params_)    #輸出返回最好的引數
# the accuracy is 62.02%
# RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',
#             max_depth=None, max_features=3, max_leaf_nodes=None,
#             min_impurity_decrease=0.0, min_impurity_split=None,
#             min_samples_leaf=2, min_samples_split=2,
#             min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=-1,
#             oob_score=False, random_state=14, verbose=0, warm_start=False)
# {'n_estimators': 100, 'criterion': 'entropy', 'max_features': 3, 'min_samples_leaf': 2}
# 所花費的時間 ： 117.93s


end = time.clock()
time = end - start
print('所花費的時間 ： %.2f'%time + 's')

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

參考書籍：《Python資料探勘入門與實踐》 1.載入資料集：使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料 #coding=gbk #使用決策樹來預測獲勝球隊 import time start =

Python資料探勘入門與實踐--用轉換器抽取特徵

所使用的資料是描述人及其所處的環境，背景及其生活狀況，挖掘目標是：預測一個人是否年收入要多於5 萬美元 1.特徵抽取：特徵抽取是資料探勘中最為重要的一個環節，一般而言，它最終的結果影響要高於資料探勘演算法本身。不幸的是，關於如何選取好的特徵，還

分享《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼

下載：https://pan.baidu.com/s/1J7DOGrjoF7HnaSZ8LvFh_A更多資料分享：http://blog.51cto.com/3215120 《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼高清中文版PDF，251頁，帶目錄和書籤，能夠複製貼上；高清英文版

python資料探勘入門與實踐----------特徵值，主成分分析

#http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ import os import pandas as pd adult_filename ="adult.data" adult = pd.read_csv(adu

python資料探勘入門與實踐-----------通過親和力分析推薦電影（Apriori）

嚶~本節程式碼比著書上的原始碼看了一遍並加上了自己的理解註釋，但並沒有執行成功，因為他執行警告，我還不會改錯親和力分析：從頻繁出現的商品中選取共同出現額商品組成頻繁項集，生成關聯規則 import os import pandas as pd import sys #資料讀取 rating

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

ionosphere.data下載地址：http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載 https://github.com/xxg1413/MachineLea

《python資料探勘入門與實踐》筆記1

1.匯入iris植物資料集，包含150個sample。X是一個4元組，包含特徵：sepal length、 sepal width、 petal length、 petal width。Y是每個sample的分類情況，分類有三種情況（0，1，2）表示。 fro

《python資料探勘》和《python資料探勘入門與實踐》兩本書讀後感

　　這些天花了很多時間來學習資料探勘這門課程，有很多心得和感悟，所以寫下這篇部落格來表達自己讀完這兩本書的感受！　　首先推薦大家通過這兩本書來入門資料探勘這個領域，python資料探勘這本書較容易，

Python資料探勘入門與實踐------鳶尾花分類

import numpy as np from sklearn.datasets import load_iris dataset = load_iris() #print(dataset.DESCR) #檢視資料集 X = dataset.d

Python資料探勘入門與實戰:第一章

程式碼來源於：https://github.com/hLvMxM/Learning_Data_Mining_with_Python/blob/master/Chapter 1/ch1_affinity.ipynb 其中註釋是在自己學習中加上去的，便於初學者看懂分析文字為：affinity

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

基於R的資料探勘方法與實踐（3）——決策樹分析

決策樹構建的目的有兩個——探索與預測。探索方面，參與決策樹聲場的資料為訓練資料，待樹長成後即可探索資料所隱含的資訊。預測方面，可以藉助決策樹推匯出的規則預測未來資料。由於需要考慮未來資料進入該模型的分類表現，因此在基於訓練資料構建決策樹之後，可以用測試資料來衡量該模型的穩健

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

基於R的資料探勘方法與實踐（2）——關聯規則

關聯規則是從龐大的資料中提取一系列變數或因子間關係，以探索資料的變數或專案間隱含的關係。 1、基本原理關聯規則通常用支援度、置信度、增益三個指標來分別表示其顯著性、正確性和價值。通過給性最小支援度、最小置信度作為門檻值。若該規則的支援度與置信度大於門檻值，則說明該規則有助

Python資料探勘課程五.線性迴歸知識及預測糖尿病例項

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~ 同時這篇文章是我上課的內容，所以參考了一些知識，強烈推薦大家學習斯坦福的機器學習Ng教

資料探勘十大演算法之決策樹詳解（1）

在2006年12月召開的 IEEE 資料探勘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大資料探勘演算法（ top 10 data mining algorithms ），

python資料探勘與入門實踐（2.2）用sciket-learn估計器分類

接python資料探勘與入門實踐（2.1）用sciket-learn估計器分類三、執行演算法交叉驗證一般分為三類：double-fold CV 即經常所說的2折交叉；10-fold交叉和LOO（leave one out）CV 即留一法交叉。2折：將原始資料集Data

python資料探勘與入門實踐（2.1）用sciket-learn估計器分類

書中主要是用sciket-learn的近鄰演算法進行估計器分類。準備工作：目標 ; -建立分類器，自動判別資料的好壞; 資料集：來自http://archive.ics.uci.edu/ml/machine-learning-dat

帶你入門Python資料探勘與機器學習（附程式碼、例項）

作者：韋瑋來源：Python愛好者社群本文共7800字，建議閱讀10+分鐘。本文結合程式碼例項待

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

1.載入資料集：

2.使用決策樹

3.使用隨機森林

相關推薦