機器學習--決策樹及泰坦尼克號生存預測

阿新 • • 發佈：2018-12-12

決策樹是一個類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹葉節點代表一個類別。

要判斷從哪個特徵進行分裂，就要對資訊進行量化，量化的方式有：

ID3: 資訊增益

條件熵：

其中pi=P(X=xi)，X,Y代表了兩個事件，而它們之間有時有聯絡的（也就是聯合概率分佈），條件熵H(Y|X)代表了在一直隨機變數X的情況下，Y的不確定性的大小。

資訊增益：熵H(Y)和條件熵H(Y|X)的差。定義如下：
I(Y,X)=H(Y)−H(Y|X)

熵越大，事物越不確定，資訊增益越大，該特徵越適合做分裂點。

C4.5: 資訊增益比

CART: 基尼係數

例項：預測泰坦尼克號生存率

a. 資料處理

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 資料預處理，丟棄無用資料、處理資料、填充缺失值
def read_dataset(fname):
    # 指定第一列為行索引
    data = pd.read_csv(fname,index_col=0)
    # 丟棄無用資料
    data.drop(['Name','Ticket','Cabin'],axis=1,inplace=True)
    # 處理性別資料,male為1，female為0
    data['Sex']=(data['Sex']=='male').astype(int)
    # 處理登船港口資料
    labels = data['Embarked'].unique().tolist()
    data['Embarked'] = data['Embarked'].apply(lambda s: labels.index(s))
    # 處理缺失值
    data = data.fillna(0)
    return data

train = read_dataset('train.csv')

train.head()

Survived	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
PassengerId
1	0	3	1	22.0	1	0	7.2500	0
2	1	1	0	38.0	1	0	71.2833	1
3	1	3	0	26.0	0	0	7.9250	0
4	1	1	0	35.0	1	0	53.1000	0
5	0	3	1	35.0	0	0	8.0500	0

b. 訓練模型

# 劃分資料集
from sklearn.model_selection import train_test_split
y = train['Survived'].values
X = train.drop(['Survived'],axis=1).values
X_train,X_test, y_train,y_test = train_test_split(X,y,test_size=0.2)
print('train dataset:{0}; test dataset: {1}'.format(X_train.shape,X_test.shape))

train dataset:(712, 7); test dataset: (179, 7)

# 用決策樹擬合
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()
clf.fit(X_train,y_train)
train_score = clf.score(X_train,y_train)
test_score = clf.score(X_test,y_test)
print('train score:{0}; test score:{1}'.format(train_score,test_score))

train score:0.9859550561797753; test score:0.7877094972067039

可以看到訓練分數非常高：98.6%，而測試分數只有78.8%，說明模型過擬合，需要進行剪枝。

c. 優化引數

可以用max_depth來控制決策樹的深度，當決策樹達到限定深度的時候，就不再進行分裂。

# 引數選擇max_depth
def cv_score(d):
    clf = DecisionTreeClassifier(max_depth=d)
    clf.fit(X_train,y_train)
    tr_score = clf.score(X_train,y_train)
    cv_score = clf.score(X_test,y_test)
    return (tr_score,cv_score)

depths = range(2,15)
scores = [cv_score(d) for d in depths]
tr_scores = [s[0] for s in scores]
cv_scores = [s[1] for s in scores]

# 找出交叉驗證資料集評分最高的索引
best_score_index = np.argmax(cv_scores)
best_score = cv_scores[best_score_index]
best_param = depths[best_score_index]
print('best param:{0};best score:{1}'.format(best_param, best_score))

best param:6;best score:0.8212290502793296

引數與評分關係：

plt.figure(figsize=(6,4),dpi=144)
plt.grid()
plt.xlabel('max depth of decision tree')
plt.ylabel('score')
plt.plot(depths, cv_scores,'.g-',label='cross-validation score')
plt.plot(depths, tr_scores,'.r--',label='training score')
plt.legend()

隨著樹深增加，訓練分數增加，而測試分數並不會隨樹深增加而增加。

也可以考察min_impurity_split，用來指定資訊熵或基尼不純度的閾值，當決策樹分裂後，其資訊增益低於這個閾值時，不再分裂。

def cv_score(val):
    clf = DecisionTreeClassifier(criterion = 'gini', min_impurity_split = val)
    clf.fit(X_train,y_train)
    tr_score = clf.score(X_train,y_train)
    cv_score = clf.score(X_test,y_test)
    return (tr_score,cv_score)

# 指定引數範圍，分別訓練模型並評分
values = np.linspace(0,0.5,20)
scores = [cv_score(v) for v in values]
tr_scores = [s[0] for s in scores]
cv_scores = [s[1] for s in scores]

# 找出評分最高的模型引數
best_score_index = np.argmax(cv_scores)
best_score = cv_scores[best_score_index]
best_param = values[best_score_index]

# 畫出引數與評分關係
plt.figure(figsize=(6,4),dpi=144)
plt.grid()
plt.xlabel('threshold of entropy')
plt.ylabel('score')
plt.plot(values, cv_scores,'.g-',label='cross-validation score')
plt.plot(values, tr_scores,'.r--',label='train score')
plt.legend()

當不純度閾值接近0.5時，訓練分數和測試分數都急劇下降，說明模型出現欠擬合。

d. 模型引數選擇包

sklearn.model_selection裡的GridSearchCV可以幫助選擇多個最佳引數。

引數param_grid是一個字典，字典的key對應要調的引數，字典的value對應引數值，可以包含多個key-value組合。

引數cv是交叉驗證資料集，cv=5表示把資料集分成5份，拿其中一份作為驗證集，其他四份作為訓練集。

輸出：clf.best_params_最優引數，clf.best_scores_最優評分，clf.cv_results_計算過程中所有中間結果。

from sklearn.model_selection import GridSearchCV
thresholds = np.linspace(0,0.5,50)
# 設定引數矩陣
param_grid = {'min_impurity_split': thresholds}
clf = GridSearchCV(DecisionTreeClassifier(),param_grid,cv=5)
clf.fit(X,y)
print('best param:{0}\nbest score:{1}'.format(clf.best_params_,clf.best_score_))

best param:{'min_impurity_split': 0.2040816326530612}
best score:0.8204264870931538

多組引數選擇最優引數：

entropy_thresholds = np.linspace(0,1,50)
gini_thresholds = np.linspace(0,0.5,50)

# 設定引數矩陣
param_grid = [{'criterion':['entropy'],'min_impurity_split':entropy_thresholds},
             {'criterion':['gini'],'min_impurity_split':gini_thresholds},
             {'max_depth':range(2,10)},
             {'min_samples_split':range(2,30,2)}]
clf = GridSearchCV(DecisionTreeClassifier(),param_grid,cv=5)
clf.fit(X,y)
print('best_param:{0}\nbest score:{1}'.format(clf.best_params_,clf.best_score_))

best_param:{'criterion': 'entropy', 'min_impurity_split': 0.5306122448979591}
best score:0.8294051627384961

機器學習--決策樹及泰坦尼克號生存預測

決策樹是一個類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹葉節點代表一個類別。要判斷從哪個特徵進行分裂，就要對資訊進行量化，量化的方式有： ID3: 資訊增益條件熵：其中pi=P(X=xi)，X,Y代表了兩個事件，而它們之間有

決策樹－泰坦尼克號生還預測

row.names pclass survived \ 0 1 1st 1 1 2 1st 0 2 3 1st 0 3 4 1st 0 4

【決策樹】泰坦尼克號倖存者預測專案

專案目標泰坦尼克號的沉沒是歷史上最著名的還難事件之一，在船上的2224名乘客和機組人員中，共造成1502人死亡。本次專案的目標是運用機器學習工具來預測哪些乘客能夠倖免於難。專案過程匯入並探索資料處理缺失值，刪除與預測無關的特徵將分類變數轉換為數值型變數例項化模型並進行交叉驗證模型預

泰坦尼克號生存預測（python）

scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl

kaggle初探--泰坦尼克號生存預測

繼續學習資料探勘，嘗試了kaggle上的泰坦尼克號生存預測。 Titanic for Machine Learning 匯入和讀取 # data processing import numpy as np import pandas as pd impor

Kaggle專案案例分析泰坦尼克號生存預測

一、資料來源及說明 1.1 資料來源來自Kaggle的非常經典資料專案 Titanic：Machine Learning1.2 資料說明資料包含train.csv 和test.csv 兩個檔案資料集，一個訓練用，一個測試用。train文件資料是用來分析和建模，包含泰

泰坦尼克號生存預測（二）-- 特徵分析

5. 特徵再分析對處理過的資料再分析 train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].grou

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle: 泰坦尼克號生存預測

0.前言本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n

泰坦尼克號生存預測 (Logistic and KNN)

從Kaggle官網下載資料：train 、test。賽事描述：泰坦尼克號的沉沒是歷史上最臭名昭著的沉船之一。1912年4月15日，泰坦尼克號在處女航時與冰山相撞沉沒，2224名乘客和船員中有1502人遇難。這一聳人聽聞的悲劇震驚了國際社會，並導致更好的

機器學習之泰坦尼克號遇難預測

思路：一、資料預處理 1、資料讀取 2、可以用data.head（）來顯示資料的前幾行，date.info（）來顯示資料的資訊 3、缺失值的處理 4、挑選特徵 5、分離特徵和標籤二、train 1、選取模型（可以先簡單後複雜，如果兩個模型效果差不多，簡單的節約時間

機器學習專案實戰----泰坦尼克號獲救預測(一)

一、任務基礎泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日，在她的處女航中，泰坦尼克號在與冰山相撞後沉沒，在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會，併為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。儘管倖存下沉有

機器學習專案實戰----泰坦尼克號獲救預測(二)

四、特徵重要性衡量通過上面可以發現準確率有小幅提升，但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了，使用的特徵似乎也已經使用完了。準確率已經達到了瓶頸，但是如果我們還想提高精度的話，還是要回到最原始的資料集裡面。對分類器的結果最大的影響還是輸入的資料本身。接下來採用的方法一般是從原始的

泰坦尼克號生存概率分析

本專案在Kaggle中是資料分析入門專案，如果你想了解資料分析，我們就從這裡開始吧！資料集可以到Kaggle入門專案中直接找到，下載即可！ 1.提出問題什麼樣的人在泰坦尼克號中更容易存活？ 2.採集資料、理解資料匯入資料分析工具庫Numpy、Pandas 用pan

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

tensorflow實現泰坦尼克號生存率預測（邏輯迴歸）

目錄 1 邏輯迴歸介紹其實我們可以把邏輯迴歸當成只有一層的神經網路。關於邏輯迴歸的具體知識可以參考我的上一邊部落格，地址：https://mp.csdn.net/postedit/82929291。使用交叉熵損失函式

二分類問題（泰坦尼克號獲救預測）

# -*- coding: utf-8 -*- # @Time : 2018/12/13 10:46 # @Author : WenZhao # @Email : [email protected] # @File : tt.py # @Software: PyCha

kaggle——泰坦尼克號生死預測

把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd

隨機森林演算法實現泰坦尼克號生存人數預測

from sklearn.feature_extraction import DictVectorizer from sklearn.ensemble import RandomForestClassifier import pandas as pd 網址可以直接複製 dat

Kaggle入門——泰坦尼克號生還者預測

前言　　這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候，再看一遍電源《泰坦尼克號》，可能會給你一些啟發，比如婦女兒童先上船等。所以是否獲救其實並非隨機，而是基於一些背景有先後順序的。 1，背景介紹　　1912年4月15日，載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首

機器學習--決策樹及泰坦尼克號生存預測

a. 資料處理

b. 訓練模型

c. 優化引數

d. 模型引數選擇包

相關推薦