kaggle資料探勘——以Titanic為例介紹處理資料大致步驟

阿新 • • 發佈：2019-01-02

Titanic是kaggle上的一道just for fun的題，沒有獎金，但是資料整潔，拿來練手最好不過。

本文以 Titanic 的資料，使用較為簡單的決策樹，介紹處理資料大致過程、步驟

注意，本文的目的，在於幫助你入門資料探勘，熟悉處理資料步驟、流程

決策樹模型是一種簡單易用的非引數分類器。它不需要對資料有任何的先驗假設，計算速度較快，結果容易解釋，而且穩健性強，對噪聲資料和缺失資料不敏感。下面示範用kaggle競賽titanic中的資料集為做決策樹分類，目標變數為survive

讀取資料

import numpy as np
import pandas as pd

df = pd.read_csv('train.csv' 
, header=0)

資料整理

只取出三個自變數
將Age（年齡）缺失的資料補全
將Pclass變數轉變為三個 Summy 變數
將sex轉為0-1變數

subdf = df[['Pclass','Sex','Age']]
y = df.Survived
# sklearn中的Imputer也可以
age = subdf['Age'].fillna(value=subdf.Age.mean())
# sklearn OneHotEncoder也可以
pclass = pd.get_dummies(subdf['Pclass'],prefix='Pclass')
sex = (subdf['Sex' 
]=='male').astype('int')
X = pd.concat([pclass,age,sex],axis=1)
X.head()

輸出下圖結果

這裡寫圖片描述

建立模型

將資料切分為 train 和 test

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)

在測試集(test)上觀察決策樹表現

from sklearn import 
 tree
clf = tree.DecisionTreeClassifier(criterion='entropy', max_depth=3,min_samples_leaf=5)
clf = clf.fit(X_train,y_train)
print("準確率為：{:.2f}".format(clf.score(X_test,y_test)))

輸出結果如下

準確率為：0.83

觀察各變數的重要性

clf.feature_importances_

輸出如下

array([ 0.08398076,  0.        ,  0.23320717,  0.10534824,  0.57746383])

生成特徵圖

import matplotlib.pyplot as plt
feature_importance = clf.feature_importances_
important_features = X_train.columns.values[0::]
feature_importance = 100.0 * (feature_importance / feature_importance.max())
sorted_idx = np.argsort(feature_importance)[::-1]
pos = np.arange(sorted_idx.shape[0]) + .5

plt.title('Feature Importance')
plt.barh(pos, feature_importance[sorted_idx[::-1]], color='r',align='center')
plt.yticks(pos, important_features)
plt.xlabel('Relative Importance')
plt.draw()
plt.show()

這裡寫圖片描述

當然在得到重要的特徵後，我們就可以把不重要的特徵去掉了，以提高模型的訓練速度

最後是

使用交叉驗證來評估模型

from sklearn import cross_validation
scores1 = cross_validation.cross_val_score(clf, X, y, cv=10)
scores1

輸出結果如下：

array([ 0.82222222,  0.82222222,  0.7752809 ,  0.87640449,  0.82022472,
    0.76404494,  0.7752809 ,  0.76404494,  0.83146067,  0.78409091])

使用更多指標來評估模型

from sklearn import metrics
def measure_performance(X,y,clf, show_accuracy=True, 
                        show_classification_report=True, 
                        show_confusion_matrix=True):
    y_pred=clf.predict(X)   
    if show_accuracy:
        print("Accuracy:{0:.3f}".format(metrics.accuracy_score(y,y_pred)),"\n")

    if show_classification_report:
        print("Classification report")
        print(metrics.classification_report(y,y_pred),"\n")

    if show_confusion_matrix:
        print("Confusion matrix")
        print(metrics.confusion_matrix(y,y_pred),"\n")

measure_performance(X_test,y_test,clf, show_classification_report=True, show_confusion_matrix=True)

輸出結果如下，可以看到 precision（精確度）recall（召回率）等更多特徵

Accuracy:0.834 

Classification report
             precision    recall  f1-score   support

          0       0.85      0.88      0.86       134
          1       0.81      0.76      0.79        89

avg / total       0.83      0.83      0.83       223


Confusion matrix
[[118  16]
 [ 21  68]]

與隨機森林進行比較

from sklearn.ensemble import RandomForestClassifier
clf2 = RandomForestClassifier(n_estimators=1000,random_state=33)
clf2 = clf2.fit(X_train,y_train)
scores2 = cross_validation.cross_val_score(clf2,X, y, cv=10)
clf2.feature_importances_
scores2.mean(), scores1.mean()

準確率輸出（這裡用的是10折交叉驗證後的平均值）

(0.81262938372488946, 0.80352769265690616)

可以看到隨機森林的準確要比決策樹高0.1左右

　總結

經過上面介紹分析，我們走過了一個數據科學家在拿到資料到得出結論的所有步驟

讀入資料
資料清理
特徵工程
構建模型
模型評估
引數調整
模型比較

這篇文章重要的不是結果，而是幫助你瞭解處理資料大致過程、步驟

剩下的細節，就是你發揮自己的想象力，進行改進、創新了

參考連結

kaggle資料探勘——以Titanic為例介紹處理資料大致步驟

Titanic是kaggle上的一道just for fun的題，沒有獎金，但是資料整潔，拿來練手最好不過。本文以 Titanic 的資料，使用較為簡單的決策樹，介紹處理資料大致過程、步驟注意，本文的目的，在於幫助你入門資料探勘，熟悉處理資料步驟、流程

【Kaggle】參加競賽基本流程（以Titanic為例）

前言第一次參加Kaggle的時候，看了很多入門帖，但是還是看不懂不知道到底怎麼參加，是在Kaggle上提交程式碼嗎，像網際網路公司程式設計師線上考試一樣？還是提交預測的結果？沒有一個像”Hello World”一樣簡單但是又完整的流程，因此寫了這篇文章，

pytorch建立自己的資料集（以mnist為例）

本文將原始的numpy array資料在pytorch下封裝為Dataset類的資料集，為後續深度網路訓練提供資料。載入並儲存影象資訊首先匯入需要的庫，定義各種路徑。 import os import matplotlib from keras.datase

用yolo訓練自己的資料集（以車牌為例）

我看了網上很多yolo教程，可能是因為電腦環境和配置的不一樣，所以我並沒有完全通過網上教程成功訓練自己的資料集，接下來我將我自己完全親自測試並且最後成功訓練資料集的教程記錄如下：訓練自己的資料集有如

資料探勘、檢索、自然語言處理

為什麼要把這三個關鍵詞寫在一起呢？對於文字挖掘，第一步：在理解業務的基礎上進行分詞，這就涉及到nlp相關的知識了，目前我接觸到中文分詞比較好用的就是結巴中分分詞，可能是我用python多一些，而結巴在python中安裝和使用很方便的。第二步：提取關鍵詞。那麼為什麼要提取關鍵詞？，我們練習做

大資料探勘更多時間都在於清洗資料

一、資料清洗的那些事構建業務模型，在確定特徵向量以後，都需要準備特徵資料線上下進行訓練、驗證和測試。同樣，部署釋出離線場景模型，也需要每天定時跑P加工模型特徵表。而這一切要做的事，都離不開資料清洗，業內話來說，

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

資料探勘技術（一）——預處理

1、資料預處理資料預處理技術包括：聚集、抽樣、維規約、特徵子集選擇、特徵建立、離散化和二元化、變數變換。屬性的型別：標稱（定性的）（值僅僅是不同的名字，即只提供足夠的資訊以區分物件，如僱員ID，性別）、序數（定性的）（值提供足夠資訊確定物件的序，，如成績，街道

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~一. 分類及決策樹介紹1.分類分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱

資料探勘筆記-聚類-Canopy-並行處理分析

Canopy並行化處理在Mahout裡面有很好的實現，網上有很多人都做過相關的分析，有的寫的很詳細，本來只想看看Mahout Canopy原始碼就好了，但還是覺得自己記錄下也好。我看的是mahout-

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

【教育資料探勘小小子的專欄】從事教育資料探勘的成長記錄______2015.6始

玩線上教育，個性化學習，教育診斷工具；探索將推薦系統，機器學習，人工智慧，深度學習應用於線上教育中！感謝關注部落格，探索學習程式設計的個性化之路！聯絡我：[email protected] Github:https://github.com/LiaoPan 我的

資料探勘，DBSCAN演算法的介紹

DBSCAN演算法密度聚類方法的指導思想是,只要一個區域中的點的密度大於某個閾值就把它加到與之相近的聚類中去. 密度聚類方法的優點：可以克服基於距離的演算法只能發現“類圓形”聚類的缺點,可以發現任意形狀的聚類,它還對噪聲資料不敏感。與傳統的k-means相

資料探勘中針對缺失值的處理

　一、缺失值產生的原因　　缺失值的產生的原因多種多樣，主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失，比如資料儲存的失敗，儲存器損壞，機械故障導致某段時間資料未能收集（對於定時資料採集而言）。人為原因是由於人的主觀失誤、歷

寶寶樹運用大資料探勘分析工具：運用好大資料才能做好母嬰電商

母嬰行業網站寶寶樹已經從最初的寶寶社群平臺，成長為國內規模比較大的社群交流平臺，並集社群、知識、記錄、硬體、導購等多功能為一身。另外寶寶樹還準備在移動端母嬰電商領域大幹一場。寶寶樹走到今天其實一個很重要的經驗就是資料。正如寶寶樹副總裁魏小巍所說：“如果只有使用者在社群不停瀏覽

以mysql為例介紹PreparedStatement防止sql注入原理

最近，在寫程式時開始注意到sql注入的問題，由於以前寫程式碼時不是很注意，有一些sql會存在被注入的風險，那麼防止sql注入的原理是什麼呢？我們首先通過PrepareStatement這個類來學習一下吧！作為一個IT業內人士只要接觸過資料庫的人都應該知道sq

資料探勘比賽/專案全流程介紹

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 1. 資料預處理 1.1 選擇資料樣本（企業級應用）例如客觀選擇某一時間段內的所有樣本集合等（避免人為主觀選擇）例如在評價樣本中去除惡意/隨意評價樣本等（避免錯誤樣本的干擾） 1

基於資料探勘的高校個性化學生管理方案研究——以A高校資料集為例（未發表，使用或引用前請提前告知）

基於資料探勘的高校個性化學生管理方案研究——以A高校資料集為例馬鑫摘要：高校資訊系統中儲存著大量產生頻率非常迅速且型別繁雜的資料，傳統的高校學生管理模式已很難適用於我國現階段高校學生管理。依據資料探勘演算法理論，採用k-prototypes聚類演算法代替傳統的人工貼標

資料探勘（三）分類模型的描述與效能評估，以決策樹為例

關於分類的第一部分我們要講一些關於分類的基本概念，然後介紹最基本的一種分類模型-決策樹模型，再基於此討論一下關於分類模型的效能評估。 =================================

資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）

資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）簡介scikit-learn 估計器載入資料集進行fit訓練設定引數預處理流水線結尾資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）資料探勘入門系列部落格：https://

kaggle資料探勘——以Titanic為例介紹處理資料大致步驟

讀取資料

資料整理

建立模型

與隨機森林進行比較

總結

參考連結

相關推薦

　總結