kaggle 泰坦尼克預測案例

阿新 • • 發佈：2018-12-03

kaggle 泰坦尼克預測準確率79%。

#!/usr/bin/Python
# -*- coding: utf-8 -*-
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list the files in the input directory

import os
print(os.listdir("../input"))

# Any results you write to the current directory are saved as output.

# importing algrebra and dataframe libraries
import numpy as np
import pandas as np


# importing data analysis, graph libraries
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

# Reading train and test data and concat them.
# We are adding train and test data because a model can predict with same featues which we use train the model.
train_df = pd.read_csv('../input/train.csv')
test_df = pd.read_csv('../input/test.csv')

titanic_df = train_df.append(test_df, ignore_index=True, sort=False)

# PassengerId is a irrelevant column with our dataset so will remove this column.

titanic_df.drop('PassengerId', axis=1, inplace=True)


def find_title(name):
    """
    This method takes a full name
    and return the title of name

    """

    nameList = name.split()

    for i in nameList:
        if '.' in i:
            name = i[:-1]

    return name


# creating a new title column in titanic_df
titanic_df['Title'] = titanic_df['Name'].apply(find_title)
print(titanic_df.head())


def title_class(title):
    if title in ['L', 'Lady', 'Sir', 'Countess', 'Mme', 'Mlle', 'Ms']:
        return 0
    elif title in ['Don', 'Rev', 'Capt', 'Jonkheer']:
        return 1
    elif title in ['Mrs', 'Miss']:
        return 2
    elif title in ['Master']:
        return 3
    elif title in ['Mr']:
        return 5
    else:
        return 6

titanic_df['Title'] = titanic_df['Title'].apply(title_class)

# Now we don't need the name column anymore.
titanic_df.drop('Name', axis=1, inplace=True)


def sex_column(sex):
    if sex == 'male':
        return 0
    else:
        return 1

titanic_df['Sex'] = titanic_df['Sex'].apply(sex_column)


def fare_class(fare):
    return fare // 200

titanic_df['FareClass'] = titanic_df['Fare'].apply(fare_class)

import random


def fill_age(columns):
    age = columns[0]
    pclass = columns[1]
    fareclass = columns[2]

    if pd.isnull(age):
        pclass_mean = int(round(titanic_df[titanic_df['Pclass'] == pclass]['Age'].mean()))
        fareclass_mean = int(round(titanic_df[titanic_df['FareClass'] == fareclass]['Age'].mean()))

        pclass_std = int(round(titanic_df[titanic_df['Pclass'] == pclass]['Age'].std()))
        fareclass_std = int(round(titanic_df[titanic_df['FareClass'] == fareclass]['Age'].std()))

        age_max = int(round(((pclass_mean + fareclass_mean) + (pclass_std + fareclass_std)) / 2))
        age_min = int(round(((pclass_mean + fareclass_mean) - (pclass_std + fareclass_std)) / 2))

        random_age = random.randint(age_min, age_max)
        return random_age
    else:
        return age

titanic_df['Age'] = titanic_df[['Age', 'Pclass', 'FareClass']].apply(fill_age, axis=1)
titanic_df['Age'] = titanic_df['Age'].apply(int)


def age_class(age):
    if 0 <= age <= 20:
        return 0
    elif 20 < age <= 40:
        return 1
    elif 40 < age <= 60:
        return 2
    else:
        return 3

titanic_df['AgeClass'] = titanic_df['Age'].apply(age_class)
# We have to add 1 because we have to include passenger too.
titanic_df['FamilySize'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1


def alone(familysize):
    if familysize == 1:
        return 1
    else:
        return 0

titanic_df['Alone'] = titanic_df['FamilySize'].apply(alone)


def family_class(familysize):
    if familysize <= 3:
        return 0
    elif 3 < familysize <= 7:
        return 1
    else:
        return 2

titanic_df['FamilyClass'] = titanic_df['FamilySize'].apply(family_class)

tickets = titanic_df['Ticket'].unique()
tickets_int = list()
tickets_str = list()

for i in range(len(tickets)):
    try:
        tickets_int.append(int(tickets[i]))
    except:
        tickets_str.append(tickets[i])


def ticket_class(ticket):
    try:
        int(ticket)
        return 0
    except:
        return 1

titanic_df['TicketClass'] = titanic_df['Ticket'].apply(ticket_class)

titanic_df.drop('Ticket', axis=1, inplace=True)

pclass_mean = int(round(titanic_df[titanic_df['Pclass'] == 3]['Fare'].mean()))
pclass_std = int(round(titanic_df[titanic_df['Pclass'] == 3]['Fare'].std()))

fare_min = pclass_mean - pclass_std
fare_max = pclass_mean + pclass_std

random_fare = random.randint(fare_min, fare_max)

titanic_df.loc[titanic_df['Fare'].isnull() == True, 'Fare'] = random_fare

titanic_df.loc[titanic_df['FareClass'].isnull() == True, 'FareClass'] = random_fare // 200
titanic_df['FareClass'] = titanic_df['FareClass'].apply(int)
titanic_df.drop('Cabin', axis=1, inplace=True)


titanic_df.loc[titanic_df['Embarked'].isnull() == True, 'Embarked'] = 'S'


def embarked(embarked):
    embarked_dict = {'S': 0, 'C': 1, 'Q': 2}
    return embarked_dict[embarked]

titanic_df['Embarked'] = titanic_df['Embarked'].apply(embarked)


train_featured = titanic_df.iloc[:891]
test_featued = titanic_df.iloc[891:]

train_featured_copy = train_featured
test_featued_copy = test_featued


# First split our train data as train and test data to see accuract values.
# Sklearn has train_split for dividing dataset and shuffle it.
from sklearn.model_selection import train_test_split

train_df = train_featured_copy

X = train_df.drop(['Survived'], axis=1)
y = train_df['Survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# Some algorithms from sklearn to classification.
# Actually, I didn't use many algorithms because they are almost all will give similar result.
# Because, the important thing is create a good featured dataset. If we have a good classifiable dataset
# mostly all algorithm will give similar result.
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

logmodel = LogisticRegression()
logmodel.fit(X_train, y_train)
log_predictions = logmodel.predict(X_test)
print(classification_report(y_test, log_predictions))

svm_model = SVC()
svm_model.fit(X_train, y_train)
svm_predictions = svm_model.predict(X_test)
print(classification_report(y_test, svm_predictions))

rdm = RandomForestClassifier()
rdm.fit(X_train, y_train)
rdm_predictions = rdm.predict(X_test)
print(classification_report(y_test, rdm_predictions))

param_grid = {'C' : [1, 10, 100, 1000, 10000], 'gamma' : [1, 0.1, 0.01, 0.001, 0.0001]}
grid = GridSearchCV(SVC(), param_grid, refit=True)
grid.fit(X_train, y_train)
grid_predictions = grid.predict(X_test)
print(classification_report(y_test, grid_predictions))

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_pred = gbc.predict(X_test)
print(classification_report(y_test, gbc_pred))

import itertools
import time

start = time.time()

y = train_df['Survived']
columns = list(train_df.columns)
columns.remove('Survived')
print(len(columns) - 8)
for k in range(0, len(columns) - 8):

    features = list(itertools.combinations(columns, k))

    score_max = 0
    score_index = list()

    for i in range(len(features)):

        features_extra = list(features[i])
        features_extra.append('Survived')

        X = train_df.drop(features_extra, axis=1)

        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

        # logmodel = LogisticRegression()
        # logmodel.fit(X_train, y_train)
        # log_predictions = logmodel.predict(X_test)

        # svm_model = SVC()
        # svm_model.fit(X_train, y_train)
        # svm_predictions = svm_model.predict(X_test)

        # rdm = RandomForestClassifier()
        # rdm.fit(X_train, y_train)
        # rdm_predictions = rdm.predict(X_test)

        gbc = GradientBoostingClassifier()
        gbc.fit(X_train, y_train)
        gbc_predictions = gbc.predict(X_test)

        scores = dict()

        # scores[accuracy_score(y_test, log_predictions)] = "Logistic Regression: "
        # scores[accuracy_score(y_test, svm_predictions)] = "SVM: "
        # scores[accuracy_score(y_test, rdm_predictions)] = "Random Forest Classifier: "
        scores[accuracy_score(y_test, gbc_predictions)] = "GradientBoosting Classifier: "

        sorted_scores = sorted(scores, reverse=True)

        if score_max < max(sorted_scores):
            score_index = list()
            score_index.append(max(score_max, max(sorted_scores)))
            score_index.append(i)
            score_max = max(score_max, max(sorted_scores))

        # print("------------------------------------Test", i, '---------------------------------')
        # print()

        # for j in sorted_scores:
        #    print(scores[j], j)

        # print()

    print("------------------------------------ Extra Feature", k, '---------------------------------')
    print("Extra Feature Count: ", k, "\nMax Score:", score_index[0], "\nFeatue Index: ", score_index[1])
    print()

end = time.time()
time_comb = end - start
print("Time for Combinations of Features: ", time_comb)

features = list(itertools.combinations(columns, 5))
extra_features = list(features[1369])
extra_features.append('Survived')

train_df = train_df

X = train_df.drop(extra_features, axis=1)
y = train_df['Survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

logmodel = LogisticRegression()
logmodel.fit(X_train, y_train)
log_predictions = logmodel.predict(X_test)
print(classification_report(y_test, log_predictions))

svm_model = SVC()
svm_model.fit(X_train, y_train)
svm_predictions = svm_model.predict(X_test)
print(classification_report(y_test, svm_predictions))

rdm = RandomForestClassifier()
rdm.fit(X_train, y_train)
rdm_predictions = rdm.predict(X_test)
print(classification_report(y_test, rdm_predictions))

param_grid = {'C' : [1, 10, 100, 1000, 10000], 'gamma' : [1, 0.1, 0.01, 0.001, 0.0001]}
grid = GridSearchCV(SVC(), param_grid, refit=True)
grid.fit(X_train, y_train)
grid_predictions = grid.predict(X_test)
print(classification_report(y_test, grid_predictions))

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_pred = gbc.predict(X_test)
print(classification_report(y_test, gbc_pred))

train_df = train_df

X = train_df.drop(extra_features, axis=1)
y = train_df['Survived']

gbc.fit(X, y)

X_test = test_featued.drop(extra_features, axis=1)

gbc_predictions = gbc.predict(X_test)
gbc_predictions = pd.DataFrame(gbc_predictions, columns=['Survived'])

gbc_predictions['Survived'] = gbc_predictions['Survived'].apply(int)

gbc_predictions.set_index(test_df['PassengerId'], inplace=True)
gbc_predictions.to_csv('submission.csv')

kaggle 泰坦尼克預測案例

kaggle 泰坦尼克預測準確率79%。 #!/usr/bin/Python # -*- coding: utf-8 -*- # This Python 3 environment comes with many helpful analytics libraries installed # I

kaggle泰坦尼克 Kaggle泰坦尼克預測(完整分析)

Kaggle泰坦尼克預測(完整分析) 2017年06月26日 15:53:26 閱讀數：10313 1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽

Kaggle泰坦尼克預測(完整分析)

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很高階的樣紙，but 然

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

kaggle——泰坦尼克號生死預測

把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle: 泰坦尼克號生存預測

0.前言本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n

資料分析之泰坦尼克號案例

泰坦尼克號資料處理【1】實驗目錄 1 解釋步驟 2 處理資料 3 資料視覺化 4 修改資料 5 訓練模型【2】實驗步驟 1 解釋步驟 * 識別和定義問題 * 獲取訓練和測試資料 * 質疑，準備，清理資料 * 分析，識別模式並探索

【機器學習】kaggle 泰坦尼克

參考程式碼 kaggle泰坦尼克入門，分別使用了線性迴歸、邏輯迴歸和隨機森林三種演算法。連結如下： https://www.jianshu.com/p/bbfbdedc3c1c 隨機森林演算法介紹決策樹-Gini不純度決策樹演算法有缺陷，當我們需要區分的特徵很多時，需要引入Gini

Kaggle —— 泰坦尼克號Titanic

1. 資料總覽 Titanic 生存模型預測，其中包含了兩組資料：train.csv 和 test.csv，分別為訓練集合和測試集合。 import re import numpy as np import pandas as pd import matpl

對泰坦尼克號案例進行資料探勘

1.基本概念對歷史資料的計算，對未來還沒有發生的事情做預測。訓練集：訓練模型測試集：測試模型好壞驗證集：選擇引數（如何通過驗證集來選擇引數？）將歷史資料劃分為以上三個部分。建立模型時如何知道模型的好壞：評估標準評估標準：優化代價函式J（theta）誤差平方和

kaggle泰坦尼克號python和r

之前用了一陣子spss modeler，自己整了r，後來發現國內高手都用python，發現了網上兩篇類似的python和r寫的文章，這裡加上原文連結，可以一起學習： 1：python版本連結：http://blog.csdn.net/longxinchen_ml/artic

Kaggle泰坦尼克特徵工程和模型融合

上次我們對資料進行了分析,看到不同特徵對結果,也就是能否生存下來具有不同的影響,對資料進行觀察後我們需要選擇不同的特徵,並且對特徵進行組合,來為模型訓練做好準備,也就是特徵工程import pandas as pd #資料分析 import numpy as np #科學計算

機器學習系列(3)_邏輯迴歸應用之Kaggle泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很

使用sklearn進行kaggle案例泰坦尼克Titanic船員獲救預測

python程式碼: #-*- coding: UTF-8 -*- """ Created on Mon Mar 27 20:26:43 2017 @author: Administrator """ #!/usr/bin/python #-*- coding: U

Kaggle專案案例分析泰坦尼克號生存預測

一、資料來源及說明 1.1 資料來源來自Kaggle的非常經典資料專案 Titanic：Machine Learning1.2 資料說明資料包含train.csv 和test.csv 兩個檔案資料集，一個訓練用，一個測試用。train文件資料是用來分析和建模，包含泰

kaggle練習項目—泰坦尼克乘客生還預測

sans 練習 missing 中文 ces 大寫 param show ont 一、問題復述　　泰坦尼克號是一艘英國皇家郵輪，在當時是全世界最大的海上船舶。1912年4月，該郵輪在首航中碰撞上冰山後沈沒。造成船上2224名人員中1514人罹難。　　現在根據乘客的船艙等

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

kaggle競賽：泰坦尼克倖存者預測

kaggle競賽：泰坦尼克倖存者預測——(一） import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os import warnin

【Kaggle筆記】預測泰坦尼克號乘客生還情況（決策樹）

資料集程式碼 # -*- coding: utf-8 -*- """ 泰坦尼克號乘客生還情況預測模型決策樹 """ # 匯入pandas用於資料分析。 import panda

kaggle 泰坦尼克預測 案例

相關推薦

kaggle 泰坦尼克預測案例