通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

阿新 • • 發佈：2018-11-28

Python原始碼:

#!/usr/bin/env python
# encoding: utf-8
"""
@Company：華中科技大學電氣學院聚變與等離子研究所
@version: V1.0
@author: Victor
@contact: [email protected]
@software: PyCharm
@file: Taitannic.py
@time: 2018/11/20 19:39
@Desc：通過使用各種演算法預測泰坦尼克號上的某個人是否獲救（根據每個人的特徵建立模型）
"""
###通過建立模型預測一個人是否被獲救
import pandas as pd

taitannic = pd.read_csv("taitannic_train.csv")
# taitannic.head()
# print(taitannic.describe())###計算輸出每個特徵的統計資訊，可以看到age特徵中有缺失！！！！

###用均值填補age的缺失值
taitannic['Age'] = taitannic['Age'].fillna(taitannic['Age'].median())
# print(taitannic.describe())
print(taitannic['Sex'].unique())

###將字元型性別轉化為0和1,因為機器學習處理資料都是轉化為數值型。
taitannic.loc[taitannic['Sex'] == 'male', 'Sex'] = 0
taitannic.loc[taitannic['Sex'] == 'female', 'Sex'] = 1
print(taitannic['Sex'].unique())

####將字元型Embarked轉化為數值型，並且用眾數填充缺失值
print(taitannic["Embarked"].unique())
taitannic["Embarked"] = taitannic["Embarked"].fillna('S')
taitannic.loc[taitannic["Embarked"] == "S", "Embarked"] = 0
taitannic.loc[taitannic["Embarked"] == "C", "Embarked"] = 1
taitannic.loc[taitannic["Embarked"] == "Q", "Embarked"] = 2
print(taitannic["Embarked"].unique())

#######呼叫線性迴歸的模型庫來訓練資料得到好的引數#############
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split

##選擇的特徵
predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
alg = LinearRegression()  ##初始化模型物件
kf = KFold(3, False, random_state=1)
print(kf)

##kf是切分後的資料（訓練集中的train+test）
predictions = []
for train, test in kf.split(taitannic[predictions]):
    ###train和test都是劃分後的索引
    # print(train)
    # print('===========')
    # print(test)
    # print('================***************')
    train_predictors = (taitannic[predictors].iloc[train, :])  ##通過行號索引資料,只取選好的特徵資料
    # print(taitannic[predictors])
    train_target = taitannic['Survived'].iloc[train]
    ###訓練
    alg.fit(train_predictors, train_target)
    ####預測
    test_predictions = alg.predict(taitannic[predictors].iloc[test, :])
    predictions.append(test_predictions)  ##儲存三次交叉驗證中每個人的預測正確率

##print(sum(predictions))
import numpy as np

predictions = np.concatenate(predictions, axis=0)
##print(predictions)
####如果正確率大於0.5則對，否則為錯
predictions[predictions > 0.5] = 1
predictions[predictions <= 0.5] = 0
####和實際結果進行比對，計算準確率
accuracy = sum(predictions[predictions == taitannic['Survived']]) / len(predictions)
print(accuracy * 3)  ###三次交叉驗證均化了

###########邏輯迴歸：通過概率值###################################
from sklearn import cross_validation
from sklearn.linear_model import LogisticRegression

# Initialize our algorithm
alg = LogisticRegression(random_state=1)
# Compute the accuracy score for all the cross validation folds.  (much simpler than what we did before!)
scores = cross_validation.cross_val_score(alg, taitannic[predictors], taitannic["Survived"], cv=3)
# Take the mean of the scores (because we have one for each fold)
print(scores.mean())

######測試資料集#############################################
taitannic_test = pd.read_csv("test.csv")
taitannic_test["Age"] = taitannic_test["Age"].fillna(taitannic["Age"].median())
taitannic_test["Fare"] = taitannic_test["Fare"].fillna(taitannic_test["Fare"].median())
taitannic_test.loc[taitannic_test["Sex"] == "male", "Sex"] = 0
taitannic_test.loc[taitannic_test["Sex"] == "female", "Sex"] = 1
taitannic_test["Embarked"] = taitannic_test["Embarked"].fillna("S")

taitannic_test.loc[taitannic_test["Embarked"] == "S", "Embarked"] = 0
taitannic_test.loc[taitannic_test["Embarked"] == "C", "Embarked"] = 1
taitannic_test.loc[taitannic_test["Embarked"] == "Q", "Embarked"] = 2

######隨機森林分類#################################################
from sklearn import cross_validation
from sklearn.ensemble import RandomForestClassifier

predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]

alg = RandomForestClassifier(random_state=1, n_estimators=10, min_samples_split=2, min_samples_leaf=1)

kf = cross_validation.KFold(taitannic.shape[0], n_folds=3, random_state=1)
scores = cross_validation.cross_val_score(alg, taitannic[predictors], taitannic["Survived"], cv=kf)

print(scores.mean())
####改變樹的數量
alg = RandomForestClassifier(random_state=1, n_estimators=60, min_samples_split=4, min_samples_leaf=2)
kf = cross_validation.KFold(taitannic.shape[0], 3, random_state=1)
scores = cross_validation.cross_val_score(alg, taitannic[predictors], taitannic["Survived"], cv=kf)
print(scores.mean())

#####重新構造特徵引數來優化模型############################
# 家族特徵
taitannic["FamilySize"] = taitannic["SibSp"] + taitannic["Parch"]
##名字長度特徵
taitannic["NameLength"] = taitannic["Name"].apply(lambda x: len(x))

import re


def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    if title_search:
        return title_search.group(1)
    return ""


titles = taitannic["Name"].apply(get_title)
print(pd.value_counts(titles))

###看名字中的稱呼是否有對生存有影響
title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Dr": 5, "Rev": 6, "Major": 7, "Col": 7, "Mlle": 8,
                 "Mme": 8, "Don": 9, "Lady": 10, "Countess": 10, "Jonkheer": 10, "Sir": 9, "Capt": 7, "Ms": 2}
for k, v in title_mapping.items():
    titles[titles == k] = v

print(pd.value_counts(titles))

taitannic["Title"] = titles

#############探索各個特徵的重要性，通過改變某個特徵的資料，再看結果變化是否很大來確定重要性#######
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
import matplotlib.pyplot as plt

predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "NameLength"]

selector = SelectKBest(f_classif, k=5)
selector.fit(taitannic[predictors], taitannic["Survived"])

scores = -np.log10(selector.pvalues_)

plt.bar(range(len(predictors)), scores)
plt.xticks(range(len(predictors)), predictors, rotation='vertical')
plt.show()  ####直方圖長的重要性高一些。

predictors = ["Pclass", "Sex", "Fare", "Title"]

alg = RandomForestClassifier(random_state=1, n_estimators=50, min_samples_split=8, min_samples_leaf=4)

##################整合演算法分類################################
from sklearn.ensemble import GradientBoostingClassifier
import numpy as np

# The algorithms we want to ensemble.
# We're using the more linear predictors for the logistic regression, and everything with the gradient boosting classifier.
algorithms = [
    [GradientBoostingClassifier(random_state=1, n_estimators=25, max_depth=3),
     ["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize", "Title", ]],
    [LogisticRegression(random_state=1), ["Pclass", "Sex", "Fare", "FamilySize", "Title", "Age", "Embarked"]]
]

# Initialize the cross validation folds
kf = KFold(taitannic.shape[0], n_folds=3, random_state=1)

predictions = []
for train, test in kf:
    train_target = taitannic["Survived"].iloc[train]
    full_test_predictions = []
    for alg, predictors in algorithms:
        alg.fit(taitannic[predictors].iloc[train, :], train_target)
        test_predictions = alg.predict_proba(taitannic[predictors].iloc[test, :].astype(float))[:, 1]
        full_test_predictions.append(test_predictions)
    test_predictions = (full_test_predictions[0] + full_test_predictions[1]) / 2
    test_predictions[test_predictions <= .5] = 0
    test_predictions[test_predictions > .5] = 1
    predictions.append(test_predictions)

predictions = np.concatenate(predictions, axis=0)

accuracy = sum(predictions[predictions == taitannic["Survived"]]) / len(predictions)
print(accuracy)

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

Python原始碼: #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大學電氣學院聚變與等離子研究所 @version: V1.0 @author: Victor @contact: [email protected]

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

【Kaggle筆記】預測泰坦尼克號乘客生還情況（決策樹）

資料集程式碼 # -*- coding: utf-8 -*- """ 泰坦尼克號乘客生還情況預測模型決策樹 """ # 匯入pandas用於資料分析。 import panda

tensorflow實現泰坦尼克號生存率預測（邏輯迴歸）

目錄 1 邏輯迴歸介紹其實我們可以把邏輯迴歸當成只有一層的神經網路。關於邏輯迴歸的具體知識可以參考我的上一邊部落格，地址：https://mp.csdn.net/postedit/82929291。使用交叉熵損失函式

量化投資學習筆記19——迴歸分析:實操，泰坦尼克號乘客生還機會預測，線性迴歸方法。

用kaggle上的泰坦尼克的資料來實操。 https://www.kaggle.com/c/titanic/overview 在主頁上下載了資料。任務:使用泰坦尼克號乘客資料建立機器學習模型，來預測乘客在海難中是否生存。在實際海難中，2224位乘客中有1502位遇難了。似乎有的乘客比其它乘客更有機會獲救。

泰坦尼克號生存預測（python）

scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

導航想寫這篇部落格的由衷是做完幾個專案，有時對於圖的畫法和模型融合演算法原理理解還很膚淺，特此加深一下印象。內容概覽圖 pandas、matplotlib、seaborn 餅圖直方圖

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

二分類問題（泰坦尼克號獲救預測）

# -*- coding: utf-8 -*- # @Time : 2018/12/13 10:46 # @Author : WenZhao # @Email : [email protected] # @File : tt.py # @Software: PyCha

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

Kaggle競賽（1）——Tantic泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很高階的樣紙，but 然並卵啊！你們倒是拿點

泰坦尼克號生存預測（二）-- 特徵分析

5. 特徵再分析對處理過的資料再分析 train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].grou

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle競賽 —— 泰坦尼克號（Titanic）

Titanic大概是kaggle上最受歡迎的專案了，有7000多支隊伍參加，多年來誕生了無數關於該比賽的經驗分享。正是由於前人們的無私奉獻，我才能無痛完成本篇。事實上kaggle上的很多kernel都聚焦於某個特定的層面（比如提取某個不為人知的特徵、使用超複雜的演算法、專做E

隨機森林演算法實現泰坦尼克號生存人數預測

from sklearn.feature_extraction import DictVectorizer from sklearn.ensemble import RandomForestClassifier import pandas as pd 網址可以直接複製 dat

TensorFlow從1到2（十四）評估器的使用和泰坦尼克號乘客分析

線性分類基本數據 size urn NPU dataset copyright 清洗用戶三種開發模式使用TensorFlow 2.0完成機器學習一般有三種方式：使用底層邏輯這種方式使用Python函數自定義學習模型，把數學公式轉化為可執行的程序邏輯。接著在訓

陰謀還是悲劇？- 基於機器學習假設檢驗視角，看泰坦尼克號事件

1. 引言 0x1：故事背景泰坦尼克號（RMS Titanic），又譯作鐵達尼號，是英國白星航運公司下轄的一艘奧林匹克級郵輪，排水量46000噸，於1909年3月31日在北愛爾蘭貝爾法斯特港的哈蘭德與沃爾夫造船廠動工建造，1911年5月31日下水，1912年4月2日完工試航。泰坦尼克號是當時世界上體積最

kaggle tensorflow 泰坦尼克邏輯迴歸

import pandas as pd import numpy as np import tensorflow as tf from sklearn import preprocessing from tensorflow.contrib.tensor_forest.python imp

機器學習系列(3)_邏輯迴歸應用之Kaggle泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很

小丸子踏入python之路：python_day05（用Pandas處理泰坦尼克船員獲救數據titanic_train.csv）

為什麽 pre known mba 否則 app () 功能 urn 泰坦尼克船員獲救數據：　　　　titanic_train.csv 用excel打開數據集。顯示如下：寫在前邊：　　為了方便以後運用numpy和pandas的庫，分別造它們的別名np和pd. im

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

相關推薦