1. 程式人生 > >泰塔尼克號乘客生存預測(python)

泰塔尼克號乘客生存預測(python)

介紹:

      本文使用簡單的線性模型預測泰坦尼克號乘客生存情況,利用kaggle上的Titanic資料集,最後採用五折交叉驗證方法評價模型

思路:

  1. 讀取資料:用pandas讀取titanic的訓練資料

  2. 資料清洗:fillna函式填補空值

  3. 特徵提取:選擇年齡、性別、客艙等級、登船港口為關鍵特徵

  4. 選擇模型:選擇線性模型進行模型構建

  5. 模型評價:使用五折交叉驗證法進行模型評價

# 匯入資料
import pandas as pd
titanic_train = pd.read_csv('c:/train.csv')

# 用Age列的中位數填補缺失值
titanic_train['Age'] = titanic_train['Age'].fillna(titanic_train['Age'].median())

# 將Sex列中female轉換成1,male轉換成0,便於資料處理
titanic_train.loc[titanic_train['Sex']=='female','Sex']=1
titanic_train.loc[titanic_train['Sex']=='male','Sex']=0

# 用Embarked列中最多的s填補空值,並將倉口代號轉換成數字
titanic_train['Embarked'] = titanic_train['Embarked'].fillna('s')
titanic_train.loc[titanic_train['Embarked']=='S','Embarked'] = 0
titanic_train.loc[titanic_train['Embarked']=='Q','Embarked'] = 1
titanic_train.loc[titanic_train['Embarked']=='C','Embarked'] = 2

# 

未完待續。。。。。