Kaggle入門之泰塔尼克之災

阿新 • • 發佈：2017-08-23

pan param standards str clas 分割線 taf num .sh

數據的探索和可視化 ====》基礎模型的構建 ====》優化和調整

1、數據的探索和可視化

　(1)包的導入　

#導入包
#Pandas
import pandas as pd
from pandas import Series,DataFrame

#Numpy,Matplotlib
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

（2）加載數據及其數據的總體描述

train_df = pd.read_csv("train.csv")
test_df = pd.read_csv(" 
test.csv")
train_df.info()
print("========我是分割線============")
test_df.info()

技術分享

#看一下數據的樣子
train_df.head()
print("*******************")
test_df.head()

在這一步發現數據有缺失的情況。分別是訓練集的“Age”，“Cabin”和“Embarked，測試集的“Age”，“Fare”和“Cabin”。其中“Embarked”和“Fare”缺失不明顯。

留意數據類型有float，int和string類型。

（3）可視化作圖找直觀感受

#對訓練數據進行補全 ---> Embraked 

train_df.Embarked.fillna("S")
#plot
sns.factorplot(‘Embarked‘,‘Survived‘,data = train_df,size=4,aspect=3)
#新學習一種畫圖的方法
fig,(axis1,axis2,axis3) = plt.subplots(1,3,figsize=(15,5))


sns.factorplot(‘Embarked‘,data = train_df,kind=‘count‘,order=[‘S‘,‘C‘,‘Q‘],ax=axis1)
sns.factorplot(‘Survived‘,hue=‘Embarked 
‘,data = train_df,kind=‘count‘,order=[‘1‘,‘0‘],ax=axis2)


embarked_perc = train_df[["Embarked","Survived"]].groupby(["Embarked"],as_index=False).mean()
sns.barplot(x=‘Embarked‘,y=‘Survived‘,data=embarked_perc,order=[‘S‘,‘C‘,‘Q‘],ax=axis3)
plt.show()
#簡單來看C港口登船的生存率更高

技術分享

#Fare的補全
test_df["Fare"].fillna(test_df["Fare"].median(), inplace=True)

#轉換成int格式
train_df.Fare = train_df.Fare.astype(int)
test_df.Fare = test_df.Fare.astype(int)
fare_not_survived = train_df.Fare[train_df.Survived == 0]
fare_survived = train_df.Fare[train_df.Survived == 1]
#查看有無Fare對是否生存的影響
average_fare = DataFrame([fare_not_survived.mean(),fare_survived.mean()])
std_fare = DataFrame([fare_not_survived.std(),fare_survived.std()])
train_df[‘Fare‘].plot(kind=‘hist‘, figsize=(15,3),bins=100, xlim=(0,50))

average_fare.index.names = std_fare.index.names = ["Survived"]
average_fare.plot(yerr=std_fare,kind=‘bar‘,legend=False)
plt.show()

技術分享

#年齡的補足和可視化
#方法一
fig,(axis1,axis2) = plt.subplots(1,2,figsize=(15,4))
axis1.set_title(‘Original Age values - Titanic‘)
axis2.set_title(‘New Age values - Titanic‘)
average_age_titanic   = train_df["Age"].mean()
std_age_titanic       = train_df["Age"].std()
count_nan_age_titanic = train_df["Age"].isnull().sum()


average_age_test   = test_df["Age"].mean()
std_age_test       = test_df["Age"].std()
count_nan_age_test = test_df["Age"].isnull().sum()

rand_1 = np.random.randint(average_age_titanic - std_age_titanic, average_age_titanic + std_age_titanic, size = count_nan_age_titanic)
rand_2 = np.random.randint(average_age_test - std_age_test, average_age_test + std_age_test, size = count_nan_age_test)

train_df[‘Age‘].dropna().astype(int).hist(bins=70, ax=axis1)

train_df["Age"][np.isnan(train_df["Age"])] = rand_1
test_df["Age"][np.isnan(test_df["Age"])] = rand_2

train_df[‘Age‘] = train_df[‘Age‘].astype(int)
test_df[‘Age‘]    = test_df[‘Age‘].astype(int)
plt.show()

技術分享

#年齡和生存的關系
facet = sns.FacetGrid(train_df,hue=‘Survived‘,aspect =4)
facet.map(sns.kdeplot,‘Age‘,shade = True)
facet.set(xlim=(0,train_df.Age.max()))
facet.add_legend()
fig, axis1 = plt.subplots(1,1,figsize=(18,4))
average_age = train_df[["Age", "Survived"]].groupby([‘Age‘],as_index=False).mean()
sns.barplot(x=‘Age‘, y=‘Survived‘, data=average_age)
plt.show()

技術分享

#Pclass對生存的影響
sns.factorplot(‘Pclass‘,‘Survived‘,order = [1,2,3],data=train_df,size=5)
plt.show()

技術分享

#從年齡看生存率
for i in range(100):
    g = train_df.Name[train_df.Age<i]
    rate = g[train_df.Survived==1].count()/g.count()
    print(i,":",rate)

技術分享

2、基礎模型的搭建

在第一個環節中不難發現除了Name和Ticket看不出顯著影響，其他的因素均放在初始模型中。

（1）數據處理：Age的隨機森林補全

#采用隨機森林補充Age
def age_filled(df):
    age_df = df[["Age","Pclass","SibSp","Fare","Parch"]]
    know_age = age_df[age_df.Age.notnull()].as_matrix()
    unknow_age = age_df[age_df.Age.isnull()].as_matrix()
    
    X = know_age[:,1:]
    y = know_age[:,0]
    rfr = rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs = -1)
    rfr.fit(X,y)
    predict_age = rfr.predict(unknow_age[:,1:])
    df.loc[ (df.Age.isnull()), ‘Age‘ ] = predict_age
    return df

#Age 的補全
age_filled(train_df)
age_filled(test_df)

#按照有沒有Cabin分為Yes和No
def cabin_filled(df):
    df.loc[(df.Cabin.isnull()),‘Cabin‘] = "No"
    df.loc[(df.Cabin.notnull()),‘Cabin‘] = "Yes"
    return df

#Cabin的補全
cabin_filled(train_df)
cabin_filled(test_df)

補全結果：

2）為了方便建模，把一些屬性因子化。

dummies_Cabin = pd.get_dummies(train_df[‘Cabin‘], prefix= ‘Cabin‘)

dummies_Embarked = pd.get_dummies(train_df[‘Embarked‘], prefix= ‘Embarked‘)

dummies_Sex = pd.get_dummies(train_df[‘Sex‘], prefix= ‘Sex‘)

dummies_Pclass = pd.get_dummies(train_df[‘Pclass‘], prefix= ‘Pclass‘)

df = pd.concat([train_df, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop([‘Pclass‘, ‘Sex‘, ‘Cabin‘, ‘Embarked‘], axis=1, inplace=True)

技術分享

3）Age和Fare正則化方便跑模型。[ 縮放到 [-1,1] ]

import sklearn.preprocessing as preprocessing
age_df = df[["Age"]]      #註意爽括號，否則會報reshape的錯誤
fare_df = df[["Fare"]]
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(age_df)
df[‘Age_scaled‘] = scaler.fit_transform(age_df, age_scale_param)
fare_scale_param = scaler.fit(fare_df)
df[‘Fare_scaled‘] = scaler.fit_transform(fare_df, fare_scale_param)

技術分享

到這裏，基本的數據處理完成（對test的處理略去，過程相同）

4）開始跑基礎模型，采用RandomForestRegressor

#使用隨機森林法建模
from sklearn import linear_model

# 用正則取出我們要的屬性值
train_df = df.filter(regex=‘Survived|Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*‘)
train_np = train_df.as_matrix()

# y即Survival結果
y = train_np[:, 0]

# X即特征屬性值
X = train_np[:, 1:]

# fit到RandomForestRegressor之中
clf = linear_model.LogisticRegression(C=1.0, penalty=‘l1‘, tol=1e-6)
clf.fit(X, y)

clf

技術分享

test = df_test.filter(regex=‘Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*‘)
predictions = clf.predict(test)


#看屬性
pd.DataFrame({"columns":list(train_df.columns)[1:], "coef":list(clf.coef_.T)})

技術分享

5）提交

submission = pd.DataFrame({
        "PassengerId": df_test["PassengerId"],
        "Survived": predictions
    })
submission.to_csv(‘titanic.csv‘, index=False)

到這裏基礎的模型完成。第一次提交排名到6K+，接下來就是對模型的進一步優化。

Kaggle入門之泰塔尼克之災

pan param standards str clas 分割線 taf num .sh 數據的探索和可視化 ====》基礎模型的構建 ====》優化和調整 1、數據的探索和可視化　(1)包的導入　 #導入包 #Pandas impo

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

導航想寫這篇部落格的由衷是做完幾個專案，有時對於圖的畫法和模型融合演算法原理理解還很膚淺，特此加深一下印象。內容概覽圖 pandas、matplotlib、seaborn 餅圖直方圖

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

Kaggle競賽（1）——Tantic泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很高階的樣紙，but 然並卵啊！你們倒是拿點

機器學習系列(3)_邏輯迴歸應用之Kaggle泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很

機器學習之泰坦尼克號遇難預測

思路：一、資料預處理 1、資料讀取 2、可以用data.head（）來顯示資料的前幾行，date.info（）來顯示資料的資訊 3、缺失值的處理 4、挑選特徵 5、分離特徵和標籤二、train 1、選取模型（可以先簡單後複雜，如果兩個模型效果差不多，簡單的節約時間

資料分析之泰坦尼克號案例

泰坦尼克號資料處理【1】實驗目錄 1 解釋步驟 2 處理資料 3 資料視覺化 4 修改資料 5 訓練模型【2】實驗步驟 1 解釋步驟 * 識別和定義問題 * 獲取訓練和測試資料 * 質疑，準備，清理資料 * 分析，識別模式並探索

Kaggle泰塔尼克號生存預測

學習Pandas的用法 # Import the Pandas library import pandas as pd # Load the train and test datasets to create two DataFrames train_url = "http://s3

泰塔尼克號乘客生存預測（python）

介紹：本文使用簡單的線性模型預測泰坦尼克號乘客生存情況，利用kaggle上的Titanic資料集，最後採用五折交叉驗證方法評價模型思路：讀取資料：用pandas讀取titanic的訓練資料資料清洗：fillna函式填補空值特

kaggle競賽：泰坦尼克倖存者預測

kaggle競賽：泰坦尼克倖存者預測——(一） import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os import warnin

Kaggle競賽-Titanic泰坦尼克

——————————————————————————————————- ——————————————————————————————- 1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push

人工智障也刷題！Kaggle 入門之實戰泰坦尼克號

背景關於 Kaggle www.kaggle.com/ 這是一個為你提供完美資料，為你提供實際應用場景，可以與小夥伴在資料探勘領域 high 的不要不要的的地方啊！！！ Kaggle 是一個用來學習、分享和競賽的線上資料實驗平臺，有點類似 KDD—CUP（國際知識發現和資料探勘競賽），企

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

小丸子踏入python之路：python_day05（用Pandas處理泰坦尼克船員獲救數據titanic_train.csv）

為什麽 pre known mba 否則 app () 功能 urn 泰坦尼克船員獲救數據：　　　　titanic_train.csv 用excel打開數據集。顯示如下：寫在前邊：　　為了方便以後運用numpy和pandas的庫，分別造它們的別名np和pd. im

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

泰坦尼克號之災分析

hist analysis 希望 rand 建模 mach 特征工程 queen only 大神經驗： 1、應用機器學習，千萬不要一上來就試圖做到完美，先擼一個baseline的model出來，再進行後續的分析步驟，一步步提高，所謂後續步驟可能包括『分析model現在的狀態

泰坦尼克號資料探勘專案實戰——Task4 模型構建之整合模型

參考：【1】https://cloud.tencent.com/developer/article/1064013 【2】https://blog.csdn.net/wxq_1993/article/details/85853808 【3】https://blog.csdn

Kaggle入門——泰坦尼克號生還者預測

前言　　這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候，再看一遍電源《泰坦尼克號》，可能會給你一些啟發，比如婦女兒童先上船等。所以是否獲救其實並非隨機，而是基於一些背景有先後順序的。 1，背景介紹　　1912年4月15日，載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首

kaggle練習項目—泰坦尼克乘客生還預測

sans 練習 missing 中文 ces 大寫 param show ont 一、問題復述　　泰坦尼克號是一艘英國皇家郵輪，在當時是全世界最大的海上船舶。1912年4月，該郵輪在首航中碰撞上冰山後沈沒。造成船上2224名人員中1514人罹難。　　現在根據乘客的船艙等

kaggle 泰坦尼克預測案例

kaggle 泰坦尼克預測準確率79%。 #!/usr/bin/Python # -*- coding: utf-8 -*- # This Python 3 environment comes with many helpful analytics libraries installed # I

Kaggle入門之泰塔尼克之災

相關推薦