1. 程式人生 > >利用python對泰坦尼克號資料集進行分析

利用python對泰坦尼克號資料集進行分析

一、資料來源 資料集來自於Kaggle。Kaggle是一個數據分析建模的應用競賽平臺。當然也可以從其它地方下。 二、相關工具 2.1 Python 3.5.2 2.2 Anaconda 3 三、牛刀小試 3.1 匯入訓練資料集

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
f = open(r'E:\Python\資料分析\data\train.csv')
data_train = pd.read_csv(f)

對資料進行初步分析

data_train.describe()

執行結果如下: 在這裡插入圖片描述

進一步分析

data_train.info()

執行結果: 在這裡插入圖片描述 3.2 資料影象化分析 資料中的各個屬性

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei']

fig = plt.figure()
fig.set(alpha=0.2)

plt.subplot2grid((2,3),(0,0))
data_train.Survived.value_counts().plot(kind='bar')
plt.title(u'獲救情況(1為獲就)')
plt.ylabel(u"人數")

plt.subplot2grid((2,3),(0,1))
data_train.Pclass.value_counts().plot(kind='bar')
plt.title(u"乘客等級分佈")
plt.ylabel(u"人數")

plt.subplot2grid((2,3),(0,2))
plt.scatter(data_train.Survived,data_train.Age)
plt.ylabel(u"年齡")
plt.grid(b=True,which='major',axis='y')
plt.title(u"按年齡看獲救分佈(1為獲救)")

plt.subplot2grid((2,3),(1,0),colspan=2)
data_train.Age[data_train.Pclass==1].plot(kind='kde')
data_train.Age[data_train.Pclass==2].plot(kind='kde')
data_train.Age[data_train.Pclass==3].plot(kind='kde')
plt.xlabel(u"年齡")
plt.ylabel(u"密度")
plt.title(u"各等級的乘客年齡分佈")
plt.legend((u'頭等艙', u'2等艙',u'3等艙'),loc='best') 

plt.subplot2grid((2,3),(1,2))
data_train.Embarked.value_counts().plot(kind='bar')
plt.title(u"各登船口岸上船人數")
plt.ylabel(u"人數")

plt.show()

執行結果:

在這裡插入圖片描述