利用python對泰坦尼克號資料集進行分析
阿新 • • 發佈:2018-12-20
一、資料來源 資料集來自於Kaggle。Kaggle是一個數據分析建模的應用競賽平臺。當然也可以從其它地方下。 二、相關工具 2.1 Python 3.5.2 2.2 Anaconda 3 三、牛刀小試 3.1 匯入訓練資料集
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
f = open(r'E:\Python\資料分析\data\train.csv')
data_train = pd.read_csv(f)
對資料進行初步分析
data_train.describe()
執行結果如下:
data_train.info()
執行結果: 3.2 資料影象化分析 資料中的各個屬性
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] fig = plt.figure() fig.set(alpha=0.2) plt.subplot2grid((2,3),(0,0)) data_train.Survived.value_counts().plot(kind='bar') plt.title(u'獲救情況(1為獲就)') plt.ylabel(u"人數") plt.subplot2grid((2,3),(0,1)) data_train.Pclass.value_counts().plot(kind='bar') plt.title(u"乘客等級分佈") plt.ylabel(u"人數") plt.subplot2grid((2,3),(0,2)) plt.scatter(data_train.Survived,data_train.Age) plt.ylabel(u"年齡") plt.grid(b=True,which='major',axis='y') plt.title(u"按年齡看獲救分佈(1為獲救)") plt.subplot2grid((2,3),(1,0),colspan=2) data_train.Age[data_train.Pclass==1].plot(kind='kde') data_train.Age[data_train.Pclass==2].plot(kind='kde') data_train.Age[data_train.Pclass==3].plot(kind='kde') plt.xlabel(u"年齡") plt.ylabel(u"密度") plt.title(u"各等級的乘客年齡分佈") plt.legend((u'頭等艙', u'2等艙',u'3等艙'),loc='best') plt.subplot2grid((2,3),(1,2)) data_train.Embarked.value_counts().plot(kind='bar') plt.title(u"各登船口岸上船人數") plt.ylabel(u"人數") plt.show()
執行結果: