Python進行泰坦尼克生存預測——數據探索分析!
1 數據預覽
1.1 head()
預覽數據集的前面幾條數據可以大致看看每個字段的值究竟長什麽樣。
1.2 info()
可以看每個字段有多少非空值,字段的類型是什麽樣的
1.3 describe()
可以大致描述每個整數或者浮點型的數值分布,看最小值,最大值和四分位數,可以大致了解數據的偏移情況。
年齡字段也存在缺失,一般來說,老弱病殘幼是要受到特殊照顧的,因此年齡應該會是一個比較重要的特征,並且因為它是連續值,這裏采用算法預測的方式來進行填充。
最後我們來看一下填充後的數據情況
3. 數據探索
3.1 各個字段值的分布情況
先看代碼:
以上是畫布相關設置
subplots_adjust()是用來調整畫布內子圖的間隔大小的。
以上是在畫布相應位置畫各個子圖的代碼。圖形如下:
3.2 探索各字段與是否生存的關系,尋找對模型有用的特征
3.2.1 不同乘客等級與是否生存的關系
艙位越高級的,生存的比例越大。3等艙裏面未獲救的比例明顯增大。說明艙位與是否生存有關系。
3.2.2 性別與是否生存的關系
從圖中可以發現大部分都是集中在20-50歲之間的,從箱線圖看平均年齡接近30歲。
因為年齡是連續值,因此我們考慮把年齡分段後,進行分段統計展示看年齡與是否生存的關系。
從數據上年紀小的生存的幾率要大些。不同年齡段的生存率明顯有差別,說明年齡與是否生存是有關系的。
3.2.4 有無兄弟姐妹與是否生存的關系
從數據上看兄弟姐妹在1-2個的生存率最高
3.2.5是否有父母子女與是否生存的關系
數據顯示父母子女個數在1-3個的生存率最高,個數越多反倒生存率下降。
3.2.6 港口與是否生存的關系
數據顯示有港口的生存率明顯高很多。可能是船中間有停靠到一些港口,有部分乘客下船了。
本文參考:大樹先生的博客
歡迎大家關註我的博客:https://home.cnblogs.com/u/Python1234/
歡迎加入千人交流學習答疑群:125240963
Python進行泰坦尼克生存預測——數據探索分析!