1. 程式人生 > >【機器學習】kaggle 泰坦尼克

【機器學習】kaggle 泰坦尼克

參考程式碼
kaggle泰坦尼克入門,分別使用了線性迴歸、邏輯迴歸和隨機森林三種演算法。
連結如下:
https://www.jianshu.com/p/bbfbdedc3c1c

隨機森林演算法介紹
決策樹-Gini不純度
決策樹演算法有缺陷,當我們需要區分的特徵很多時,需要引入Gini不純度來表示結果的可靠性。
鑑於決策樹容易過擬合的缺點,隨機森林採用多個決策樹的投票機制來改善決策樹。

隨機森林的生成方法:

1.從樣本集中通過重取樣的方式產生n個樣本

2.假設樣本特徵數目為a,對n個樣本選擇a中的k個特徵,用建立決策樹的方式獲得最佳分割點

3.重複m次,產生m棵決策樹

4.多數投票機制來進行預測

(需要注意的一點是,這裡m是指迴圈的次數,n是指樣本的數目,n個樣本構成訓練的樣本集,而m次迴圈中又會產生m個這樣的樣本集)

連結如下:
https://blog.csdn.net/mao_xiao_feng/article/details/52728164#commentBox