1. 程式人生 > >隨機森林_理論

隨機森林_理論

amp 建立 缺點 容易 auto 屬性 很多 ima del

理論: 從樣本集(N個數據點)選出n個樣本(有放回)建立分類器

重復m次,獲得m個分類器

過程:

1. 樣本的隨機:從N個數據點中隨機選擇n個樣本

2. 屬性的隨機:從所有屬性中隨機選擇k個屬性

3. 重復m次,,建立m顆決策樹

4. m棵決策樹形成隨機森林,投票決定結果

參數:


n_estimators=10, //棵樹
max_depth=None, //最大深度

max_features =auto//最大屬性 max_features=sqrt(n_features)

.

min_samples_leaf=1, //最少分裂樣本數


優點:

隨機性的引入,不容易過擬合

隨機性的引入,有很好的的抗噪聲能力

高維度的數據,不用做特征選擇

處理離散型,連續性,不用做特征規範

缺點:

決策樹個數很多時,時間和空間會很大

對於屬性值很多的字段,會對模型產生很大的影響

隨機森林_理論