1. 程式人生 > >隨機森林

隨機森林

數據 兩個 全部 沒有 eat 屬於 方式 測試 結果

一。簡介

隨機森林,即用隨機的方式建立一個森林,森林是由很多決策樹組成。每一個決策樹之間都是沒有關聯的。在得到森林之後,對於測試集,要讓每一棵決策樹分別進行一下判斷該樣本屬於哪一類。根據哪個類被選擇的多,該樣本就是屬於哪一類。

比喻的說法:

每一棵決策樹就是一個精通於某一個窄領域的專家(因為我們從M個feature中選擇m讓每一棵決策樹進行學習),這樣在隨機森林中就有了很多個精通不同領域的專家,對一個新的問題(新的輸入數據),可以用不同的角度去看待它,最終由各個專家,投票得到結果。

二。采樣和完全分裂

1》隨機森林要對輸入的數據進行行、列的隨機采樣。兩個隨機過程:

行:采用有回放的方式。假設樣本為n個,采樣的數量也為n個,只不過這個n個當中有重復,因此得到的采樣結果不是原來全部的樣本。

列:從數據的M個特征中,采樣m個特征,m<<M,得到一個全部特征的子集。

2》采取完全分裂的方式對樣本建立決策樹。

三。優缺點

1.可以處理高維數據問題,因為不用做特征選擇,特征子集是隨機選擇的。

2.訓練完之後,可以給出哪些feature比較重要。

3.訓練速度比較快.每一棵決策樹之間是獨立的。因此也容易做成並行化的方法。

隨機森林