機器學習筆記(3) 隨機森林

阿新 • • 發佈：2018-12-04

random forest 和 extra-trees是對decison tree做ensemble而得到最終模型的兩種演算法.

閱讀本文前需要先了解一下

random_forest

決策樹在節點劃分上,在隨機的特徵子集中尋找最優劃分特徵.進一步增強了隨機性,抑制了過擬合.

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2

, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None

)¶

隨機樹的隨機性體現在

每一顆決策樹只學習部分的訓練資料
決策樹在做節點劃分時,從某一特徵子集中選取出最優劃分特徵.而不是從全部特徵中選取.

extra-trees

class sklearn.ensemble.ExtraTreesClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0

, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=False, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)¶

從名字就可以看出來,extra-trees，極限隨機樹們 =。=. 其實也是一個森林,只是這個森林裡的樹比random forest裡的樹還要更隨機.

相比與random forest extra-trees進一步增大了隨機性。這種隨機性地增加體現在

在節點劃分上,不光特徵是從特徵子集隨機取的,閾值也是隨機取的.

This usually allows to reduce the variance of the model a bit more, at the expense of a slightly greater increase in bias. 這種隨機性的引入,通常會導致模型的方差減小,代價就是偏差可能會略微升高.

這裡解釋一下機器學習中的偏差(bias)和方差(variance).

一圖勝千言

上圖的點可以理解為一個個的模型,

high bias意味著欠擬合,模型過於簡單了. low bias意味著準確率比較高. 這個相對好理解. 點離紅心越近,說明在訓練集上預測越準確.偏差越小.

high variance意味著過擬合,模型過於複雜,過分地去擬合訓練資料了,點很分散,一旦訓練資料發生一些變化,學習的結果將產生巨大變化.

更多細緻的討論見知乎上的這個回答

使用sklearn中的random forest和extra-trees

from sklearn.ensemble import RandomForestClassifier
rf_clf = RandomForestClassifier(n_estimators=500, oob_score=True, random_state=666, n_jobs=-1)
rf_clf.fit(X, y)

from sklearn.ensemble import ExtraTreesClassifier
et_clf = ExtraTreesClassifier(n_estimators=500, bootstrap=True, oob_score=True, random_state=666, n_jobs=-1)
et_clf.fit(X, y)

機器學習筆記(3) 隨機森林

random forest 和 extra-trees是對decison tree做ensemble而得到最終模型的兩種演算法. 閱讀本文前需要先了解一下機器學習筆記1:決策樹機器學習筆記2:整合學習 random_forest 決策樹在節點劃分上,在隨機的特徵子集中尋找最優劃分

機器學習筆記(3)：多類邏輯回歸

display images 可能 https 都沒有 -s labels 明顯交叉仍然是動手學嘗試學習系列的筆記，原文見：多類邏輯回歸 — 從0開始。這篇的主要目的，是從一堆服飾圖片中，通過機器學習識別出每個服飾圖片對應的分類是什麽（比如：一個看起來

機器學習實戰sklearn_隨機森林

一、簡介這是一個使用天氣資料集，建立隨機森林模型，對資料集進行訓練，從而對天氣最高溫度進行預測，步驟： 1、載入資料 2、資料預處理 3、劃分資料集為訓練資料集，測試資料集 4、建立模型 5、預測，調優二、具體步驟， 1、載入資料： import pan

深入理解Java虛擬機器學習筆記3-執行緒安全和鎖優化

併發處理是壓榨計算機運算能力最有力的工具。 1.執行緒安全當多個執行緒訪問一個物件時，如果不用考慮這些執行緒執行時環境下排程和交替執行，也不需要進行額外的同步，或者在呼叫方進行任何其他的協調操作，呼叫這個物件的行為都可以獲取正確的結果，那麼這個物件是執行緒安全的。 2

機器學習決策樹隨機森林演算法

決策樹概念有關決策樹的理論參考: https://blog.csdn.net/gunhunti4524/article/details/81506012 不再贅述要注意的是,sklearn預設使用的是基尼係數同是介紹一個數據集網站 http://biostat.mc.v

機器學習筆記3：邏輯迴歸

機器學習筆記3：邏輯迴歸 Andrew Ng機器學習課程學習筆記3 邏輯迴歸就是分類問題，比如把郵件標示為垃圾郵件和正常郵件，判斷腫瘤是良性的還是惡性的. Sigmoid function 線性迴歸方程中，hθ(x) 的取值ｙ是連續的，而邏輯迴歸中輸出則是離散的。以兩個類別

機器學習筆記(3)：多類邏輯迴歸

仍然是動手學嘗試學習系列的筆記，原文見：多類邏輯迴歸 — 從0開始。這篇的主要目的，是從一堆服飾圖片中，通過機器學習識別出每個服飾圖片對應的分類是什麼（比如：一個看起來象短袖上衣的圖片，應該歸類到T-Shirt分類）示例程式碼如下，這篇的程式碼略複雜，分成幾個步驟解讀：一、下載資料，並顯示圖

Stanford機器學習筆記-3.Bayesian statistics and Regularization

3. Bayesian statistics and Regularization Content 　　3. Bayesian statistics and Regularization. 　　　　3.1 Underfitting and overfitting. 　　　　3.2 Bayesian

機器學習演算法之隨機森林

演算法原理整合學習（ensemble leaning）通過構建並結合多個學習器來完成學習任務，通過將多個學習器結合，常常可以獲得比單一學習器顯著優越的效果和泛化能力。整合學習中的基學習器可以是同質的，也可以是異質的。根據個體學習器的生成方式，目前的整合學習方法大致可分為三大類：一類是Bagging，

機器學習演算法之隨機森林（1）pyspark.mllib中的RF

spark的persist操作可以使得資料常駐記憶體，而機器學習最主要的工作——迭代，需要頻繁地存取資料，這樣相比hadoop來說，天然地有利於機器學習。 ———- 單機版。至於叢集的搭建——現在手頭最多兩臺電腦，後面再折騰。 1、安裝pysaprk

機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類

參考資料《機器學習實戰》，Machine Learning in Action，本文中簡稱MLiA 《機器學習》周志華，本文簡稱西瓜書《Web安全之機器學習》劉焱著，本文中簡稱WSML(Web Security in Machine Learning，

機器學習總結(四)——隨機森林與GBDT(梯度提升決策樹)

1. 隨機森林簡介隨機森林採用的是bagging的思想，bagging即：通過在訓練樣本集中進行有放回的取樣得到多個取樣集，基於每個取樣集訓練出一個基學習器，再將基學習器結合起來共同實現分類或者回歸。隨機森林在對決策樹進行bagging的基礎上，

機器學習演算法總結--隨機森林

簡介隨機森林指的是利用多棵樹對樣本進行訓練並預測的一種分類器。它是由多棵CART(Classification And Regression Tree)構成的。對於每棵樹，其使用的訓練集是從總的訓練集中有放回取樣出來的，這意味著總訓練集中有些樣本可能多

機器學習筆記3-拆分資料集和訓練集

拆分資料集和訓練集 from sklearn import cross_validation # for version 0.17 # For version 0.18 # from sklearn

100天搞定機器學習|Day33-34 隨機森林

機器學習——Bagging與隨機森林演算法及其變種

Bagging演算法：　　凡解：給定M個數據集，有放回的隨機抽取M個數據，假設如此抽取3組，3組資料一定是有重複的，所以先去重。去重後得到3組資料，每組資料量分別是s1,s2,s3，然後三組分別訓練組合成一個強模型。如下圖：隨機森林演算法：　　一般用於大規模資料

機器學習筆記-整合學習之Bagging，Boosting，隨機森林三者特性對比

整合學習的概念定義：整合學習通過構建並結合多個學習器來完成學習任務。分類：只包含同種型別的個體學習器，這樣的整合是“同質”的，例如都是神經網路或者決策樹；包含不同型別的個體學習器，這樣的整合是“異質”的，例如同時包括神經網路和決策樹。作用：整合學習通過將多個學

機器學習筆記（Washington University）- Classification Specialization-week 3

read was lowest already start choose class sort pty 1. Quality metric Quality metric for the desicion tree is the classification error er

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

閾值訓練集 jpg -a 情況 color 訓練 ase 需要 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測假想你是一個飛機引擎制造

sklearn 學習筆記-3 機器學習理論基礎

本章主要知識點：過擬合和欠擬合的概念模型的成本及成本函式的含義評價一個模型的好壞的標準學習曲線，以及用學習曲線來對模型進行診斷通用模型優化方法其他模型評價標準 ##3.1過擬合和欠擬合過擬合就是模型能很好的擬合訓練樣

機器學習筆記(3) 隨機森林

相關推薦