scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

阿新 • • 發佈：2018-12-15

整合學習之隨機森林分類器

整合學習的定義和分類。
隨機森林法的定義和分類。
隨機森林sklearn.ensemble.RandomForestClassifier()引數分類和含義。
附註：Bias和Variance的含義和關係。

一、整合學習（Ensemble methods）的定義和分類

含義：在指定了演算法模型的基礎上，相對於單個學習器，為了進一步提高演算法模型的泛化能力/魯棒性，整合多個“基學習器”、再綜合它們的結果的方法，我們稱之為整合學習。
分類：

整合學習分為2種體系：

使用“平均”思想的演算法：其核心標準是先建立多個相互獨立的“基學習器”，然後將各個結果“平均”。一般而言，集ping成jun之後的結果比任意一個“基學習器”的結果更好，因為集ping成jun的方法可以降低Variance

。 · 代表演算法有：Bagging Methods，Forests of randomized trees，等。
對應的使用“boosting/階梯”思想的演算法：每一個“基學習器”的結果，都是下一個“基學習器”的基礎。所有“基學習器”的目標功能一致，就是降低整合學習器的bias。 · 代表演算法有：AdaBoosting

，Gradient Tree Boosting，等。

二、隨機森林random forest 的定義和分類

含義：“隨機森林”喻指整合學習器，森林中的一棵樹樹喻指一個“基學習器”。通過採用有放回的抽放方法，從總樣本集中抽出n個子樣本集，分別訓練出n個“基學習器”，應用時分別從n個“基學習器”得到n個結果： · 如果是classification，採用“投票”法選取得票最多的類作為整合學習器的結果； ·如果是regression

，採用“平均”方法獲得均值作為整合學習器的結果。
分類：在scikit-learn中，RandomForest的分類是sklearn.ensemble.RandomForestClassifier，迴歸是sklearn.ensemble.RrandomForestRegressor。

三、sklearn.ensemble.RandomForestClassifier()引數

sklearn.ensemble.RandomForest連結：官方文件

sklearn.ensemble.RandomForestClassifier(
n_estimators=’warn’, 
criterion=’gini’, 
max_depth=None, 
min_samples_split=2, 
min_samples_leaf=1, 
min_weight_fraction_leaf=0.0, 
max_features=’auto’, 
max_leaf_nodes=None, 
min_impurity_decrease=0.0, 
min_impurity_split=None, 
bootstrap=True, 
oob_score=False, 
n_jobs=None, 
random_state=None, 
verbose=0, 
warm_start=False, 
class_weight=None)

n_extimators：interger型引數，可選（預設值為10）。用來設定樹/“基學習器”的個數。

PS：版本0..20裡n_extimator預設值是10，版本0.22預設值為100.

criterion：string型引數，可選（預設值為“gini”）。用來設定split質量檢測的方法，節點判定方法有“gini”和“entropy”兩種。
max_depth：integer型，可選（預設值為“None”）。用來設定決策樹的層數。如果是“None”，決策樹的層數會一直拓深下去，直到所有的葉的純度為100%（純度概包含在於gini/entropy概念上），或者所有的葉包含的樣本數小於提前設定的min_samples_split數。
min_samples_split：或 int型，或 float型，可選（預設值為2）。用來設定分割內部結點的最小樣本數量：如果是int型，那麼將min_smaples_split作為最小值；如果是float，那麼min_samples_split是一個分數，ceil(min_samples_split*n_samples)是每次分割的最小樣本數。
min_samples_leaf：或int型，或float型，可選（預設值為1）。用來設定葉節點上最小的樣本數。無論分割節點在哪個層次，只有當左右分支中留有不低於min_samples_leaf數量的訓練樣本時，才會被考慮。尤其在迴歸的時候，它或許能有平滑模型的效果。如果是int型，那麼min_samples_leaf作為最小值；如果是float型，那麼min-samples_leaf是一個分數，ceil(min_smaples_leaf * n_samples)是每次分割的最小數。
min_weight_fraction_leaf：float型，可選（預設值為0）。用來設定葉節點上所需的（所有輸入樣本）總權重的最小加權分數。當沒有提供sample_weight是，樣品的權重相等。
mix_features：或int型，或float型，或string型，或None，可選（預設值為“auto”）。用來設定在尋找最佳分割點時的feature數。

如果是int型，那麼每個分割點處採用max_features；

如果是float型，max_reatures是一個分數，那麼int(max_features * n_features)是每次分割的數；

如果是“auto”/“sqrt”，那麼max_features=sqrt(n_featrues)

如果是“log2”，那麼max_features=log2(n_features)

如果是“None”，那麼max_features=n_features.

max_leaf_nodes：或int型，可選（預設值是“None”）。用來設定在生長決策樹時LeafNodes的引數。最好的節點被定義為不純度的降低。如果是“None”，那麼LeafNodes的數目沒有限制。

……未完。

四、Bias和Variance的含義和關係

bias and variance圖示：

簡單來說：

Error due to Bias（來自於Bias的誤差）：該誤差是模型預測值得期望V.S真實值之間的差異。舉個栗子：如上圖所示，想象我們從原始樣本集中抽取N個子樣本集，得到N個模型，那麼對於某個點（圖中為靶心點）的預測可以得到N個點（預測值），預測點（預測值）的平均分佈（期望）和中心紅點（實際值）之間的差異就是Bias。

Error due to Variance（來自Var的誤差）：該誤差是模型預測結果相對於真實值的離散程度。具體看上圖。

附註：誤了Var和Dias，還有一個無法消除的誤差，由於我們對其無可奈何、束手無策，在此不予討論。

scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

整合學習之隨機森林分類器整合學習的定義和分類。隨機森林法的定義和分類。隨機森林sklearn.ensemble.RandomForestClassifier()引數分類和含義。附註：Bias和Variance的含義和關係。一、整合學習（Ensemble

大白話5分鐘帶你走進人工智慧-第二十八節整合學習之隨機森林概念介紹(1)

&nbs

大白話5分鐘帶你走進人工智慧-第二十九節整合學習之隨機森林隨機方式，out of bag data及程式碼(2)

大白話5分鐘帶你走進人工智慧-第二十九節整合學習之隨機森林隨機方式，out of bag data及程式碼(2) 上一節中我們講解了隨機森林的基本概念，本節的話

python中使用整合模型，隨機森林分類器，梯度提升決策樹效能模型分析視覺化

import pandas as pd titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') #titanic = pd.read_csv('.

機器學習回顧篇（12）：整合學習之Bagging與隨機森林

1 引言¶ 整合學習演算法是當下炙手可熱的一類演算法，在諸多機器學習大賽中都頻繁出現它的身影。準確來說，整合學習演算法並不是一個單獨的機器學習演算法，而是通過構建多個學習器，博採眾家之長，共同求解問題的一種思想。古語有云：&ldquo

機器學習回顧篇（13）：整合學習之AdaBoost

在上一篇部落格中，我們總結了整合學習的原理，並展開介紹了整合學習中Bagging和隨機森林這一分枝演算法，在本篇部落格中，我們繼續介紹另一個分枝——Boosting，並對Boosting系列中的經典演算法Adaboost

機器學習回顧篇（15）：整合學習之GDBT

1 引言¶ 梯度提升樹演算法（Gradient Boosting Decision Tree，GBDT）是一個非常經典的機器學習演算法，和我們前面介紹過的Adaboost演算法一樣，都是提

整合學習和隨機森林——自學第十二篇

1、整合學習在面臨選擇的時候需要作出決策，這時候你就會去詢問不同的人該做怎樣的決斷，最後將詢問後的決策進行投票，選擇投票個數最多的那個。對同一個問題，可以有不同的演算法，也會給出不同的結果，在這種情況下，可以整合不同的演算法，少數服從多數，選擇結果數最多的那類

機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林——CART模型PYTHON實現把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。其中CART模型：二叉決策樹，節點特徵只取值“是”與“否”；輸入特徵的切分方式，啟

機器學習之隨機森林RandomForestRegressor

機器學習之隨機森林RandomForestRegressor # -*- coding: utf-8 -*- """ Created on Tue Dec 4 18:29:45 2018 @author: muli """ import matplotlib.py

機器學習之隨機森林RandomForestClassifier

機器學習之隨機森林RandomForestClassifier # -*- coding: utf-8 -*- """ Created on Mon Dec 3 22:26:54 2018 @author: muli """ import matplotlib.p

sklearn機器學習之邏輯迴歸分類器

物以類聚，人以群分。是非黑白，金木水火。乾坤陰陽，寒暑燥溼。 import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model #訓練資

python學習之路——第三彈（作業篇第一題）

image 操作啟動程序代碼 color 鎖定文件文件文件內容數據作業一：編寫登錄接口1.輸入用戶名密碼2.認證成功後顯示歡迎信息3.輸錯三次後鎖定。所需知識點文件基本讀寫操作，循環，列表，字典上面的作業題是在學習完數據類型和簡單的文件操作之後布置的，

決策樹模型組合之隨機森林與GBDT（轉）

機器學習之旅---SVM分類器

本次內容主要講解什麼是支援向量，SVM分類是如何推導的，最小序列SMO演算法部分推導。最後給出線性和非線性2分類問題的smo演算法matlab實現程式碼。一、什麼是支援向量機(Support Vector Machine) 本節內容部

spark mllib原始碼分析之隨機森林(Random Forest)（二）

4. 特徵處理這部分主要在DecisionTree.scala的findSplitsBins函式，將所有特徵封裝成Split，然後裝箱Bin。首先對split和bin的結構進行說明 4.1. 資料結構 4.1.1. Split cl

spark mllib原始碼分析之隨機森林(Random Forest)（三）

6. 隨機森林訓練 6.1. 資料結構 6.1.1. Node 樹中的每個節點是一個Node結構 class Node @Since("1.2.0") ( @Since("1.0.0") val id: Int, @S

React學習之進階調解器（十八）

React提供給我們宣告式的API以至於我們根本不需要關心React內部到底做了什麼，這讓我們寫程式碼變得輕鬆，但是我們還是非常有必要了解React內部實現機制，這對我們自己開發一個公司框架以及深入學習React是非常有幫助的。這一篇部落格就是深入的講

#Java學習之路——基礎階段二（第十四篇）

out 出現萬能 -c ack 分隔 status osi 版本我的學習階段是跟著CZBK黑馬的雙源課程，學習目標以及博客是為了審查自己的學習情況，畢竟看一遍，敲一遍，和自己歸納總結一遍有著很大的區別，在此期間我會參雜Java瘋狂講義（第四版）裏面的內容。前言：此隨

SpringBoot第九集：整合JSP和模板引擎Freemarker/Thymeleaf（2020最新最易懂）

SpringBoot第九集：整合JSP和模板引擎（2020最新最易懂）　　當客戶通過前端頁面提交請求後，我們以前是怎麼做的？後端接收請求資料，處理請求，把響應結果交給模板引擎JSP，最後將渲染後的JSP轉為HTML，響應給客戶端顯示。JSP的好處就是當我們查出一些資料轉發到JSP頁面以後，我們可以用JSP輕

scikit-learn /sklearn ： 整合學習 之 隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

整合學習 之 隨機森林分類器

一、整合學習 （Ensemble methods）的定義和分類

二、隨機森林random forest 的定義和分類

三、sklearn.ensemble.RandomForestClassifier()引數

四、Bias和Variance的含義和關係

相關推薦

scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

整合學習之隨機森林分類器

一、整合學習（Ensemble methods）的定義和分類