《機器學習》筆記--4 整合學習boosting and bagging

阿新 • • 發佈：2018-11-11

Boosting

特點：個體學習器之間存在強依賴關係、必須序列生成的方法。關注偏差的降低。
方法：先從初始訓練集選練出一個弱學習器，再根據弱學習器的表現進行樣本分佈的調整，提高那些被錯誤學習的樣本的權值，降低那些被正確學習的樣本的權值，然後繼續訓練下一個弱學習器。最後將一定數量的弱學習器進行組合，通過平均法或投票法，得到輸出結果。

AdaBoost: 加性模型，及若干個弱學習器的線性組合。

對訓練集資料，初始化權值分佈 1/N—>反覆學習基學習器（當前基學習器—>計算分類誤差率—>計算基學習器的係數α—>更新訓練集的權值分佈—>下一輪…）—>基學習器的線性組合實現加權表決

提升樹：以決策樹作為基學習器的提升演算法。 GBDT/GBRT：用梯度提升演算法來求解損失函式的最優化問題。（GBDT用於分類，GBRT用於迴歸）
利用損失函式的負梯度在當前模型的值作為提升樹演算法中殘差的近似值，擬合一棵決策樹。

Bagging

特點：個體學習器之間不存在強大的依賴關係，可同時生成的並行化方法。關注方差的降低。（在易受到樣本擾動的演算法中表現更好，如決策樹、神經網路等。）
方法：先將訓練集通過自主取樣法（有放回的取樣，約36.8%不會被抽到）劃分為若干個取樣集，然後每個取樣集都各自訓練出一個基學習器，最後將這些基學習器進行結合。通過投票法或平均法得到輸出結果。

隨機森林Random Forest
以決策樹作為基學習器，同時引入隨機屬性選擇（劃分屬性時，在當前結點的屬性集合中隨機選擇一個包含k個屬性的子集，再從中選擇一個最優屬性用於劃分）
多樣性更高：樣本擾動+屬性擾動；效率更高:只考察隨機劃分的屬性子集。

整合學習，為什麼要好而不同

誤差-分歧分解
在這裡插入圖片描述

可以看出，個體學習器的準確性越高、多樣性越大，則整合越好

《機器學習》筆記--4 整合學習boosting and bagging

Boosting 特點：個體學習器之間存在強依賴關係、必須序列生成的方法。關注偏差的降低。方法：先從初始訓練集選練出一個弱學習器，再根據弱學習器的表現進行樣本分佈的調整，提高那些被錯誤學習的樣本的權值，降低那些被正確學習的樣本的權值，然後繼續訓練下一個弱學習器。最後將一

機器學習筆記9-整合學習

機器學習筆記9-整合學習整合學習（ensemble learning）通過構建並結合多個學習器來完成學習任務。下圖展示了整合學習的一般結構：先產生一組個體學習器，再用某種策略將它們結合起來。個體學習器通常由一個現有的演算法從訓練資料產生，如決策樹演算法、支援向量機演算法等。關於如何產生

機器學習筆記(八)整合學習

8.整合學習 8.1個體與整合整合學習（ansemblelearning）通過構建並結合多個學習器來完成學習任務，也稱為多分類器系統（multi-classifiersystem）、基於委員會的學習（committee-based learning）。整合學習的一般結構

從零開始-Machine Learning學習筆記(25)-整合學習

文章目錄 1. Boosting - AdaBoosting 2. Bagging與隨機森林 2.1 Bagging - 並行式整合學習 2.2 隨機森林 3. 結合策略

吳恩達機器學習筆記4-單變量線性回歸

alt 方法 bsp 目標 .com 函數 bubuko 機器學習絕對值今天看個5個課時的視頻，對假設函數、代價函數、以及梯度下降有了一個大概的了解。假設函數：代價函數：我們的目標就是求得J的最小值梯度下降：在一個上坡上找一個點，求得這個點周圍的絕對值最大的導數

機器學習筆記4：正則化（Regularization）

機器學習筆記4：正則化（Regularization） Andrew Ng機器學習課程學習筆記4 過擬合與欠擬合　　線性擬合時，有兩種擬合效果不好的情況，分別是過擬合與欠擬合。　　過擬合(overfitting)，也叫高方差(variance)。主要是擬合曲線過於彎曲，雖然

機器學習筆記(4)：多類邏輯迴歸-使用gluton

import matplotlib.pyplot as plt import mxnet as mx from mxnet import gluon from mxnet import ndarray as nd from mxnet import autograd def transfor

Andrew Ng機器學習筆記2——梯度下降法and最小二乘擬合

今天正式開始學習機器學習的演算法，老師首先舉了一個例項：已知某地區的房屋面積與價格的一個數據集，那麼如何預測給定房屋面積的價格呢？我們大部分人可以想到的就是將畫出房屋面積與價格的散點圖，然後擬合出價格關於面積的曲線，那麼對於一個已知的房屋面積，就可以在擬合的曲線上得到預測的

機器學習sklearn19.0——整合學習——boosting與梯度提升演算法（GBDT）、Adaboost演算法

一、boosting演算法原理二、梯度提升演算法關於提升梯度演算法的詳細介紹，參照部落格：http://www.cnblogs.com/pinard/p/6140514.html 對該演算法的sklearn的類庫介紹和調參，參照網址：http://

【機器學習-斯坦福】學習筆記4 ——牛頓方法;指數分佈族; 廣義線性模型（GLM）

牛頓方法本次課程大綱： 1、牛頓方法：對Logistic模型進行擬合 2、指數分佈族 3、廣義線性模型（GLM）：聯絡Logistic迴歸和最小二乘模型複習： Logistic迴歸：分類演算法假設給定x以為引數的y=1和y=0的概率：

Dialog System and Chatbots —— DA學習筆記4

二、對話狀態：解釋對話行為對話狀態包括到當時節點為止框架的整個狀態，需要總結使用者的整體限制條件（constraint）對於如何判斷使用者的輸入是一個question、statement還是一個suggest，一個稍簡單的方法是對於yes-no類問題可使用語法原則aux

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律

紅色石頭的個人網站：redstonewill.com 目前為止，我們已經對資料有了初步的認識，大體上明白了我們要處理的資料型別。現在，我們將進入更深入的研究。首先，確保已經劃分了測試集並放置一邊，我們只會對訓練集進行操作。另外，如果訓練集很大，可以從中取樣一些作

機器學習筆記4：特徵工程

一、特徵工程概述 “資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這裡的資料指的就是經過特徵工程得到的資料。特徵工程指的是把原始資料轉變為模型的訓練資料的過程，它的目的就是獲取更好的訓練資料特徵，使得機器學習模型逼近這個上限。特徵工程能使得模型的效能

吳恩達機器學習筆記4-代價函數III(cost function)

cti 分享表達地理 image 一個技術分享代價函數 .com 這是代價函數的樣子，等高線圖，則可以看出在三維空間中存在一個使得??(??0, ??1)最小的點；　　通過這些圖形，我希望你能更好地理解這些代價函數??所表達的值是什麽樣的，它們對應的假設是

【機器學習-斯坦福】學習筆記21——增強學習（Reinforcement Learning and Control）

在之前的討論中，我們總是給定一個樣本x，然後給或者不給label y。之後對樣本進行擬合、分類、聚類或者降維等操作。然而對於很多序列決策或者控制問題，很難有這麼規則的樣本。比如，四足機器人的控制問題，剛開始都不知道應該讓其動那條腿，在移動過程中，也不知道怎麼讓機器人自動找

Robot Operating System (ROS)學習筆記4---語音控制

sla 語音出現 tput http 學習 process 輸入 ubun 搭建環境：XMWare Ubuntu14.04 ROS（indigo）轉載自古月居轉載連接：http://www.guyuehome.com/260 一、語音識別包 1、安裝

ESP8266學習筆記4：ESP8266的SmartConfig

rtc 訂閱號 new 例程 detail smart ted tracking 不能今天花了將近一天的時間來研究ESP8266的SmartConfig功能，這個應該算是wifi雲產品的標配。這篇文章先把SmartConfig操作一遍，我還寫了還有一篇文章梳理了物理層

有趣的Ruby-學習筆記4

all 庫文件 scrip 。。 trac module 由於 content pos Ruby塊塊。在我看來就是插入一段可變的函數block_name{ statement1 statement2 .......... }看起來不知道是什麽，只是別急

Python學習筆記4 高級特性_20170618

don 全部 one cat rate for 切片表示 ict # 切片（獲取list / tuple / 字符串中指定的元素） l = list(range(10)) l[0:3] l[:3] # 0可以省略 l[:] # 全部 l[3:] # 最後的可以省略 l

（MYSQL學習筆記4）事務的開啟、提交、回滾

mysql 事務使用事務要註意以下三點：1、在 MySQL 中只有使用了 Innodb 數據庫引擎的數據庫或表才支持事務。2、事務處理可以用來維護數據庫的完整性，保證成批的 SQL 語句要麽全部執行，要麽全部不執行。3、事務用來管理 insert,update,delete 語句MYSQL 事務處理

《機器學習》筆記--4 整合學習boosting and bagging

Boosting

Bagging

整合學習，為什麼要好而不同

相關推薦