Bagging(R語言實現)—包外錯誤率，多樣性測度

阿新 • • 發佈：2019-01-10

1. Bagging

Bagging即套袋法，其演算法過程如下：

從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被多次抽取到，而有些樣本可能一次都沒有被抽中）。共進行k輪抽取，得到k個訓練集。（k個訓練集之間是相互獨立的）
每次使用一個訓練集得到一個模型，k個訓練集共得到k個模型。（注：這裡並沒有具體的分類演算法或迴歸方法，我們可以根據具體問題採用不同的分類或迴歸方法，如決策樹、感知器等）
對分類問題：將上步得到的k個模型採用投票的方式得到分類結果；對迴歸問題，計算上述模型的均值作為最後的結果。（所有模型的重要性相同）

2. 演算法設計過程

2.1. 隨機取樣方法

樣本總數150條(Iris資料集)

抽樣方法是有放回隨機抽樣。對150個樣本的資料集，進行150次又放回隨機取樣，這樣得到具有和原樣本空間同等大小的樣本集。

這樣操作次，得到訓練樣本。33個用決策樹C50，34個樸素貝葉斯，33個用KNN。

2.2. 模型評價方法

2.2.1. 包外錯誤率

由抽樣方法可知，每次抽樣大約有

36.8%的資料未被抽到，這36.8%將作為包外資料

，包外錯誤率：

圖 1 包外錯誤率

2.2.2. 成對多樣性度量

a->兩個個體學習器對同一條資料(h1=h2=Class)，分類都與原資料集分類相同

b->兩個個體學習器對同一條資料(h1=class,h2!=Class)

c->兩個個體學習器對同一條資料(h1!=class,h2=Class)

d->兩個個體學習器對同一條資料(h1!=class,h2!=Class)，分類都與原資料集分類都不相同

K統計量

Q統計量

相關係數

不一致度量

表1兩個分類器的分類結果組合情況

圖2 多樣性度量矩陣

2.3. 虛擬碼

輸入：，弱分類器迭代次數T=100，弱分類器B

輸出： %整合學習器

過程：

for i to T

%Bagging取樣，總共T次

%獲得包外測試集

%學習器訓練得到個體學習器

%包外錯誤率

end

for i to T

for j=i+1 to T

統計a,b,c,d

計算

%多樣性測度矩陣

end

3. 附錄

資料集簡介：

表2 iris

sepal length	萼片長度
sepal width	萼片寬度
petal length	花瓣長度
petal width	花瓣寬度
Class	Iris-setosa -> 1 Iris-versicolor -> 2 Iris-virginica-> 3

感謝大家批評指正

原始碼(R)：https://github.com/arlenlee/dataMining

Bagging(R語言實現)—包外錯誤率，多樣性測度

1. Bagging Bagging即套袋法，其演算法過程如下：從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被多次抽取到，而有些樣本可能一次都沒有被抽中）。共進

比較分析C++、Java、Python、R語言的面向物件特徵，這些特徵如何實現的？有什麼相同點？

一門課的課後題答案，在這裡備份一下：面向物件程式設計語言 – 比較分析C++、Java、Python、R語言的面向物件特徵，這些特徵如何實現的？有什麼相同點？ C++ 語言的面向物件特徵：物件模型：封裝 (1) 訪問控制機制： C++提供完善的訪問控制機制，分別是： p

Bagging演算法的R語言實現

原始連結 http://www.tuicool.com/articles/yIjyiu bagging 是bootstrap aggregating的縮寫，是第一批用於多分類整合演算法。 bagging演算法如下：迴圈K次，每次都從樣本集D中有放回地抽取樣本集Di，這樣總共得到k個樣本集，用這K個樣

Multinomial Logit Model (MNL) 模型R語言nnet包multinom函式實現例項

最近做專案涉及到要使用multinomial logit model (MNL) 模型。看了一堆文獻講mnl，但是沒有給什麼具體能上手的例項，就算有也是一筆帶過，打算找一些使用R 語言來實現mnl模型的例子，在模仿和實踐中慢慢理解。 Multinomial Logit M

《數據挖掘R語言實戰》圖書介紹，數據挖掘相關人員看過來！

處理評估 ext fff 向量電子獲取技術預處理今天介紹一本書《數據挖掘R語言實戰》。數據挖掘技術是當下大數據時代最關鍵的技術，其應用領域及前景不可估量。R是一款極其優秀的統計分析和數據挖掘軟件，R語言的特點是入門容易，使用簡單。這本書側重使用R進行數據挖掘，

R語言常用包分類總結

arr const poisson string arm ova 處理 port 線性規劃常用包： ——數據處理：lubridata ，plyr ，reshape2，stringr，formatR，mcmc； ——機器學習：nnet，rpart，tree，party，la

R語言實現兩文件對應行列字符替換

pack nbsp mode none 安裝 lse 規則改變 2.x 假設存在文件file1.xlsx，其內容如下：存在文件file2.xlsx，其內容如下：現在我想從第七列開始，將file2所有的字符替換成file1一樣的，即第七、八、九、十列不需要

C語言實現粒子運動效果，最美C語言！最炫酷C語言！

eight src tps space hit size fad mar font 效果我有一個微信公眾號，經常會分享一些C語言/C++技術相關的幹貨；如果你喜歡我的分享，可以用微信搜索“C語言學習部落”關註歡迎大家加入千人交流答疑裙：627+012+464C語

C語言實現動態菜單，智慧的C語言，零基礎也可以學會

更多圖形收獲 box 方便 ont 思考我們索引前言學習源於興趣，源於快樂，源於追求，在這裏你將收獲更多的學習樂趣。在這裏你將用代碼將未來編寫為現實。思考在學習C語言的時候，大家都做過很多管理系統。菜單往往很單調，是這樣的學習知識要善於思考，思考，再思考。

R語言做條形圖時候，離散變量和連續型變量的區別

nbsp identity ble present variable () cal 區別變量 1）條形圖條形圖或許是最常用圖形，常用來展示分類(different categories on the x-axis)和數值(numeric values on the y

R語言常用包匯總

ice hal 信號行數據包組質量 spatial ike pat 轉載於：https://blog.csdn.net/sinat_26917383/article/details/50651464?locationNum=2&fps=1 一、一些函數

C語言實現輸入一個數，輸出這個數的立方根

#include<stdio.h> int main() { double x,x1,x2,w; scanf("%lf",&x); x1=x; x2=(2.0*x1+x/(x1*x1))/3.0; w=(x2-x1)/x1; if(w&

C語言實現輸入一個數，輸出這個數的sin值

#include<stdio.h> double shang(double x,int n) { int i; double k=1; for(i=0;i<n;i++) { k=k*x; } return k; } int

使用R語言ggplot2包繪製pathway富集分析氣泡圖（Bubble圖）:資料結構及程式碼

氣泡圖是在笛卡爾座標系同加入大小的引數所形成的可以表示三個變數關係的圖例。在對基因完成GO/KEGG分析後，使用氣泡圖可以直觀的展示pathway、pvalue、count之間的關係。下面為使用R語言ggplot2包繪製氣泡圖所需的資料結構及程式碼：由於筆者常使用read.csv讀取

[學習分享] R語言擴充套件包dplyr筆記（轉載）

2014年剛到, 就在 Feedly 訂閱裡看到 RStudio Blog 介紹 dplyr 包已釋出 (Introducing dplyr), 此包將原本 plyr 包中的 ddply() 等函式進一步分

Fisher線性判別及R語言實現

目錄判別分析線性判別分析求Fisher線性判別函式計算判別界值資料如下 R程式碼程式碼解釋及結果分析判別分析 discriminat analysis,是多變數統計中用於判別樣品所屬類別的一種統計分析方法。它所解決的問題是在一些已知研

SAS Programming for R Users, Part 2 R語言的SAS程式設計教程，第2部分 Lynda課程中文字幕

SAS Programming for R Users, Part 2 中文字幕針對R使用者的SAS程式設計，第2部分中文字幕SAS Programming for R Users, Part 2 針對R的SAS程式設計使用者探索如何在SAS環境中應用您對R-大資料語言的理解

R語言實現影象查重

（商業目的引用該文章請聯絡我，個人部落格引用該文章請註明來源，謝謝）通過三個指令碼實現影象查重（需要提前匯入R的jpeg庫） R指令碼路徑： D:\Computer Science\Programming\R\ImageProcessing 影象儲存路徑： D:\

R語言實戰 R語言安裝包的安裝與使用

第一步首先獲取安裝包，下面以package–RODBC為例子使用命令install.packages(“RODBC”) > install.packages("RODBC") trying URL 'https://cran.rstudio.com/bi

logistic邏輯迴歸公式推導及R語言實現

Logistic邏輯迴歸 Logistic邏輯迴歸模型線性迴歸模型簡單，對於一些線性可分的場景還是簡單易用的。Logistic邏輯迴歸也可以看成線性迴歸的變種，雖然名字帶回歸二字但實際上他主要用來二分類，區別於線性迴歸直接擬合目標值，Logistic邏輯迴歸擬合的是正類和負類的對數機率。假設有一個二分類問

Bagging(R語言實現)—包外錯誤率，多樣性測度

相關推薦