機器學習實戰之adaboost

阿新 • • 發佈：2019-01-08

1.概念定義

(1)元演算法(meta-algorithm)/整合方法(ensemble method): 是對其他演算法進行組合的一種方式.有多種整合方式:

不同演算法的整合;
同一演算法在不同設定下的整合
資料集不同部分分配給不同分類器之後的整合

(2)單層決策樹(decision stump ): 是一個只有一個節點的決策樹;僅僅基於單個特徵來做決策.只有一個分裂過程.例如大於5的為型別1,小於5的型別為-1;

2. 幾種整合演算法

(1)bagging,自舉匯聚法(bootstrap aggregating):

是從原始資料集中選擇s次得到s個新資料集的一種方法,新資料集和原始資料集大小一樣,每個資料集都是通過在原始資料集中隨機選擇一個樣本組合而成的,這屬於有放回的取樣,這一特點使得原始資料集中可以有重複的值,且原始資料集中的有些值在新資料集中不出現.
得到s個數據集之後,使用某個學習演算法(例如決策樹等等)分別作用於每個資料集得到s個分類器.
當進行分類時,應用這s個分類器分別對新資料進行分類,選擇分類器分類結果中最多的類別作為最後的分類結果.

(2)boosting

不同的分類器是通過序列訓練得到的,而bagging是並行的,不同分類器是相互獨立的;每個新分類器都根據已訓練出的分類器的效能來進行訓練.boosting通過關注被已有分類器錯分類的那些資料來獲得新的分類器.
boosting的分類結果是基於所有分類器的加權求和結果的,bagging中分類器權重都是一樣的,boosting中的分類器權重不相等,每個權重代表其對應分類器在上一輪迭代中的正確分類率.

3.adaboost(adaptive boosting)

(1)一般流程

準備資料:依賴於選擇的弱分類器,本次將選擇單層決策樹,這種分類器可以處理任何資料型別;作為弱分類器,簡單分類器的效果更好.
訓練演算法:adaboost的大部分時間使用在訓練上,分類器將多次在同一資料集上訓練若分類器;
測試演算法:計算錯分類的概率
使用場所:adaboost預測屬於兩個類別中的哪一個.若要將其使用在多分類場合,要做一定的修改.

(2)執行過程

訓練資料中的每個樣本,並賦予其一個權重,權重向量為W,權重初始化為相等值;即1/所有的樣本數
首先在訓練資料上訓練出一個弱分類器並計算其分類的錯誤率,錯誤率=未正確分類的樣本數/所有樣本數
繼續在同一資料集上訓練另一個弱分類器,在第二次訓練之前,將會調整每個訓練樣本的權重值,其中第一次分對的樣本的權重會降低,第一次分錯的樣本權重會提高.
為了將所有的弱分類器組合得到最終的分類器,adaboost為每個弱分類器分配了一個權重值alpha,這些alpha值基於每個弱分類器的錯誤率計算的, alpha=1/2*ln((1-錯誤率)/錯誤率)
根據alpha值對每個樣本的權重進行修改:修改規則是正確分類的權重降低,錯分類的權重增加

更新樣本權重之後,開始第二次訓練.不斷重複訓練的調整權重的過程,直到訓練錯誤率為0或者弱分類器的數目達到使用者的指定值為止.

(3)程式碼實現

單層決策樹生成

下面的函式基於資料集的第dimen維特徵分類,返回當前樣本的分類結果;臨界值是threshval,有2種可能,第一種大於臨界值的為1,第二種大於臨界值的為-1.threshineq決定是哪種可能.

<span style="font-size:14px;">def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
	returnArray = ones((shape(dataMatrix)[0],1))
	if threshIneq == 'lessthan':
		returnArray[dataMatrix[:,dimen] <= threshVal] = -1.0
	else:
		returnArray[dataMatrix[:,dimen] > threshVal] = -1.0
	return returnArray</span>

下面的函式產生當前權重向量下最適合資料集的單層決策樹;輸入訓練樣本資料集以及其對應的類別標籤,D是樣本權重向量.

<span style="font-size:14px;">def buildStump(dataArr,classLabels,D):
	dataMatrix = mat(dataArr); labelMatrix = mat(classLabels).T
	m,n = shape(dataMatrix)
	numSteps = 10.0;bestStump ={}
	bestClasEst = mat(zeros((m,1)))
	minError = inf
	for i in range(n):
		rangeMin = dataMatrix[:,i].min()
		rangeMax = dataMatrix[:,i].max()
		stepSize = (rangeMax - rangeMin)/numSteps #對該維的每個所有可能取值進行遍歷,以找到最適合的臨界值
		for j in range(-1,int(numSteps)+1):
			for inequal in ['lessthan','greaterthan']:
				threshVal = rangeMin + float(j) * stepSize
				predictVals = stumpClassify(dataMatrix,i,threshVal,inequal)
				errArr = mat(ones((m,1)))
				errArr[predictVals == labelMatrix] = 0
				weightedError = D.T * errArr #根據權重向量計算錯誤分類誤差
				if weightedError < minError:
					minError = weightedError
					bestClasEst = predictVals.copy()
					bestStump['dim'] = i
					bestStump['thresh'] = threshVal
					bestStump['ineq'] = inequal
	return bestStump,minError,bestClasEst 
</span>

adaboost訓練演算法

實現虛擬碼如下:

對每次迭代:

利用buildStump()函式找到基於當前樣本權重向量D下的最佳決策單層決策樹

將最佳單層決策樹加入到單層決策樹陣列

計算alpha

計算新的樣本權重向量D

更新整合的類別估計值(已有的弱分類器分類結果的疊加)

如果錯誤率等於0,則退出迴圈

實現程式碼:

<span style="font-size:14px;">def adaBoostTrain(dataArr,classLabels,numIter = 40):
	weakClassifier = []  #儲存每個弱分類器的資訊
	m,n = shape(dataArr)
	#initialize the weight of every sample
	W = mat(ones((m,1))/m)
	aggClassEst = mat(zeros((m,1))) #累計類別的估計值,將已有的弱分類器的反而類結果乘以它們對應的權重加起來,構成最後的分類器
	for i in range(numIter):
		bestStump,error,classEst = buildStump(dataArr,classLabels,W)
		#print "W:" , W.T
		alpha = float(0.5*log((1.0-error)/max(error,1e-16)))  #分母不只是error,是為了確保在沒有錯誤時不睡發生除0溢位.故取其和一個很小值的最大值,防止errro為0的情況發生
		bestStump['alpha'] = alpha
		weakClassifier.append(bestStump)
		#print "classEst: ",classEst.T
		expon = multiply(-1*alpha*mat(classLabels).T,classEst) 
		W = multiply(W,exp(expon))
		W = W/W.sum()
		aggClassEst += alpha*classEst
		#print "aggClassEst: ", aggClassEst.T
		aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))  #sign是為了得到二值分類結果
		errorRate = aggErrors.sum()/m
		print "the error is : ",errorRate,"\n"
		if errorRate == 0.0:
			break
	return weakClassifier</span>

adaboost分類函式

所有弱分類器的加權求和就是最後的結果.輸入為待分類的特徵向量以及訓練得到的弱分類器的陣列集合.

<span style="font-size:14px;">def adaClassify(dataToClass,classifier):
	dataMatrix = mat(dataToClass)
	m = shape(dataMatrix)[0]
	aggClassEst = mat(zeros((m,1)))
	for i in range(len(classifier)):
		classEst = stumpClassify(dataMatrix,classifier[i]['dim'],classifier[i]['thresh'],classifier[i]['ineq'])
		aggClassEst += classifier[i]['alpha'] * classEst  #弱分類器的加權結果求和
		print aggClassEst
	return sign(aggClassEst)  #得到二值分類結果</span>

機器學習實戰之adaboost

1.概念定義 (1)元演算法(meta-algorithm)/整合方法(ensemble method): 是對其他演算法進行組合的一種方式.有多種整合方式: 不同演算法的整合;同一演算法在不同設定下

機器學習實戰之PCA

數據預處理每一個 numpy 矩陣分享 topn 文本 bsp 偽代碼一，引言　　降維是對數據高維度特征的一種預處理方法。降維是將高維度的數據保留下最重要的一些特征，去除噪聲和不重要的特征，從而實現提升數據處理速度的目的。在實際的生產和應用中，降維在一定的信息損失範

機器學習實戰之第二章 k-近鄰算法

lifo -h 訓練數據 adl sdi 加載 erro orm 數據集第2章 k-近鄰算法 KNN 概述 k-近鄰（kNN, k-NearestNeighbor）算法主要是用來進行分類的. KNN 場景電影可以按照題材分類，那麽如何區分動作片和愛情片呢？

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

機器學習實戰之迴歸

轉自：https://www.cnblogs.com/zy230530/p/6942458.html 一，引言　　　　前面講到的基本都是分類問題，分類問題的目標變數是標稱型資料，或者離散型資料。而回歸的目標變數為連續型，也即是迴歸對連續型變數做出預測，最直接的辦法是依據輸入寫出一個目標值的計算公式，這樣

機器學習實戰之決策樹

學習《機器學習實戰》 1、決策樹的構造 1、決策樹理解決策樹是一種分類器，根據已知的特徵，做一個最純淨的劃分。例子：現在想構建一個郵件分類系統，第一步：先檢測傳送郵件的域名的地址，若地址是myEmployer.com，就把郵件放在無聊時需要閱讀的郵件，若域

機器學習實戰之K近鄰改進的約會網站程式碼及手寫字型識別程式碼

from numpy import * import operator import os def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B']

《機器學習實戰》AdaBoost方法的演算法原理與程式實現

一、引言提升(boosting)方法是一種常用的統計學習方法，應用廣泛且有效，在分類問題中，它通過改變訓練樣本的權重，學習多個分類器，並將這些分類器進行線性組合，提高分類的效能。對於分類問題，給定一個訓練樣本集，比較粗糙的分類規則（弱分類器），要比精確分類規則（強分類器）容易

Scikit-learn機器學習實戰之Kmeans

摘要上篇部落格談到了如何安裝Python中強大的機器學習庫scikit-learn：Windos環境安裝scikit-learn函式庫流程，本篇主要是對其Kmeans示例進行學習。 Kmeans演算法的缺陷聚類中心的個數K 需要事先給定，但在實際中這個 K 值的選

機器學習實戰之KNN演算法

前段時間在京東上購買了這本很多人都推薦的書---機器學習實戰。剛剛看完第一章，感覺本書很適合初學者，特別是對急於應用機器學習但又不想深究理論的小白（像我這樣的）。不過在這裡還是推薦一下李航老師的那本《統計學習方法》，該書注重理論推導及挖掘演算法背後的數學本質，和《機器

機器學習實戰----利用AdaBoost元演算法的實現

整理一下寫的非常好的關於AdaBoost演算法的部落格：1.1 基於第一步，因此外層迴圈即為資料集特徵的迴圈；1.1.1 如果是按照第一個特徵來劃分類別，那麼第一個特徵點中存在節點，即樹的左右分支，這個時候怎樣判斷是左還是右呢？1.1.2 首先根據資料大小跟定一個閾值T，這裡

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

機器學習實戰之使用k-鄰近演算法改進約會網站的配對效果

1 準備資料，從文字檔案中解析資料用到的資料是機器學習實戰書中datingTextSet2.txt 程式碼如下： from numpy import * def file2matrix(filname): fr=open(filname) arrayOLines

py2.7 : 《機器學習實戰》 Adaboost 2.24號：ROC曲線的繪製和AUC計算函式

前言：可以將不同的分類器組合，這種組合結果被稱為整合方法、元演算法使用：1.不同演算法的整合 2.同一演算法下的不同設定整合 3.不同部分分配給不同分類器的整合演算法介紹：AdaBoost 優點：泛華錯誤率低，易編碼，可以應用在大部分的分類器上，無引數調整缺點：

機器學習實戰之樸素貝葉斯

問題1 來源：使用樸素貝葉斯過濾垃圾郵件描述：spamTest()和textParse()讀檔案時編譯通不過報錯：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal

【python】機器學習實戰之樸素貝葉斯分類

一，引言　　前兩章的KNN分類演算法和決策樹分類演算法最終都是預測出例項的確定的分類結果，但是，有時候分類器會產生錯誤結果；本章要學的樸素貝葉斯分類演算法則是給出一個最優的猜測結果，同時給出猜測的概率估計值。 1 準備知識：條件概率公式相信學過概率論的同學對於概

機器學習實戰之k-means聚類_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet(fileName):#函式的輸入為檔名稱，函式的主要作用是將檔案中的每行內容轉換成浮點型， # 每行

機器學習實戰之K-近鄰演算法總結和程式碼解析

機器學習實戰是入手機器學習和python實戰的比較好的書，可惜我現在才開始練習程式碼！先宣告：本人菜鳥一枚，機器學習的理論知識剛看了一部分，python的知識也沒學很多，所以寫程式碼除錯的過程很痛可！但是還是挨個找出了問題所在，蠻開心的！看了很多大牛

Python機器學習實戰之邏輯迴歸

''' Created on Oct 27, 2010 Logistic Regression Working Module @author: Peter ''' from numpy import * def loadDataSet(): dataMat = []; labelMat = []

機器學習實戰之KNN分類演算法

示例：使用KNN改進約會網站配對效果(學習這一節把自己需要注意的和理解的記錄下來) 第零步：實現KNN演算法：需注意： classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #Python 字典(

機器學習實戰之adaboost

1.概念定義

2. 幾種整合演算法

3.adaboost(adaptive boosting)

相關推薦