簡單易學的機器學習演算法——AdaBoost

阿新 • • 發佈：2018-12-30

#coding:UTF-8
'''
Created on 2015年6月15日

@author: zhaozhiyong

'''

from numpy import *

def loadSimpleData():
    datMat = mat([[1., 2.1],
                  [2., 1.1],
                  [1.3, 1.],
                  [1., 1.],
                  [2., 1.]])
    classLabels = mat([1.0, 1.0, -1.0, -1.0, 1.0])
    return datMat, classLabels

def singleStumpClassipy(dataMat, dim, threshold, thresholdIneq):
    classMat = ones((shape(dataMat)[0], 1))
    #根據thresholdIneq劃分出不同的類，在'-1'和'1'之間切換
    if thresholdIneq == 'left':#在threshold左側的為'-1'
        classMat[dataMat[:, dim] <= threshold] = -1.0
    else:
        classMat[dataMat[:, dim] > threshold] = -1.0
    
    return classMat

def singleStump(dataArr, classLabels, D):
    dataMat = mat(dataArr)
    labelMat = mat(classLabels).T
    m, n = shape(dataMat)
    numSteps = 10.0
    bestStump = {}
    bestClasEst = zeros((m, 1))
    minError = inf
    for i in xrange(n):#對每一個特徵
        #取第i列特徵的最小值和最大值，以確定步長
        rangeMin = dataMat[:, i].min()
        rangeMax = dataMat[:, i].max()
        stepSize = (rangeMax - rangeMin) / numSteps
        for j in xrange(-1, int(numSteps) + 1):
            #不確定是哪個屬於類'-1'，哪個屬於類'1'，分兩種情況
            for inequal in ['left', 'right']:
                threshold = rangeMin + j * stepSize#得到每個劃分的閾值
                predictionClass = singleStumpClassipy(dataMat, i, threshold, inequal)
                errorMat = ones((m, 1))
                errorMat[predictionClass == labelMat] = 0
                weightedError = D.T * errorMat#D是每個樣本的權重
                if weightedError < minError:
                    minError = weightedError
                    bestClasEst = predictionClass.copy()
                    bestStump['dim'] = i
                    bestStump['threshold'] = threshold
                    bestStump['inequal'] = inequal
    
    return bestStump, minError, bestClasEst

def adaBoostTrain(dataArr, classLabels, G):
    weakClassArr = []
    m = shape(dataArr)[0]#樣本個數
    #初始化D，即每個樣本的權重
    D = mat(ones((m, 1)) / m)
    aggClasEst = mat(zeros((m, 1)))
    
    for i in xrange(G):#G表示的是迭代次數
        bestStump, minError, bestClasEst = singleStump(dataArr, classLabels, D)
        print 'D:', D.T
        #計算分類器的權重
        alpha = float(0.5 * log((1.0 - minError) / max(minError, 1e-16)))
        bestStump['alpha'] = alpha
        weakClassArr.append(bestStump)
        print 'bestClasEst:', bestClasEst.T
        
        #重新計算每個樣本的權重D
        expon = multiply(-1 * alpha * mat(classLabels).T, bestClasEst)
        D = multiply(D, exp(expon))
        D = D / D.sum()
        
        aggClasEst += alpha * bestClasEst
        print 'aggClasEst:', aggClasEst
        aggErrors = multiply(sign(aggClasEst) != mat(classLabels).T, ones((m, 1)))
        errorRate = aggErrors.sum() / m
        print 'total error:', errorRate
        if errorRate == 0.0:
            break
    return weakClassArr

def adaBoostClassify(testData, weakClassify):
    dataMat = mat(testData)
    m = shape(dataMat)[0]
    aggClassEst = mat(zeros((m, 1)))
    for i in xrange(len(weakClassify)):#weakClassify是一個列表
        classEst = singleStumpClassipy(dataMat, weakClassify[i]['dim'], weakClassify[i]['threshold'], weakClassify[i]['inequal'])
        aggClassEst += weakClassify[i]['alpha'] * classEst
        print aggClassEst
    return sign(aggClassEst)
            
if __name__ == '__main__':
    datMat, classLabels = loadSimpleData()
    weakClassArr = adaBoostTrain(datMat, classLabels, 30)
    print "weakClassArr:", weakClassArr
    #test
    result = adaBoostClassify([1, 1], weakClassArr)
    print result

最終的決策樹序列：

簡單易學的機器學習演算法——AdaBoost

#coding:UTF-8 ''' Created on 2015年6月15日 @author: zhaozhiyong ''' from numpy import * def loadSimpleData(): datMat = mat([[1., 2.1],

機器學習---演算法---Adaboost

轉自:https://blog.csdn.net/px_528/article/details/72963977 寫在前面說到Adaboost，公式與程式碼網上到處都有，《統計學習方法》裡面有詳細的公式原理，Github上面有很多例項，那麼為什麼還要寫這篇文章呢？希望從一種更容易理解的角度，來為大家呈現Ad

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

機器學習演算法-Adaboost

本章內容組合相似的分類器來提高分類效能應用AdaBoost演算法處理非均衡分類問題主題：利用AdaBoost元演算法提高分類效能 1.基於資料集多重抽樣的分類器 - AdaBoost 優點泛化錯誤率低，易編碼

簡單易學的機器學習演算法——Softmax Regression

Contents [hide] 1 簡介 2 代價函式 3 Softmax迴歸模型引數化的特點 4&nbs

簡單易學的機器學習演算法——梯度提升決策樹GBDT

梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）演算法是近年來被提及比較多的一個演算法，這主要得益於其演算法的效能，以及該演算法在各類資料探勘以及機器學習比賽中的卓越表現，有很多人對GBDT演算法進行了開原始碼的開發，比較火的是陳

簡單易學的機器學習演算法——K-近鄰演算法

# coding:UTF-8 import cPickle as pickle import gzip import numpy as np def load_data(data_file): with gzip.open(data_file, 'rb') as f: train_set, vali

簡單易學的機器學習演算法——整合方法(Ensemble Method)

一、整合學習方法的思想前面介紹了一系列的演算法，每個演算法有不同的適用範圍，例如有處理線性可分問題的，有處理線性不可分問題。在現實世界的生活中，常常會因為“集體智慧”使得問題被很容易解決，那麼問題來了，

簡單易學的機器學習演算法——因子分解機(Factorization Machine)

#coding:UTF-8 from __future__ import division from math import exp from numpy import * from random import normalvariate#正態分佈 from datetime import datetime

簡單易學的機器學習演算法——K-Means演算法

一、聚類演算法的簡介聚類演算法是一種典型的無監督學習演算法，主要用於將相似的樣本自動歸到一個類別中。聚類演算法與分類演算法最大的區別是：聚類演算法是無監督的學習演算法，而分類演算法屬於監督的學習

簡單易學的機器學習演算法——樸素貝葉斯

一、貝葉斯定理 1、條件概率條件概率是指在事件B發生的情況下，事件A發生的概率，用表示。 2、全概率公式含義是：如果和構成樣本空間的一個劃分，那麼

簡單易學的機器學習演算法——神經網路之BP神經網路

%% BP的主函式 % 清空 clear all; clc; % 匯入資料 load data; %從1到2000間隨機排序 k=rand(1,2000); [m,n]=sort(k); %輸入輸出資料 input=data(:,2:25); output1 =data(:,1); %把輸出從1維變

簡單易學的機器學習演算法——EM演算法

一、機器學習中的引數估計問題在前面的博文中，如“簡單易學的機器學習演算法——Logistic迴歸”中，採用了極大似然函式對其模型中的引數進行估計，簡單來講即對於一系列樣本，Logistic迴

簡單易學的機器學習演算法——SVD奇異值分解

一、SVD奇異值分解的定義假設是一個的矩陣，如果存在一個分解：其中為的酉矩陣，為的半正定對角矩陣，為的共軛轉置矩陣，且為的酉矩陣。這樣的分解稱為的奇異值分解，對角線上的元素稱為奇異值，稱

簡單易學的機器學習演算法——Gibbs取樣

一、Gibbs取樣概述前面介紹的Metropolis-Hastings取樣為從指定分佈中進行取樣提供了一個統一的框架，但是取樣的效率依賴於指定的分佈的選擇，若是選擇的不好，會使得接受率比較低，大量的取樣被拒絕，影響到整體的收斂速度。 Gibbs取樣是Met

簡單易學的機器學習演算法——極限學習機(ELM)

一、極限學習機的概念極限學習機(Extreme Learning Machine) ELM，是由黃廣斌提出來的求解單隱層神經網路的演算法。ELM最大的特點是對於傳統的神經網路，尤其是單隱層

簡單易學的機器學習演算法——Logistic迴歸

一、Logistic迴歸的概述 Logistic迴歸是一種簡單的分類演算法，提到“迴歸”，很多人可能覺得與分類沒什麼關係，Logistic迴歸通過對資料分類邊界的擬合來實現分類。而“迴歸”也就

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：預測精度：這裡要處理好這樣一對為題，即樣本的數量和特徵的數量時，最小二乘迴歸會有較小的

簡單易學的機器學習演算法——分類迴歸樹CART

引言分類迴歸樹（Classification and Regression Tree，CART）是一種典型的決策樹演算法，CART演算法不僅可以應用於分類問題，而且可以用於迴歸問題。一、樹迴歸的

簡單易學的機器學習演算法——基於密度的聚類演算法DBSCAN

%% DBSCAN clear all; clc; %% 匯入資料集 % data = load('testData.txt'); data = load('testData_2.txt'); % 定義引數Eps和MinPts MinPts = 5; Eps = epsilon(data, MinPts)

簡單易學的機器學習演算法——AdaBoost

相關推薦