機器學習sklearn19.0——整合學習——boosting與梯度提升演算法（GBDT）、Adaboost演算法

阿新 • • 發佈：2019-01-01

一、boosting演算法原理

二、梯度提升演算法

關於提升梯度演算法的詳細介紹，參照部落格：http://www.cnblogs.com/pinard/p/6140514.html

對該演算法的sklearn的類庫介紹和調參，參照網址：http://www.cnblogs.com/pinard/p/6143927.html

xgboost安裝

（1）在網址 https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下載相應的版本

（2）在anaconda prompt中安裝

三、adaboost演算法

注：adaboost演算法詳細介紹參照部落格地址：http://www.cnblogs.com/pinard/p/6133937.html

四、adaboost演算法類庫介紹

五、adaboost演算法示例舉例

（1）知識點介紹

（2）示例程式碼

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:ZhengzhengLiu

#Adaboost演算法

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_gaussian_quantiles
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

#解決中文顯示問題
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False

#建立資料
#生成2維正態分佈，生成的資料按分位數分為兩類，200個樣本,2個樣本特徵，協方差係數為2
X1,y1 = make_gaussian_quantiles(cov=2,n_samples=200,n_features=2,
                                n_classes=2,random_state=1) #建立符合高斯分佈的資料集
X2,y2 = make_gaussian_quantiles(mean=(3,3),cov=1.5,n_samples=300,n_features=2,
                                n_classes=2,random_state=1)
#將兩組資料合成一組資料
X = np.concatenate((X1,X2))
y = np.concatenate((y1,-y2+1))

#構建adaboost模型
bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1),
                         algorithm="SAMME.R",n_estimators=200)

#資料量大時，可以增加內部分類器的max_depth(樹深)，也可不限制樹深，樹深的範圍為：10-100
#資料量小時，一般可以設定樹深較小或者n_estimators較小
#n_estimators:迭代次數或最大弱分類器數
#base_estimator:DecisionTreeClassifier，選擇弱分類器，預設為CART樹
#algorithm：SAMME和SAMME.R，運算規則，後者是優化演算法，以概率調整權重，迭代，需要有能計算概率的分類器支援
#learning_rate：0<v<=1,預設為1,正則項 衰減指數
#loss：誤差計算公式，有線性‘linear’,平方‘square’和指數'exponential’三種選擇,一般用linear足夠

#訓練
bdt.fit(X,y)

plot_step = 0.02
x_min,x_max = X[:,0].min()-1,X[:,0].max()+1
y_min,y_max = X[:,1].min()-1,X[:,1].max()+1
#meshgrid的作用：生成網格型資料
xx,yy = np.meshgrid(np.arange(x_min,x_max,plot_step),
                    np.arange(y_min,y_max,plot_step))

#預測
# np.c_  按照列來組合陣列
Z = bdt.predict(np.c_[xx.ravel(),yy.ravel()])
#設定維度
Z = Z.reshape(xx.shape)

#畫圖
plot_coloes = "br"
class_names = "AB"

plt.figure(figsize=(10,5),facecolor="w")
#區域性子圖
plt.subplot(1,2,1)
plt.pcolormesh(xx,yy,Z,cmap=plt.cm.Paired)
for i,n,c in zip(range(2),class_names,plot_coloes):
    idx = np.where(y == i)
    plt.scatter(X[idx,0],X[idx,1],c=c,cmap=plt.cm.Paired,label=u"類別%s"%n)

plt.xlim(x_min,x_max)
plt.ylim(y_min,y_max)
plt.legend(loc="upper right")
plt.xlabel("x")
plt.ylabel("y")
plt.title(u"Adaboost分類結果,正確率為:%.2f%%"%(bdt.score(X,y)*100))
plt.savefig("Adaboost分類結果.png")

#獲取決策函式的數值
twoclass_out = bdt.decision_function(X)
#獲取範圍
plot_range = (twoclass_out.min(),twoclass_out.max())
plt.subplot(1,2,2)
for i,n,c in zip(range(2),class_names,plot_coloes):
#直方圖
    plt.hist(twoclass_out[y==i],bins=20,range=plot_range,
             facecolor=c,label=u"類別%s"%n,alpha=.5)
x1,x2,y1,y2 = plt.axis()
plt.axis((x1,x2,y1,y2*1.2))
plt.legend(loc="upper right")
plt.xlabel(u"決策函式值")
plt.ylabel(u"樣本數")
plt.title(u"Adaboost的決策值")
plt.tight_layout()
plt.subplots_adjust(wspace=0.35)
plt.savefig("Adaboost的決策值.png")
plt.show()

六、分類演算法比較

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:ZhengzhengLiu

#分類演算法比較

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegressionCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier
from sklearn.datasets import make_moons,make_circles,make_classification    #生成月牙形、圓形和分型別的資料集

#解決中文顯示問題
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False

X,y = make_classification(n_features=2,n_redundant=0,n_informative=2,
                          random_state=1,n_clusters_per_class=1)
rng = np.random.RandomState(2)
X+=2*rng.uniform(size=X.shape)
linearly_separable = (X,y)

datasets = [make_moons(noise=0.3,random_state=0),
            make_circles(noise=0.2,factor=0.4,random_state=1),
            linearly_separable]

names = ["Nearest Neighbors", "Logistic","Decision Tree", "Random Forest", "AdaBoost", "GBDT"]
classifiers = [
    KNeighborsClassifier(3),
    LogisticRegressionCV(),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5,n_estimators=10,max_features=1),
    AdaBoostClassifier(n_estimators=10,learning_rate=1.5),
    GradientBoostingClassifier(n_estimators=10,learning_rate=1.5)
]

#畫圖
figure = plt.figure(figsize=(27,9),facecolor="w")
i = 1
h = .02     #步長
for ds in datasets:
    X,y = ds
    X = StandardScaler().fit_transform(X)
    X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=.4)

    x_min,x_max = X[:,0].min()-.5,X[:,0].max()+.5
    y_min,y_max = X[:,1].min()-.5,X[:,1].max()+.5

    xx,yy = np.meshgrid(np.arange(x_min,x_max,h),
                        np.arange(y_min,y_max,h))

    cm = plt.cm.RdBu
    cm_bright = ListedColormap(["r","b","y"])
    ax = plt.subplot(len(datasets),len(classifiers)+1,i)
    ax.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap=cm_bright)
    ax.scatter(X_test[:,0],X_test[:,1],c=y_test,cmap=cm_bright,alpha=0.6)
    ax.set_xlim(xx.min(),xx.max())
    ax.set_ylim(yy.min(),yy.max())
    ax.set_xticks(())
    ax.set_yticks(())
    i+=1

    #畫每個演算法的圖
    for name,clf in zip(names,classifiers):
        ax = plt.subplot(len(datasets),len(classifiers)+1,i)
        clf.fit(X_train,y_train)
        score = clf.score(X_test,y_test)
        if hasattr(clf,"decision_function"):
            Z = clf.decision_function(np.c_[xx.ravel(),yy.ravel()])
        else:
            Z = clf.predict_proba(np.c_[xx.ravel(),yy.ravel()])[:,1]
        Z = Z.reshape(xx.shape)
        ax.contourf(xx,yy,Z,cmap=cm,alpha=.8)
        ax.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap=cm_bright)
        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6)
        ax.set_xlim(xx.min(), xx.max())
        ax.set_ylim(yy.min(), yy.max())
        ax.set_xticks(())
        ax.set_yticks(())
        ax.set_title(name)
        ax.text(xx.max()-.3,yy.min()+.3,("%.2f"%score).lstrip("0"),
                size=15,horizontalalignment="right")
        i+=1

#展示圖
figure.subplots_adjust(left=.02,right=.98)
plt.savefig("分類演算法比較.png")
plt.show()

機器學習sklearn19.0——整合學習——boosting與梯度提升演算法（GBDT）、Adaboost演算法

一、boosting演算法原理二、梯度提升演算法關於提升梯度演算法的詳細介紹，參照部落格：http://www.cnblogs.com/pinard/p/6140514.html 對該演算法的sklearn的類庫介紹和調參，參照網址：http://

機器學習筆記10-梯度提升樹（GBDT）

機器學習筆記10-梯度提升樹（GBDT）在上一節中講到了整合學習的Boosting方法，並詳細解釋了其中的代表性演算法AdaBoost演算法。除了AdaBoost演算法外，Boosting中還有另一個非常常用的演算法：提升樹和梯度提升樹（GBDT）。提升樹提升樹是以分

機器學習（十四）——協同過濾的ALS演算法（2）、主成分分析

Kendall秩相關係數（Kendall rank correlation coefficient）對於秩變數對(xi,yi),(xj,yj)： (xi−xj)(yi−yj)⎧⎩⎨>0,=0,<0,concordantneither con

Springboot2.0整合Shiro框架系列-簡單登入認證（一）

Shiro簡介 Apache Shiro 是 Java 的一個安全框架。Shiro 可以非常容易的開發出足夠好的應用，其不僅可以用在 JavaSE 環境，也可以用在JavaEE 環境。Shiro 可以幫助我們完成，認證、授權、加密、會話管理、與Web整合、快

【Dubbo原始碼學習】負載均衡演算法（2）-輪詢演算法的實現

@Overrideprotected <T> Invoker<T> doSelect(List<Invoker<T>> invokers, URL url, Invocation invocation) { String key = invokers.ge

演算法（algorithm）、模型（model）與框架（framework）

模型對應的數學公式，公式中往往有待學習得到的引數，因此在進行訓練或者學習時，首先初始化這部分引數（0 或標準正太分佈）；學習之前的初始化：initial model；學習完成之後的模型：fina

機器學習sklearn19.0——線性迴歸演算法（應用案例）

一、sklearn中的線性迴歸的使用二、線性迴歸——家庭用電預測（1）時間與功率之間的關係 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:ZhengzhengLiu #線性迴歸——家庭用電預

機器學習sklearn19.0聚類演算法——Kmeans演算法

一、關於聚類及相似度、距離的知識點二、k-means演算法思想與流程三、sklearn中對於kmeans演算法的引數四、程式碼示例以及應用的知識點簡介（1）make_blobs：聚類資料生成器 sklearn.datasets.m

機器學習sklearn19.0聚類演算法——層次聚類（AGNES/DIANA）、密度聚類(DBSCAN/MDCA)、譜聚類

一、層次聚類 BIRCH演算法詳細介紹以及sklearn中的應用如下面部落格連結： http://www.cnblogs.com/pinard/p/6179132.html http://www.cnblogs.com/pinard/p/62

機器學習從0開始。簡介與符號

機器學習的本質是讓機器在面對現實情況之後，對當前的現實進行歸納，分析，從而對未來的事件進行一系列的決策與預測。從而改變當前的情況，然後對更改之後的情況重新進行分析，決策。形成一種迴圈，從而使機器能夠模擬（最終的目標是學會）一定的人類學習能力。就如下圖：同時，機器學習又需

機器學習sklearn19.0——Logistic迴歸演算法

一、Logistic迴歸的認知與應用場景 Logistic迴歸為概率型非線性迴歸模型，是研究二分類觀察結果與一些影響因素之間關係的一種多變量分析方法。通常的問題是，研究某些因素條件下某個結果是否發生，比如醫學中根據病人的一些症狀來判斷它是否患有某種病。二

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

機器學習：線性回歸——理論與代碼實現（基於正規方程與梯度下降）

overfit 返回 pen ear 隨機梯度是否很大的建模回歸一線性模型給定由n個屬性描述的列向量\(f(\mathbf{x})={(x^{(1)};x^{(2)};...;x^{(n)})}\)，其中 \(x^{(j)}\)是\(\textbf{x}\)

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

【機器學習模型】整合學習總結

整合學習一. 同質整合 1. Boosting 2. Bagging 3. Stacking 二. 異質整合 1. 平均法 2. 投票法 3. 學習法（Stacking）

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

本篇內容為西瓜書第 8 章整合學習 8.1 8.2 8.3 8.4 8.5 的內容： 8.1 個體與整合 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性如移動端無法正常顯示文中的公式，右上角跳至網頁即可正常閱讀。

機器學習——整合演算法（二）

接著整合演算法講講GBDT和Xgboost，二者的原理其實差不多的，他們都屬於提升演算法。梯度上升（Gradient Boosting）是說，在整合演算法中每個弱決策樹的生成都是依據損失函式的梯度方向。提升演算法，是找到找到最優解F(x)使得損失函式在訓練集上期望（偏差）

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

本篇內容為《機器學習實戰》第 7 章利用 AdaBoost 元演算法提高分類效能程式清單。所用程式碼為 python3。 AdaBoost優點：泛化錯誤率低，易編碼，可以應用在大部分分類器上，無引數調整。缺點：對離群點敏感。適用資料型別：數值型和標稱型資料。 bo

機器學習與演算法（11）--彈性網路(Elastic Net)

彈性網路(Elastic Net) 彈性網路是一種使用 L1，L2範數作為先驗正則項訓練的線性迴歸模型.這種組合允許學習到一個只有少量引數是非零稀疏的模型，就像 Lasso一樣，但是

R語言與機器學習學習筆記（分類演算法）（1）K-近鄰演算法

前言最近在學習資料探勘，對資料探勘中的演算法比較感興趣，打算整理分享一下學習情況，順便利用R來實現一下資料探勘演算法。資料探勘裡我打算整理的內容有：分類，聚類分析，關聯分析，異常檢測四大部分。其中分類演算法主要介紹：K-近鄰演算法，決策樹演算法，樸素

機器學習sklearn19.0——整合學習——boosting與梯度提升演算法（GBDT）、Adaboost演算法

相關推薦