機器學習-周志華-個人練習8.3和8.5

阿新 • • 發佈：2019-01-11

8.3從網上下載或自己程式設計實現AdaBoost，以不剪枝決策樹為基學習器，在西瓜資料集3.0a上訓練一個AdaBoost整合，並與圖8.4進行比較。

8.5試程式設計實現Bagging，以決策樹樁為基學習器，在西瓜資料集3.0a上訓練一個Bagging整合，並與圖8.6進行比較。

這兩道題程式碼我沒有直接編，而是呼叫的scikit-learn庫的整合學習模組進行AdaBoost和Bagging整合，因而只能簡單地對圖進行分析。

# -*- coding: utf-8 -*-
# 利用AdaBoost和Bagging對西瓜資料集3.0a實現不剪枝決策樹的整合學習
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

D = np.array([
    [1, 1, 1, 1, 1, 1, 0.697, 0.460, 1],
    [2, 1, 2, 1, 1, 1, 0.774, 0.376, 1],
    [2, 1, 1, 1, 1, 1, 0.634, 0.264, 1],
    [1, 1, 2, 1, 1, 1, 0.608, 0.318, 1],
    [3, 1, 1, 1, 1, 1, 0.556, 0.215, 1],
    [1, 2, 1, 1, 2, 2, 0.403, 0.237, 1],
    [2, 2, 1, 2, 2, 2, 0.481, 0.149, 1],
    [2, 2, 1, 1, 2, 1, 0.437, 0.211, 1],
    [2, 2, 2, 2, 2, 1, 0.666, 0.091, 0],
    [1, 3, 3, 1, 3, 2, 0.243, 0.267, 0],
    [3, 3, 3, 3, 3, 1, 0.245, 0.057, 0],
    [3, 1, 1, 3, 3, 2, 0.343, 0.099, 0],
    [1, 2, 1, 2, 1, 1, 0.639, 0.161, 0],
    [3, 2, 2, 2, 1, 1, 0.657, 0.198, 0],
    [2, 2, 1, 1, 2, 2, 0.360, 0.370, 0],
    [3, 1, 1, 3, 3, 1, 0.593, 0.042, 0],
    [1, 1, 2, 2, 2, 1, 0.719, 0.103, 0]])
train_d,label_d = D[:,[-3,-2]], D[:,-1]
# max_depth限定決策樹是否為決策樹樁，n_estimator表示不同數量的基學習器整合，下面以Bagging為例，AdaBoost同理
clf1 = BaggingClassifier(DecisionTreeClassifier(max_depth=2),n_estimators=3) 
clf2 = BaggingClassifier(DecisionTreeClassifier(max_depth=2),n_estimators=5)
clf3 = BaggingClassifier(DecisionTreeClassifier(max_depth=2),n_estimators=11)
for clf in [clf1,clf2,clf3]:
    clf.fit(train_d, label_d)

x_min, x_max = train_d[:, 0].min() - 1, train_d[:, 0].max() + 1
y_min, y_max = train_d[:, 1].min() - 1, train_d[:, 1].max() + 1
xset, yset = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))
clf_set,label_set = [clf1,clf2,clf3], []
for clf in clf_set:
    out_label = clf.predict(np.c_[xset.ravel(), yset.ravel()])
    out_label = out_label.reshape(xset.shape)
    label_set.append(out_label)

fig,axes = plt.subplots(nrows=1,ncols=3,figsize=(12, 4))
(ax0,ax1,ax2) = axes.flatten()
for k,ax in enumerate((ax0,ax1,ax2)):
    ax.contourf(xset,yset,label_set[k],cmap=plt.cm.Set3)
    for i, n, c in zip([0,1], ['bad','good'], ['black','red']):
        idx = np.where(label_d == i)
        ax.scatter(train_d[idx, 0], train_d[idx, 1], c=c, label=n)
    ax.set_xlim(0, 1)
    ax.set_ylim(0, 0.6)
    ax.legend(loc='upper left')
    ax.set_ylabel('sugar')
    ax.set_xlabel('densty')
    ax.set_title('decision boundary for %s' % (k+1))
plt.show()

分別用AdaBoost（對上述程式碼略作修改得圖1）和Bagging（圖2），可得到如下兩張圖：

圖1 AdaBoost整合，基學習器數量為30

圖2 Bagging整合，基學習器數量為3,5,11 由圖1與圖8.4對比可見，當AdaBoost整合數量增加時，決策邊界總體上趨於複雜，同時使分類錯誤率降低。而Bagging採用決策樹樁時，設定決策樹最大深度為1，則無論整合學習器數量增加多少，最終錯誤率仍然很高，而當決策樹最大深度為2時（圖2），總體上隨基學習器的數量增加，分類錯誤率降低，這與圖8.6的情況基本一致。

機器學習-周志華-個人練習8.3和8.5

8.3從網上下載或自己程式設計實現AdaBoost，以不剪枝決策樹為基學習器，在西瓜資料集3.0a上訓練一個AdaBoost整合，並與圖8.4進行比較。 8.5試程式設計實現Bagging，以決策樹樁為基學習器，在西瓜資料集3.0a上訓練一個Bagging整合，並與圖8.6

機器學習-周志華-個人練習11.1

11.1 試程式設計實現Relief演算法，並考察其在西瓜資料集3.0上的執行結果。本題採用Relief演算法處理二分類任務，雖然書上只要求對連續屬性歸一化，但我將離散屬性的值轉化為了1,2,3，如果不對離散屬性歸一化，顯然在查詢近鄰時連續屬性不能有效發揮作用，因此需要將

機器學習-周志華-個人練習13.4

13.4 從網上下載或自己程式設計實現TSVM演算法，選擇兩個UCI資料集，將其中30%的樣例用作測試樣本，10%的樣例用作有標記樣本，60%的樣例用作無標記樣本，分別訓練出利用無標記樣本的TSVM以及僅利用有標記樣本的SVM，並比較其效能。選擇最常用的ir

機器學習(周志華) 習題7.3 個人筆記

7.3 試程式設計實現拉普拉斯修正的樸素貝葉斯分類器，並以西瓜資料集3.0為訓練集，對p151“測1”樣本進行判別。程式設計得到結果為: [0.024223607117715082, 4.4242506192749345e-05] 因此測試例應預測為好瓜。 # -*-

機器學習-周志華-第一章

緒論 1.1 引言什麼是機器學習？它是一門致力於研究如何通過計算的手段，利用經驗來改善系統自身效能的一門學科。所研究的主要內容是計算機如何通過資料產生模型，即學習演算法。有了學習演算法後，當我們給它提供經驗資料時就能基於這些資料產生模型。在面對新資料時學習演算法會給我們相應的判斷。經驗通常以資料的形

機器學習周志華筆記

已經發布部落格 ************************************************************ 周志華教授機器學習教材總結資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已問題總結：生成式模型

學習筆記 | 機器學習-周志華 | 5

第二章模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ，即如果在 m 個樣本中有 α 個樣本分類錯誤，則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ，即"精度 =1 - 錯誤率" 更一般地，

學習筆記 | 機器學習-周志華 | 4

習題版本空間：存在著一個與訓練集一致的“假設集合”。此時，只有1, 4兩個樣例。求版本空間的步驟： ①寫出假設空間：先列出所有可能的樣本點（即特徵向量）（即每個屬性都取到所有的屬性值） ②對應著給出的已知資料集，將與正樣本不一致的、與負樣本一致的假設刪除。 ③得出與

學習筆記 | 機器學習-周志華 | 3

1.4 歸納偏好版本空間中的多個假設可能會產生不同的輸出：對於同一個樣本，產生不同結果。這時，學習演算法本身的"偏好"就會起到關鍵的作用. 機器學習演算法在學習過程中對某種型別假設的偏好，稱為"歸納偏好" (inductive bias),或簡稱為"偏好"。任何

學習筆記 | 機器學習-周志華 | 2

1.3 假設空間歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。歸納：從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律。演繹：從一般到特殊的"特化" (specializa

學習筆記 | 機器學習-周志華 | 1

第一章緒論機器學習所研究的主要內容，是關於在計算機上從資料中產生模型（model）的演算法，即 “學習演算法”（learning algorithm） . 基本術語假定我們收集了一批關於西瓜的資料，例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)， (色澤=烏黑;根蒂:稍蜷;

機器學習-周志華-課後習題答案5.5

5.5 試程式設計實現標準BP演算法和累計BP演算法，在西瓜資料集3.0上分別用這兩個演算法訓練一個單隱層網路，並進行比較。通過程式設計實踐發現，在本例下要達到某一限定的均方誤差時，標準BP演算法比累積BP演算法明顯收斂更快，特別在本例中，將ABP演算法誤差設定到0.0

機器學習(周志華) 參考答案第十六章強化學習

機器學習(周志華西瓜書) 參考答案總目錄是時候讓自己的機器更強大一些了，順便完結撒花 1.用於K-搖臂賭博機的UCB方法每次選擇Q(k)+UC(k)的最大的搖臂，其中Q(k)為搖臂k當前的平均獎賞，UC(k)為置信區間。例如Q(k)

機器學習(周志華西瓜書) 參考答案總目錄

機器學習(周志華西瓜書)參考答案總目錄從剛開始學習機器學習到現在也有幾個月了，期間看過PDF，上過MOOC，總感覺知道一點了又不是特別明白，最後趁某東買書大減價弄了幾本相關的書來看看，其中一本就是西瓜書。一口氣看了前10章，感覺每章內容都很少，看完感覺還是和以前一樣。

機器學習--周志華（第1章）

第1章緒論符號學習--->統計機器學習機器學習中代數一般是作為基礎工具來使用總結：出頭露面的是概率和統計，埋頭苦幹的是代數和邏輯。機器學習是關於在計算機上從資料中產生“模型”的演算法，即學習演算法。學得模型對應了關於資料的某種潛在的規律，因此亦稱“假設”。這

機器學習(周志華) 參考答案第三章線性模型 3.3

一：matlab實現 1.資料的Excel處理西瓜資料集3.0 2.程式碼 # -*- coding: utf-8 -*- old_l = 0; n = 0; b = [0;0;1]; %對應書中（3.25）下的B=(w;b)，因為x有兩個屬性：

機器學習(周志華) 參考答案第一章緒論

機器學習(周志華) 參考答案第一章緒論機器學習(周志華西瓜書) 參考答案總目錄 1.表1.1中若只包含編號為1，4的兩個樣例，試給出相應的版本空間。假設空間指的是問題所有假設組成的空間，我們可以把學習過程看作是在假設空間中搜索的過程，

機器學習(周志華) 參考答案第十四章概率圖模型

機器學習(周志華西瓜書) 參考答案總目錄 1.試用盤式記法表示條件隨機場和樸素貝葉斯分類器。條件隨機場: 這樣畫的問題在於無法表示N個y之間的關係，到底怎麼畫我也不知道。樸素貝葉斯分類器:y依賴於所有的變數x 2.證明

機器學習-周志華-課後習題答案-線性模型

3.1試分析在什麼情況下，在以下式子中不比考慮偏置項b。答：線上性迴歸中，所有引數的確定都是為了讓殘差項的均值為0且殘差項的平方和最小。在所有其他引數項確定後，偏置項b（或者說是常數項）的變化體現出來的就是擬合曲線的上下整體浮動，可以看做是其他各個解釋變數留下的bias的線性

機器學習(周志華) 參考答案第四章決策樹 python重寫版與畫樹演算法

機器學習(周志華西瓜書) 參考答案總目錄機器學習(周志華) 參考答案第四章決策樹 3.試程式設計實現基於資訊熵進行劃分選擇的決策樹演算法，併為表4.3中資料生成一棵決策樹。最近在學著用python，所以用py重寫了以前的決策樹程式碼，

機器學習-周志華-個人練習8.3和8.5

8.3從網上下載或自己程式設計實現AdaBoost，以不剪枝決策樹為基學習器，在西瓜資料集3.0a上訓練一個AdaBoost整合，並與圖8.4進行比較。

8.5試程式設計實現Bagging，以決策樹樁為基學習器，在西瓜資料集3.0a上訓練一個Bagging整合，並與圖8.6進行比較。

相關推薦