機器學習(周志華) 習題7.3 個人筆記

阿新 • • 發佈：2019-01-24

7.3 試程式設計實現拉普拉斯修正的樸素貝葉斯分類器，並以西瓜資料集3.0為訓練集，對p151“測1”樣本進行判別。

程式設計得到結果為:

[0.024223607117715082, 4.4242506192749345e-05]

因此測試例應預測為好瓜。

# -*- coding: utf-8 -*-
# exercise 7.1: apply LL method to estimate the likelihood based on the first 3 attributes with Laplacian correction
import numpy as np

D = np.array([
    [1, 1, 1, 1, 1, 1, 0.697, 0.460, 1],
    [2, 1, 2, 1, 1, 1, 0.774, 0.376, 1],
    [2, 1, 1, 1, 1, 1, 0.634, 0.264, 1],
    [1, 1, 2, 1, 1, 1, 0.608, 0.318, 1],
    [3, 1, 1, 1, 1, 1, 0.556, 0.215, 1],
    [1, 2, 1, 1, 2, 2, 0.403, 0.237, 1],
    [2, 2, 1, 2, 2, 2, 0.481, 0.149, 1],
    [2, 2, 1, 1, 2, 1, 0.437, 0.211, 1],
    [2, 2, 2, 2, 2, 1, 0.666, 0.091, 0],
    [1, 3, 3, 1, 3, 2, 0.243, 0.267, 0],
    [3, 3, 3, 3, 3, 1, 0.245, 0.057, 0],
    [3, 1, 1, 3, 3, 2, 0.343, 0.099, 0],
    [1, 2, 1, 2, 1, 1, 0.639, 0.161, 0],
    [3, 2, 2, 2, 1, 1, 0.657, 0.198, 0],
    [2, 2, 1, 1, 2, 2, 0.360, 0.370, 0],
    [3, 1, 1, 3, 3, 1, 0.593, 0.042, 0],
    [1, 1, 2, 2, 2, 1, 0.719, 0.103, 0]])
m, n = D.shape[0], D.shape[1]-1  # number of instances,attributes
label = np.unique(D[:,-1])
class_dict = {int(l): 0 for l in label}
for i in range(m):
    class_dict[D[i,-1]] += 1
p_class = {l: (class_dict[l]+1)/(m+2) for l in class_dict}
DICT0 = [{} for item in range(n)]  # list of dicts that contain their own samples with class 0
DICT1 = [{} for item in range(n)]  # list of dicts that contain their own samples with class 1

for i, d in enumerate(DICT0[:-2]):
    DICT0[i] = {int(a): 0 for a in np.unique(D[:, i])}
    d = DICT0[i]
    k = len(np.unique(D[:, i]))  # number of attributes in column i
    for j in range(8):
        d[D[j,i]] += 1
    DICT0[i] = {l: (d[l]+1)/(8+k) for l in d}

for i, d in enumerate(DICT1[:-2]):
    DICT1[i] = {int(a): 0 for a in np.unique(D[:, i])}
    d = DICT1[i]
    k = len(np.unique(D[:, i]))  # number of attributes in column i
    for j in range(8,m):
        d[D[j, i]] += 1
    DICT1[i] = {l: (d[l] + 1) / (9 + k) for l in d}

def prob_continuous(x,data_n):  # probability of continuous variables
    mean = np.mean(data_n)
    var = np.var(data_n)
    p = np.exp(-(x-mean)**2*0.5/var)/(np.sqrt(2*np.pi*var))
    return p

test = [1,1,1,1,1,1,0.697,0.46]  # the predict sample
result = [p_class[0], p_class[1]]
DICT0[6], DICT0[7] = prob_continuous(test[-2], D[:8, 6]), prob_continuous(test[-1], D[:8, 7])
DICT1[6], DICT1[7] = prob_continuous(test[-2], D[8:, 6]), prob_continuous(test[-1], D[8:, 7])

for i, t in enumerate(test[:-2]):
    result[0] *= DICT0[i][t]
    result[1] *= DICT1[i][t]
result[0] *= DICT0[6] * DICT0[7]
result[1] *= DICT1[6] * DICT1[7]

print(result)

機器學習(周志華) 習題7.3 個人筆記

7.3 試程式設計實現拉普拉斯修正的樸素貝葉斯分類器，並以西瓜資料集3.0為訓練集，對p151“測1”樣本進行判別。程式設計得到結果為: [0.024223607117715082, 4.4242506192749345e-05] 因此測試例應預測為好瓜。 # -*-

機器學習--周志華--課後習題3.3答案

LR實現，訓練集和測試集都是書上給的西瓜資料集3.0α，用keras實現程式碼如下： # coding: utf-8 """ 使用keras實現logistic分類器 """ import os import gzip import urllib im

學習筆記 | 機器學習-周志華 | 3

1.4 歸納偏好版本空間中的多個假設可能會產生不同的輸出：對於同一個樣本，產生不同結果。這時，學習演算法本身的"偏好"就會起到關鍵的作用. 機器學習演算法在學習過程中對某種型別假設的偏好，稱為"歸納偏好" (inductive bias),或簡稱為"偏好"。任何

機器學習-周志華-課後習題答案5.5

5.5 試程式設計實現標準BP演算法和累計BP演算法，在西瓜資料集3.0上分別用這兩個演算法訓練一個單隱層網路，並進行比較。通過程式設計實踐發現，在本例下要達到某一限定的均方誤差時，標準BP演算法比累積BP演算法明顯收斂更快，特別在本例中，將ABP演算法誤差設定到0.0

機器學習(周志華) 參考答案第三章線性模型 3.3

一：matlab實現 1.資料的Excel處理西瓜資料集3.0 2.程式碼 # -*- coding: utf-8 -*- old_l = 0; n = 0; b = [0;0;1]; %對應書中（3.25）下的B=(w;b)，因為x有兩個屬性：

機器學習-周志華-課後習題答案-線性模型

3.1試分析在什麼情況下，在以下式子中不比考慮偏置項b。答：線上性迴歸中，所有引數的確定都是為了讓殘差項的均值為0且殘差項的平方和最小。在所有其他引數項確定後，偏置項b（或者說是常數項）的變化體現出來的就是擬合曲線的上下整體浮動，可以看做是其他各個解釋變數留下的bias的線性

機器學習周志華第一章習題

1.表1.1中若只包含編號為1，4的兩個樣例，試給出相應的版本空間。假設資料集有n種屬性，第i個屬性可能的取值有ti種，加上該屬性的泛化取值(*)，所以可能的假設有 ∏_i(t_i+1) 再用空集表示沒有正例，假設空間中一共 ∏i(ti+1)

機器學習-周志華-個人練習8.3和8.5

8.3從網上下載或自己程式設計實現AdaBoost，以不剪枝決策樹為基學習器，在西瓜資料集3.0a上訓練一個AdaBoost整合，並與圖8.4進行比較。 8.5試程式設計實現Bagging，以決策樹樁為基學習器，在西瓜資料集3.0a上訓練一個Bagging整合，並與圖8.6

機器學習-周志華，習題1.1，答案探究

1.1版本空間 1.2 感覺上，可能的假設應當就是不同的版本空間，則對應瞭如圖1.2的3種版本空間 1.3 看不懂題目意思。設定閾值，或者排除異類後，按優先順序具有偏好。 1.4 不能理解，等回過頭來再看這題吧。

機器學習-周志華-第一章

緒論 1.1 引言什麼是機器學習？它是一門致力於研究如何通過計算的手段，利用經驗來改善系統自身效能的一門學科。所研究的主要內容是計算機如何通過資料產生模型，即學習演算法。有了學習演算法後，當我們給它提供經驗資料時就能基於這些資料產生模型。在面對新資料時學習演算法會給我們相應的判斷。經驗通常以資料的形

機器學習周志華筆記

已經發布部落格 ************************************************************ 周志華教授機器學習教材總結資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已問題總結：生成式模型

學習筆記 | 機器學習-周志華 | 5

第二章模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ，即如果在 m 個樣本中有 α 個樣本分類錯誤，則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ，即"精度 =1 - 錯誤率" 更一般地，

學習筆記 | 機器學習-周志華 | 4

習題版本空間：存在著一個與訓練集一致的“假設集合”。此時，只有1, 4兩個樣例。求版本空間的步驟： ①寫出假設空間：先列出所有可能的樣本點（即特徵向量）（即每個屬性都取到所有的屬性值） ②對應著給出的已知資料集，將與正樣本不一致的、與負樣本一致的假設刪除。 ③得出與

學習筆記 | 機器學習-周志華 | 2

1.3 假設空間歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。歸納：從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律。演繹：從一般到特殊的"特化" (specializa

學習筆記 | 機器學習-周志華 | 1

第一章緒論機器學習所研究的主要內容，是關於在計算機上從資料中產生模型（model）的演算法，即 “學習演算法”（learning algorithm） . 基本術語假定我們收集了一批關於西瓜的資料，例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)， (色澤=烏黑;根蒂:稍蜷;

機器學習(周志華) 參考答案第十六章強化學習

機器學習(周志華西瓜書) 參考答案總目錄是時候讓自己的機器更強大一些了，順便完結撒花 1.用於K-搖臂賭博機的UCB方法每次選擇Q(k)+UC(k)的最大的搖臂，其中Q(k)為搖臂k當前的平均獎賞，UC(k)為置信區間。例如Q(k)

機器學習(周志華西瓜書) 參考答案總目錄

機器學習(周志華西瓜書)參考答案總目錄從剛開始學習機器學習到現在也有幾個月了，期間看過PDF，上過MOOC，總感覺知道一點了又不是特別明白，最後趁某東買書大減價弄了幾本相關的書來看看，其中一本就是西瓜書。一口氣看了前10章，感覺每章內容都很少，看完感覺還是和以前一樣。

機器學習--周志華（第1章）

第1章緒論符號學習--->統計機器學習機器學習中代數一般是作為基礎工具來使用總結：出頭露面的是概率和統計，埋頭苦幹的是代數和邏輯。機器學習是關於在計算機上從資料中產生“模型”的演算法，即學習演算法。學得模型對應了關於資料的某種潛在的規律，因此亦稱“假設”。這

機器學習(周志華) 參考答案第一章緒論

機器學習(周志華) 參考答案第一章緒論機器學習(周志華西瓜書) 參考答案總目錄 1.表1.1中若只包含編號為1，4的兩個樣例，試給出相應的版本空間。假設空間指的是問題所有假設組成的空間，我們可以把學習過程看作是在假設空間中搜索的過程，

機器學習(周志華) 參考答案第十四章概率圖模型

機器學習(周志華西瓜書) 參考答案總目錄 1.試用盤式記法表示條件隨機場和樸素貝葉斯分類器。條件隨機場: 這樣畫的問題在於無法表示N個y之間的關係，到底怎麼畫我也不知道。樸素貝葉斯分類器:y依賴於所有的變數x 2.證明

機器學習(周志華) 習題7.3 個人筆記

相關推薦