1. 程式人生 > >機器學習(周志華) 參考答案 第十五章 規則學習

機器學習(周志華) 參考答案 第十五章 規則學習

機器學習(周志華西瓜書) 參考答案 總目錄

    好忙啊好忙啊好忙啊,這章和我的研究方向關係不大,暫時先偷工減料一下下。

1.對西瓜資料集2.0,允許使用否定形式的文字,試基於自頂向下的策略學出命題規則集。

    1,2題共同的問題是,如果有錯誤的資料怎麼辦?沒想明白--

2.對西瓜資料集2.0,在學習過程中通過刪除文字,將常量轉換為變數來進行規則泛化,試基於自底向上的策略學出命題規則集。

3.從網上下載或自己程式設計實現RIPPER演算法,並在西瓜資料集2.0上學出規則集。

沒做,以後如果用到相關領域再回來補全。

4.規則學習也能對資料缺失進行學習,試模仿決策樹的缺失值處理方法,基於序貫覆蓋在西瓜資料集2.0
α
上學出命題規則集。

與決策樹一樣,為每個樣例加入權值,缺失處認為是該屬性每個取值等比例分配。比如摸個樣例一個屬性上可以有3種取值,這就相當於有3個樣例,每個樣例的權值是13。一個方法是利用權值構造新資料集,然後可以直接呼叫1,2題的程式碼求解,另一個方法就是重新寫一個程式-_-。

5.從網上下載或自己程式設計實現RIPPER演算法,允許使用否定的文字,在西瓜資料集5.0上學出一階規則集。

請看第3題

6.對西瓜資料集5.0,試利用歸納邏輯學習概念“更壞”。

利用歸納邏輯學習概念“更壞”,並不是太明白怎麼做,LGG還是後面的逆歸結?
如果說是用一階規則學習,使用FOIL增益來選擇屬性,那就比較簡單了。

西瓜資料集5.0是根據對西瓜資料集2來的,可以通過對西瓜資料集2來生成5的數字形式。
可以用0,1,2分別代表每個屬性對比的程度,比如顏色:0相同,1更深,2更淺。
新資料集仲樣例數是西瓜2中正例數與反例數的乘積。

之後就轉換成了第一題,只是在選擇最佳屬性時不再看比例,而是使用FOIL。正反例的判斷上改成如果選擇的屬性取值完全一樣,就是整正例,完全相反則是反例,其他的都是未被覆蓋的例子。

如果思路沒錯,程式碼和題目1的差距並不大,如果思路錯了,程式碼寫了也是錯的,所以。

7.證明:對於一階公式r1r2,不存在既能特化為r1r2,也能泛化為他們的LGG的一階公式
r

這題有點像證明:給定兩個數x,y,不存在即是x和y的約數,又比他們的最大公約數大的數。看著不是很明顯嗎,不然還叫什麼最大公約數或者最小一般泛化。
證:
假設: r1=rs1rn1r2=rs2rn2
其中 rsr1r2的相同謂詞,rnr1r2的不同謂詞
那麼顯然如果r能特化到r1r2,那麼必然能特化到rs,也就是LGG,所以不能泛化到LGG。

8.試生成一個西瓜資料集5.0的LGG集合。

這個題目並沒有太看懂,如果僅僅給出兩條規則,我知道怎麼去求LGG,但是如何去求一個數據集的LGG?
如果是所有規則全部一起去求 ,最終會得到<(),因為不相同的謂詞全部扔了。
疑惑

9.一階原子公式是一種遞迴定義的公式,形如P(t1,t2,...,tn),其中P是謂詞或者函式符號,ti稱作“項”,可以使邏輯常量,變數或者其他原子公式。對一階原子公式Ei的集合S={E1,E2,...,En},設計一個演算法求其MGU。

對於所有原子公式,如果相同的字元出現在不同的位置上,這時候很有可能(或者一定?)無法合一。
並沒有去多想,按順序兩兩合一球出來的應該不是MGU。或者是每次得到一個置換,就將後面所有相同的字元全部置換,不知道這樣行不行。

10.對於序貫覆蓋的規則學習在學習下一條規則前,會將已被當前規則集覆蓋的樣例從訓練集仲刪去。這種貪心策略似的後續學習只關心以往未覆蓋的樣例,不考慮前後樣例的相關性;但該策略是的後續能參考的樣例越來越少,試設計一種不刪除樣例的規則學習演算法。

書上介紹的序貫覆蓋的規則學習方法,最終球出來的規則都不會覆蓋相同的資料集,這導致後續規則參考太少導致太‘特別’。比如一條規則只對應一個樣例。
所以要做的就是讓生成的規則可以覆蓋相同的樣例。
自頂向下:書中的方法是:一開始的屬性集合為空,然後選擇最佳的屬性加入集合,加入後覆蓋的正樣例比例最高,迴圈操作最後使得覆蓋的樣例全為正例。記錄這條規則,並將這條規則覆蓋的正例從資料集刪除,再從頭開始,直到資料集中只有反例。(參考第一題)

修改:
1.可以參考AdaBoost的方法,為每個資料加入一個權值,初始都為1。
2.每輪規則生成後,被覆蓋的樣例不再刪除,而是將權值除以一個常數,比如3。
3.同樣修改屬性選擇時求正例比例的方法,將權值加入。

只是想象,並沒有去操作,不知道行不行。

自底向上:書中的方法是:選擇資料集第一條樣例的屬性,將其放入屬性集合,然後依次刪除一個屬性,使得覆蓋的正例最多,同時不能覆蓋到反例,直到無論刪除哪個屬性都無法覆蓋新的正例,或者會覆蓋反例。記錄這條規則,並將這條規則覆蓋的正例從資料集刪除,再從頭開始,直到資料集中只有反例。(參考第二題)

修改:
只需要改一點點,不再刪除被當前規則集覆蓋的正例,而是每次選擇資料集第一個正例屬性改成第一個未被規則集覆蓋的正例屬性,終止條件改為所有正例被當前規則集覆蓋。

這兩個程式其實根據1,2題程式碼並不難改,所以就不改了。
(那個太難不想寫,這個太簡單不想寫)

相關推薦

機器學習() 參考答案 規則學習

機器學習(周志華西瓜書) 參考答案 總目錄 好忙啊好忙啊好忙啊,這章和我的研究方向關係不大,暫時先偷工減料一下下。 1.對西瓜資料集2.0,允許使用否定形式的文字,試基於自頂向下的策略學出命題規則集。 1,2題共同的問題是,如

機器學習() 參考答案 強化學習

機器學習(周志華西瓜書) 參考答案 總目錄 是時候讓自己的機器更強大一些了,順便完結撒花 1.用於K-搖臂賭博機的UCB方法每次選擇Q(k)+UC(k)的最大的搖臂,其中Q(k)為搖臂k當前的平均獎賞,UC(k)為置信區間。例如Q(k)

機器學習() 參考答案 概率圖模型

機器學習(周志華西瓜書) 參考答案 總目錄 1.試用盤式記法表示條件隨機場和樸素貝葉斯分類器。 條件隨機場: 這樣畫的問題在於無法表示N個y之間的關係,到底怎麼畫我也不知道。 樸素貝葉斯分類器:y依賴於所有的變數x 2.證明

機器學習() 參考答案 線性模型 3.3

一:matlab實現 1.資料的Excel處理 西瓜資料集3.0 2.程式碼 # -*- coding: utf-8 -*- old_l = 0; n = 0; b = [0;0;1]; %對應書中(3.25)下的B=(w;b),因為x有兩個屬性:

機器學習() 參考答案 決策樹 python重寫版與畫樹演算法

機器學習(周志華西瓜書) 參考答案 總目錄 機器學習(周志華) 參考答案 第四章 決策樹 3.試程式設計實現基於資訊熵進行劃分選擇的決策樹演算法,併為表4.3中資料生成一棵決策樹。 最近在學著用python,所以用py重寫了以前的決策樹程式碼,

機器學習() 參考答案 第一 緒論

機器學習(周志華) 參考答案 第一章 緒論 機器學習(周志華西瓜書) 參考答案 總目錄 1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。 假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜索的過程,

機器學習() 參考答案 第二 模型評估與選擇

機器學習(周志華) 參考答案 第二章 模型評估與選擇 機器學習(周志華西瓜書) 參考答案 總目錄 1.資料集包含1000個樣本,其中500個正例,500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種

機器學習() 參考答案 第一 緒論 1.2

機器學習(周志華) 參考答案 第一章 緒論 1.2 機器學習(周志華西瓜書) 參考答案 總目錄 機器學習(周志華) 參考答案 第一章 緒論 2.與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用

深度學習花書學習筆記 表示學習

本章的表示學習主要就是通過無監督訓練學習特徵的意思。 這種沒有具體的演算法,就是介紹表示學習的應用和大概的分支,至於如何進行表示學習,沒有詳細介紹。感覺可以直接跳過。。 貪心逐層無監督預訓練 貪心演算法在無監督訓練中的應用,每層只關心當前,進行訓練。 無監督指低層訓練

機器學習(西瓜書) 參考答案 總目錄

機器學習(周志華西瓜書)參考答案總目錄 從剛開始學習機器學習到現在也有幾個月了,期間看過PDF,上過MOOC,總感覺知道一點了又不是特別明白,最後趁某東買書大減價弄了幾本相關的書來看看,其中一本就是西瓜書。一口氣看了前10章,感覺每章內容都很少,看完感覺還是和以前一樣。

機器學習) ()課後答案(歡迎探討)

作為一個初學者,嘗試著去寫作業,並對答案做個整理附錄。 這裡是第八章。 整合學習8.1 假設拋硬幣正面朝上的概率為p , 反面朝上的概率為 1-p.  令H(n)代表拋n次硬幣所得正面朝上的次數,則最多k次正面朝上的概率為   (典型的二項分佈 對小於等於k 的 做累加和) 

機器學習(西瓜書) 參考答案 總目錄 轉載至https://blog.csdn.net/icefire_tyh/article/details/52064910

機器學習(周志華西瓜書)參考答案總目錄 從剛開始學習機器學習到現在也有幾個月了,期間看過PDF,上過MOOC,總感覺知道一點了又不是特別明白,最後趁某東買書大減價弄了幾本相關的書來看看,其中一本就是西瓜書。一口氣看了前10章,感覺每章內容都很少,看完感覺還是和

西瓜書 16 強化學習(習題答案)(轉)

  原文轉自: https://blog.csdn.net/icefire_tyh/article/details/53691569                  

機器學習--課後習題答案5.5

5.5 試程式設計實現標準BP演算法和累計BP演算法,在西瓜資料集3.0上分別用這兩個演算法訓練一個單隱層網路,並進行比較。 通過程式設計實踐發現,在本例下要達到某一限定的均方誤差時,標準BP演算法比累積BP演算法明顯收斂更快,特別在本例中,將ABP演算法誤差設定到0.0

機器學習--1

第1章 緒論 符號學習--->統計機器學習 機器學習中代數一般是作為基礎工具來使用 總結:出頭露面的是概率和統計,埋頭苦幹的是代數和邏輯。 機器學習是關於在計算機上從資料中產生“模型”的演算法,即學習演算法。 學得模型對應了關於資料的某種潛在的規律,因此亦稱“假設”。這

機器學習)》——6 支援向量機

1、間隔與支援向量 (1)分類學習的最基本思想就是:基於訓練集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。 (2)在樣本空間中,用線性方程來表示劃分超平面:ωTx + b = 0 ;其中ω = (ω1;ω2; … ; ωd)為法向量,決定超平面內的方向;b

機器學習--課後習題答案-線性模型

3.1試分析在什麼情況下,在以下式子中不比考慮偏置項b。答:線上性迴歸中,所有引數的確定都是為了讓殘差項的均值為0且殘差項的平方和最小。在所有其他引數項確定後,偏置項b(或者說是常數項)的變化體現出來的就是擬合曲線的上下整體浮動,可以看做是其他各個解釋變數留下的bias的線性

機器學習----課後習題3.3答案

LR實現,訓練集和測試集都是書上給的西瓜資料集3.0α,用keras實現程式碼如下: # coding: utf-8 """ 使用keras實現logistic分類器 """ import os import gzip import urllib im

機器學習-,習題1.1,答案探究

1.1版本空間 1.2 感覺上,可能的假設應當就是不同的版本空間,則對應瞭如圖1.2的3種版本空間 1.3 看不懂題目意思。設定閾值,或者排除異類後,按優先順序具有偏好。 1.4 不能理解,等回過頭來再看這題吧。

機器學習--筆記 CNN

Chapter 5 神經網路-機器學習-周志華 5.1神經元模型 神經網路:具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所作出的互動反應。 神經元模