1. 程式人生 > >《機器學習》 周志華學習筆記第一章 緒論(課後習題)

《機器學習》 周志華學習筆記第一章 緒論(課後習題)

最近需要學習機器學習,有一點點基礎但是很少,希望能通過寫部落格的方式和大家交流以及學習達到共同進步的目的。

緒論 :

一、內容

1.基本術語

2.假設空間與版本空間

3.歸納偏好(常用的有奧卡姆剃刀) 沒有免費的午餐定理(No Free Lunch Theorem,NFL,前提建設f均勻分佈)式(1.2)顯示總誤差竟然與學習演算法無關!告訴我們要談論演算法的相對優劣,必須要針對具體的學習問題。學習演算法自身的歸納偏好與問題是否匹配,往往會起到決定性的作用!

二、課後答案:

1、表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。

首先求出這個問題的假設空間。資料集有3個屬性,每個屬性2種取值,加上可能取所有值都合適,‘*’,以及可能所有瓜都不是好瓜的取值空值,一共 3∗3∗3+1=28種假設,分別為

1.色澤=青綠 根蒂=蜷縮 敲聲=濁響

2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶

3.色澤=青綠 根蒂=稍蜷 敲聲=濁響

4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶

5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響

6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶

7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響

8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶

9.色澤=青綠 根蒂=蜷縮 敲聲=*

10.色澤=青綠 根蒂=稍蜷 敲聲=*

11.色澤=烏黑 根蒂=蜷縮 敲聲=*

12.色澤=烏黑 根蒂=稍蜷 敲聲=*

13.色澤=青綠 根蒂=* 敲聲=濁響

14.色澤=青綠 根蒂=* 敲聲=沉悶

15.色澤=烏黑 根蒂=* 敲聲=濁響

16.色澤=烏黑 根蒂=* 敲聲=沉悶

17.色澤=* 根蒂=蜷縮 敲聲=濁響

18.色澤=* 根蒂=蜷縮 敲聲=沉悶

19.色澤=* 根蒂=稍蜷 敲聲=濁響

20.色澤=* 根蒂=稍蜷 敲聲=沉悶

21.色澤=青綠 根蒂=* 敲聲=*

22.色澤=烏黑 根蒂=* 敲聲=*

23.色澤=* 根蒂=蜷縮 敲聲=*

24.色澤=* 根蒂=稍蜷 敲聲=*

25.色澤=* 根蒂=* 敲聲=濁響

26.色澤=* 根蒂=* 敲聲=沉悶

27.色澤=* 根蒂=* 敲聲=*

28.空集Ø 

版本空間是與訓練集一致的假設集合,因此我們根據資料1,4分別對假設空間中的假設進行搜尋,搜尋過程不斷刪除與正例不一致的假設,和與反例一致的假設。最終獲得與訓練集一致的假設即可。

得到的版本空間如下:

1.色澤=青綠 根蒂=蜷縮 敲聲=濁響

9.色澤=青綠 根蒂=蜷縮 敲聲=*

13.色澤=青綠 根蒂=* 敲聲=濁響

17.色澤=* 根蒂=蜷縮 敲聲=濁響

21.色澤=青綠 根蒂=* 敲聲=*

23.色澤=* 根蒂=蜷縮 敲聲=*

25.色澤=* 根蒂=* 敲聲=濁響 

2、與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設

這個也是參考了其他人的答案,沒有看明白,有興趣的同學可以去頁面底部檢視連結文章。

3、若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇

通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。

4、本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐”定理仍成立

考慮二分類問題,真實目標函式可以是任何函式X->{0, 1},函式空間為2的|X|平方,對所有的可能的f按均勻分佈對誤差求和,對l(f(x), h(x))求和是一個常數,所有最後結果與(1.2)除前邊的常數外其他一樣。我覺得這個定理最重要的就是要明白前提f滿足均勻分佈。

5.試述機器學習在網際網路搜尋的哪些環節起什麼作用

1.訊息推送,相關推薦

2.分類搜尋

相關推薦

機器學習學習筆記第一 緒論課後習題

最近需要學習機器學習,有一點點基礎但是很少,希望能通過寫部落格的方式和大家交流以及學習達到共同進步的目的。 緒論 : 一、內容 1.基本術語 2.假設空間與版本空間 3.歸納偏好(常用的有奧卡姆剃刀) 沒有免費的午餐定理(No Free Lunch Theorem,

機器學習() 參考答案 第一 緒論

機器學習(周志華) 參考答案 第一章 緒論 機器學習(周志華西瓜書) 參考答案 總目錄 1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。 假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜索的過程,

機器學習() 參考答案 第一 緒論 1.2

機器學習(周志華) 參考答案 第一章 緒論 1.2 機器學習(周志華西瓜書) 參考答案 總目錄 機器學習(周志華) 參考答案 第一章 緒論 2.與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用

()讀書筆記 -- 第一 緒論

“ 下面我們來構造一個“假設空間”: 比如說選擇配偶時我們有以下幾個指標—— 體型(肥胖,勻稱,過瘦) 財富(富有,一般,貧窮) 性別(同性,異性)//我這什麼腦洞啊 現在我們要構建一個合適的假設空間來構建一個擇偶觀: 體型來說有肥胖均勻和過瘦三種,也有可能價值觀裡認為這個無關緊要,所以有四種

機器學習() 參考答案 第二 模型評估與選擇

機器學習(周志華) 參考答案 第二章 模型評估與選擇 機器學習(周志華西瓜書) 參考答案 總目錄 1.資料集包含1000個樣本,其中500個正例,500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種

()讀書筆記 -- 第二 模型評估與選擇

隨手記下所學知識,很多圖表來自原書,僅供學習使用! 2.1  經驗誤差與過擬合 通常,我們使用"錯誤率"來表示分類中錯誤的樣本佔總樣本的比例.如果m個樣本中有a個錯誤樣本則錯誤率E=a/m ,對應的,

作業系統第一——概論課後習題解答

1. 設計現代OS的主要目標是什麼? 2. OS的作用可表現在哪幾個方面? 3. 為什麼說作業系統實現了對計算機資源的抽象? 4. 試說明推動多道批處理系統形成和發展的主要動力是什麼? 5. 何謂離線I/O和聯機I/O 6. 試說明推動分時系統形成和發展的主要動

機器學習--第一

緒論 1.1 引言 什麼是機器學習? 它是一門致力於研究如何通過計算的手段,利用經驗來改善系統自身效能的一門學科。所研究的主要內容是計算機如何通過資料產生模型,即學習演算法。有了學習演算法後,當我們給它提供經驗資料時就能基於這些資料產生模型。在面對新資料時學習演算法會給我們相應的判斷。經驗通常以資料的形

機器學習-西瓜書》--學習筆記系列1--序言、前言和主要符號表

寫在前面的話: 自己於今天(2018年9月4日)看完了機器學習-西瓜書-周志華-清華大學出版社書籍,對於這本書的評價就是:好書,自己可以在每一個字裡行間感受到作者的用心,每當看到一個不懂的名詞的時候,作者都會用通俗的例子來講解,遇到公式的時候,也會進行推導,側邊欄的一些說明資訊往往能帶給自己

機器學習學習筆記第四 決策樹課後習題python 實現

一、基本內容 1.基本流程 決策樹的生成過程是一個遞迴過程,有三種情形會導致遞迴返回 (1)當前節點包含的yangben全屬於同一類別,無需劃分; (2)當前屬性集為空,或是所有yangben在所有屬性上的取值相同,無法劃分; (3)當前結點包含的yangben集合為空,不能

機器學習學習筆記第三 線性模型課後習題python 實現

線性模型 一、內容 1.基本形式 2.線性迴歸:均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸:對數機率函式(logistic function)對率函式是任意階可導的凸函式,這是非常重要的性質。 4.線性判別分析(LDA 是一種降維的方法) 5.多分類學習:

機器學習學習筆記第八 整合學習課後習題python實現

  1.個體與整合 1.1同質整合 1.2異質整合 2.boosting:代表AdaBoost演算法 3.Bagging與隨機森林 3.1Bagging 是並行式整合學習方法最著名的代表(基於自主取樣法bootstrap sampling) 自己學習時編寫了

機器學習學習筆記第六 支援向量機課後習題python 實現

一、 1.間隔與支援向量 2.對偶問題 3.核函式 xi與xj在特徵空間的內積等於他們在原始yangben空間中通過函式k(.,.)計算的結果。 核矩陣K總是半正定的。 4.軟間隔與正則化 軟間隔允許某些samples不滿足約束  鬆弛變數 5.支援

機器學習學習筆記第五 神經網路課後習題 python實現

1.神經元模型 2.感知機與多層網路 3.誤差逆傳播演算法 (A)BP演算法:最小化訓練集D上的累積誤差 標準BP演算法:更新規則基於單個Ek推導而得 兩種策略防止過擬合:(1)早停(通過驗證集來判斷,訓練集誤差降低,驗證集誤差升高)(2) 正則化:在誤差目標函式中引入描述網

機器學習學習筆記第七 貝葉斯分類器課後習題python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。 好瓜有8個,壞瓜有9個 屬性色澤,根蒂,敲聲,因為是離散屬性,根據公式(7.17) P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

機器學習學習筆記第十四 概率圖模型課後習題python實現

一、基本內容 1.隱馬爾可夫模型 1.1. 假定所有關心的變數集合為Y,可觀測變數集合為O,其他變數集合為R, 生成式模型考慮聯合分佈P(Y,R,O),判別式模型考慮條件分佈P(Y,R|O),給定一組觀測變數值,推斷就是要由P(Y,R,O)或者P(Y,R|O)得到條件概率分佈P(Y,

機器學習 筆記

已經發布部落格   ************************************************************ 周志華教授 機器學習教材總結 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已 問題總結: 生成式模型

機器學習 讀書筆記2原創

第2章 模型評估與選擇 p24-p51  2017-2-24 Fri Model selection模型選擇:選用哪種學習演算法、使用哪種引數配置 (理想的解決方案:對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型) (通過實驗來對學習器的泛化誤差進行評估並進而做

機器學習 讀書筆記1原創

第1章 p1-p23  2017-2-20 Mon 模型:泛指從資料中學得的結果 Instance示例(或sample樣本):每條記錄的資料。每條記錄是關於一個事件或物件的描述。 Data set資料集:記錄資料的集合 Attribute屬性(或feature特徵):反映事

學習筆記 | 機器學習- | 5

第二章 模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ,即如果在 m 個樣本中有 α 個樣本分類錯誤,則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ,即"精度 =1 - 錯誤率" 更一般地,