1. 程式人生 > >機器學習 周志華 第一章習題

機器學習 周志華 第一章習題

1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。

假設資料集有n種屬性,第i個屬性可能的取值有ti種,加上該屬性的泛化取值(*),所以可能的假設有
_i(t_i+1)
再用空集表示沒有正例,假設空間中一共 i(ti+1)+1 種假設。
現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
版本空間的可以通過搜尋假設空間來得到,這樣需要遍歷完整的假設空間。如果資料集中有正例,則可以先對一個正例進行最大泛化,得到2n個假設,然後再對這些假設進行剔除操作,可以適當精簡計算量。
西瓜資料集(精簡)

編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
2 烏黑 稍蜷 沉悶

資料集有3個屬性,每個屬性2種取值,一共 3∗3∗3+1=28種假設,分別為

1.色澤=青綠 根蒂=蜷縮 敲聲=濁響  
2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶  
3.色澤=青綠 根蒂=稍蜷 敲聲=濁響  
4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶  
5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響  
6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶  
7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響  
8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶  
9.色澤=青綠 根蒂=蜷縮 敲聲=\*  
10.色澤=青綠 根蒂=稍蜷 敲聲=\*  
11.色澤=烏黑 根蒂=蜷縮 敲聲=\*  
12.色澤=烏黑 根蒂=稍蜷 敲聲=\*  
13.色澤=青綠 根蒂=\* 敲聲=濁響  
14.色澤=青綠 根蒂=\* 敲聲=沉悶  
15.色澤=烏黑 根蒂=\* 敲聲=濁響  
16.色澤=烏黑 根蒂=\* 敲聲=沉悶  
17.色澤=\* 根蒂=蜷縮 敲聲=濁響  
18.色澤=\* 根蒂=蜷縮 敲聲=沉悶  
19.色澤=\* 根蒂=稍蜷 敲聲=濁響  
20.色澤=\* 根蒂=稍蜷 敲聲=沉悶  
21.色澤=青綠 根蒂=\* 敲聲=\*  
22.色澤=烏黑 根蒂=\* 敲聲=\*  
23.色澤=\* 根蒂=蜷縮 敲聲=\*  
24.色澤=\* 根蒂=稍蜷 敲聲=\*  
25.色澤=\* 根蒂=\* 敲聲=濁響  
26.色澤=\* 根蒂=\* 敲聲=沉悶  
27.色澤=\* 根蒂=\* 敲聲=\*  
28.空集Ø  

編號1的資料可以刪除 2−8,10−12,14−16,18−20,22,24,26,28(不包含資料1)
編號1的資料可以刪除 27(包含了資料2)
所以樣本空間為:
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
9.色澤=青綠 根蒂=蜷縮 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮 敲聲=濁響
21.色澤=青綠 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響

2.與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

樣本空間包含4個樣例,3種屬性,假設空間中有3∗4∗4+1=49種假設。故共有 Ck49 種可能的析合正規化。

3.若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇

可使用計算方法中矛盾方程組解法。

4.本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐”定理仍成立

E_ote(£_a|X,f)=_h_xχXP(χ)A(h(x),f(x))P(h|X,£_a)
其中 A(h(x),f(x)) 為效能度量函式,可見 A(h(x),f(x)) 只與真實目標函式f和假設h有關,而和演算法產生假設h的概率無關,故對於不同演算法依然有 _fE_ote(£_a|X,f)=_fE_ote(£_b|X,f)
Q.E.D

5.試述機器學習在網際網路搜尋的哪些環節起什麼作用

  1. 推薦系統
  2. 相似圖片搜尋
  3. 檔案檢索