1. 程式人生 > >機器學習(周志華) 參考答案 第一章 緒論

機器學習(周志華) 參考答案 第一章 緒論

機器學習(周志華) 參考答案 第一章 緒論

機器學習(周志華西瓜書) 參考答案 總目錄

1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。

假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜索的過程,搜尋目標是尋找與訓練集“匹配”的假設。

假設資料集有n種屬性,第i個屬性可能的取值有ti種,加上該屬性的泛化取值(*),所以可能的假設有i(ti+1)。再用空集表示沒有正例,假設空間中一共i(ti+1)+1種假設。
現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
版本空間的可以通過搜尋假設空間來得到,這樣需要遍歷完整的假設空間。如果資料集中有正例,則可以先對一個正例進行最大泛化,得到

2n個假設,然後再對這些假設進行剔除操作,可以適當精簡計算量。
西瓜資料集(精簡)

編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
2 烏黑 稍蜷 沉悶

資料集有3個屬性,每個屬性2種取值,一共 333+1=28種假設,分別為

  • 1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
  • 2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶
  • 3.色澤=青綠 根蒂=稍蜷 敲聲=濁響
  • 4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶
  • 5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響
  • 6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶
  • 7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響
  • 8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶
  • 9.色澤=青綠 根蒂=蜷縮 敲聲=*
  • 10.色澤=青綠 根蒂=稍蜷 敲聲=*
  • 11.色澤=烏黑 根蒂=蜷縮 敲聲=*
  • 12.色澤=烏黑 根蒂=稍蜷 敲聲=*
  • 13.色澤=青綠 根蒂=* 敲聲=濁響
  • 14.色澤=青綠 根蒂=* 敲聲=沉悶
  • 15.色澤=烏黑 根蒂=* 敲聲=濁響
  • 16.色澤=烏黑 根蒂=* 敲聲=沉悶
  • 17.色澤=* 根蒂=蜷縮 敲聲=濁響
  • 18.色澤=* 根蒂=蜷縮 敲聲=沉悶
  • 19.色澤=* 根蒂=稍蜷 敲聲=濁響
  • 20.色澤=* 根蒂=稍蜷 敲聲=沉悶
  • 21.色澤=青綠 根蒂=* 敲聲=*
  • 22.色澤=烏黑 根蒂=* 敲聲=*
  • 23.色澤=* 根蒂=蜷縮 敲聲=*
  • 24.色澤=* 根蒂=稍蜷 敲聲=*
  • 25.色澤=* 根蒂=* 敲聲=濁響
  • 26.色澤=* 根蒂=* 敲聲=沉悶
  • 27.色澤=* 根蒂=* 敲聲=*
  • 28.空集Ø
    編號1的資料可以刪除 2810121416182022242628(不包含資料1)
    編號1的資料可以刪除 27(包含了資料2)
    所以版本空間為:
  • 1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
  • 9.色澤=青綠 根蒂=蜷縮 敲聲=*
  • 13.色澤=青綠 根蒂=* 敲聲=濁響
  • 17.色澤=* 根蒂=蜷縮 敲聲=濁響
  • 21.色澤=青綠 根蒂=* 敲聲=*
  • 23.色澤=* 根蒂=蜷縮 敲聲=*
  • 25.色澤=* 根蒂=* 敲聲=濁響
    一般情況下版本空間是正例的泛化,但由於資料集中只有1個正例,所以在版本空間中依然包含了這個樣本的假設(假設1)。

2.與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

3.若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇

通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。

4.本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐”定理仍成立

還是考慮二分類問題,NFL首先要保證真是目標函式f均勻分佈,對於有X個樣本的二分類問題,顯然f共有2X種情況。其中一半是與假設一致的,也就 P(f(x)=h(x))=0.5
此時, fl(h(x),f(x))=0.52X(l(h(x)=f(x))+l(h(x)f(x)))
l(h(x)=f(x))+l(h(x)f(x))應該是個常數,隱含的條件就該是(一個比較合理的充分條件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不滿足, NFL 應該就不成立了(或者不那麼容易證明)。

5.試述機器學習在網際網路搜尋的哪些環節起什麼作用

1.最常見的,訊息推送,比如某東經常說某些商品我可能會感興趣,然而並沒有。
2.網站相關度排行,通過點選量,網頁內容進行綜合分析。
3.圖片搜尋,現在大部分還是通過標籤來搜尋,不過基於畫素的搜尋也總會有的吧。