機器學習 周志華 第一章習題
1.表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。
假設資料集有n種屬性,第i個屬性可能的取值有ti種,加上該屬性的泛化取值(*),所以可能的假設有
再用空集表示沒有正例,假設空間中一共
現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
版本空間的可以通過搜尋假設空間來得到,這樣需要遍歷完整的假設空間。如果資料集中有正例,則可以先對一個正例進行最大泛化,得到2n個假設,然後再對這些假設進行剔除操作,可以適當精簡計算量。
西瓜資料集(精簡)
編號 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
---|---|---|---|---|
1 | 青綠 | 蜷縮 | 濁響 | 是 |
2 | 烏黑 | 稍蜷 | 沉悶 | 否 |
資料集有3個屬性,每個屬性2種取值,一共 3∗3∗3+1=28種假設,分別為
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響 2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶 3.色澤=青綠 根蒂=稍蜷 敲聲=濁響 4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶 5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響 6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶 7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響 8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶 9.色澤=青綠 根蒂=蜷縮 敲聲=\* 10.色澤=青綠 根蒂=稍蜷 敲聲=\* 11.色澤=烏黑 根蒂=蜷縮 敲聲=\* 12.色澤=烏黑 根蒂=稍蜷 敲聲=\* 13.色澤=青綠 根蒂=\* 敲聲=濁響 14.色澤=青綠 根蒂=\* 敲聲=沉悶 15.色澤=烏黑 根蒂=\* 敲聲=濁響 16.色澤=烏黑 根蒂=\* 敲聲=沉悶 17.色澤=\* 根蒂=蜷縮 敲聲=濁響 18.色澤=\* 根蒂=蜷縮 敲聲=沉悶 19.色澤=\* 根蒂=稍蜷 敲聲=濁響 20.色澤=\* 根蒂=稍蜷 敲聲=沉悶 21.色澤=青綠 根蒂=\* 敲聲=\* 22.色澤=烏黑 根蒂=\* 敲聲=\* 23.色澤=\* 根蒂=蜷縮 敲聲=\* 24.色澤=\* 根蒂=稍蜷 敲聲=\* 25.色澤=\* 根蒂=\* 敲聲=濁響 26.色澤=\* 根蒂=\* 敲聲=沉悶 27.色澤=\* 根蒂=\* 敲聲=\* 28.空集Ø
編號1的資料可以刪除 2−8,10−12,14−16,18−20,22,24,26,28(不包含資料1)
編號1的資料可以刪除 27(包含了資料2)
所以樣本空間為:
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
9.色澤=青綠 根蒂=蜷縮 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮 敲聲=濁響
21.色澤=青綠 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
2.與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。
樣本空間包含4個樣例,3種屬性,假設空間中有3∗4∗4+1=49種假設。故共有
3.若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇
可使用計算方法中矛盾方程組解法。
4.本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐”定理仍成立
其中
5.試述機器學習在網際網路搜尋的哪些環節起什麼作用
- 推薦系統
- 相似圖片搜尋
- 檔案檢索