1. 程式人生 > >西瓜書課後答案Chapter1

西瓜書課後答案Chapter1

1.1求版本空間

首先看版本空間的定義,這篇文章寫的很好

http://blog.csdn.net/qq_18433441/article/details/55682732

概況說來,版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。

現在只有西瓜1和西瓜4兩個樣本:
西瓜1((色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜))為正例,找到假設空間中和它一致的假設:1,2,4,7,10,16,22,31
西瓜4((色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)為反例,找到假設空間中和它一致的假設:1,3,6,9,15,21,30,48
從西瓜1的結果,去除西瓜4的結果,得到版本空間:2,4,7,10,16,22,31


1.2與使用單個合取式來進行假設表示相比,使用“析合正規化”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

http://blog.csdn.net/icefire_tyh/article/details/52065626

1.3.若資料包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇


通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。


1.4.本章1.4節在論述“沒有免費的午餐”定理時,預設使用了“分類錯誤率”作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐”定理仍成立


還是考慮二分類問題,NFL首先要保證真是目標函式f均勻分佈,對於有X個樣本的二分類問題,顯然f共有2X種情況。其中一半是與假設一致的,也就 P(f(x)=h(x))=0.5。
此時, ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))應該是個常數,隱含的條件就該是(一個比較合理的充分條件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不滿足, NFL 應該就不成立了(或者不那麼容易證明)。


1.5.試述機器學習在網際網路搜尋的哪些環節起什麼作用


1.訊息推送。比如當我搜索“機器學習”之後,再開啟某些網頁的時候,會推送有關機器學習培訓的廣告
2.網站相關度排行,通過點選量,網頁內容進行綜合分析。
3.圖片搜尋,現在大部分還是通過標籤來搜尋,不過基於畫素的搜尋也總會有的吧。