1. 程式人生 > >機器學習(周志華版)學習筆記(三)歸納偏好

機器學習(周志華版)學習筆記(三)歸納偏好

定義:機器學習演算法在學習過程中對某種型別假設的偏好。

每種演算法必有其歸納偏好否則它將被假設空間中看似在訓練集上“等效”的假設所迷惑無法產生確定的學習結果

例子理解

編號

色澤

根蒂

敲聲

好瓜

1

青綠

蜷縮

濁響

2

烏黑

蜷縮

濁響

3

青綠

硬挺

清脆

4

烏黑

稍蜷

沉悶

西瓜的好壞到底取決於三種特徵的哪一種或幾種根據編號1和2可以假設的影響因素為

1.根蒂+敲聲

2.根蒂

3.敲聲

如果沒有歸納偏好,擇無法確定具體的影響好瓜的特徵,如果一個測試用例為烏黑、蜷縮、清脆則不確定採取以上三種那種方式進行判斷:可能用1判斷為壞瓜,可能用2判斷為好瓜,可能用3判斷為壞瓜

假設歸納偏好為2,則直接判斷該瓜(烏黑、蜷縮、清脆)為好瓜。

奧卡姆剃刀(歸納偏好原理):

若有多個假設與觀察一致,則選擇最簡單的那個。哪個才是最簡單的呢,這就需要對應不同的演算法,所以引出了問題,哪種演算法才是最好的呢?

NFL(沒有免費的午餐)原則:

假設的誤差與學習演算法無關!學習演算法沒有好壞之分,不能脫離具體問題,要根據實際問題選取相應的學習演算法

證明過程:


(3) 式:由於假設“真實目標函式對所有可能的 f 均勻分佈”,故對所有 f 求和後,任意假設 h 的準確率期望為一半。又由於 1 在正確時取 1 反之為 0,故(2) 式末尾對 f 的求和得到的值為假設空間個數的一半,即得 (3) 式。 

(5) 式:即簡單的概率求和,P(h|X,a) 對 h 求和當然就是 1了。還不理解的話?其實就是 P(A|B) 對 A 求和的形式。 

可知演算法a和演算法b的誤差是相同的