1. 程式人生 > >機器學習基石筆記:04 Feasibility of Learning

機器學習基石筆記:04 Feasibility of Learning

機器學習是設計演算法\(A\),在假設集合\(H\)裡,根據給定資料集\(D\),選出與實際模式\(f\)最為相近的假設\(g\)\(g\)可能與\(f\)相同,也可能不同)。
那什麼情況下學習是可行的?即保證\(g\)\(f\)是相似的。

  1. 資料集內的表現\(g\)約等於\(f\);
  2. \(g\)在資料集外的表現約等於\(g\)在資料集內的表現。

結合1、2可保證,由演算法在給定資料集上學習到的\(g\)(即資料集內的表現\(g\)約等於\(f\))在資料集外的表現也約等於\(f\),即\(g\)\(f\)相似。

一、如何保證2?

資料集內表現相同的多個假設在資料集外的部分資料上表現相差極大,即學習效果極差。
image


霍夫丁不等式:有一個裝有綠色小球和橘色小球的罐子(假設球數無限),從中進行\(N\)次有放回的取球實驗,在這\(N\)次實驗中取出橘色小球的頻率為\(\nu\),只要\(N\)足夠大,就可以用\(\nu\)來估計\(\mu\)即罐子中橘色小球的實際概率。
image
image
將霍夫丁不等式與學習相聯絡,當\(h\)選定時,只要\(D\)裡樣本數\(N\)足夠大且樣本點獨立同分布,就能保證\(h\)在整個輸入空間裡的表現(異常點的概率)與資料集內的表現(\(D\)裡異常點的頻率)在一定的概率範圍內近似相等。
image
注意,\(E_{out}(h)\)實際是面向整個輸入空間的,即資料集\(D\)內和資料集\(D\)外。
image

image

二、如何保證1?

\(A\)根據\(D\)\(H\)中選出使得\(E_{in}(h)\)小的\(h\)
image
注意,2的保證是在給定\(h\)的情況下,即\(h\)的選擇只有1個。
但是,1的保證需要在\(H\)中進行選擇,如果\(H\)\(size>1\),即\(h\)有很多個,可能有限也可能無限,那麼2的保證是否會受到影響呢?
壞資料:對於一個\(h\),使得\(h\)在該資料內外表現差異很大的資料認為是壞資料。
可以理解為霍夫丁不等式的左式中概率衡量的事件:\(E_{in}(h)\)\(E_{out}(h)\)的差異大於容忍度\(\epsilon\),即對於一個\(h\)

,存在壞資料的概率小於等於霍夫丁的右式。
對於一個輸入空間\(X\),能夠產生的用於訓練的資料\(D\)有很多個,若對於一個\(h\),給定的資料剛好就是壞資料的概率是小於等於霍夫丁的右式的;若有\(M\)\(h\),給定的資料是其中某個\(h\)的壞資料的概率是小於等於資料為\(h_1\)的壞資料的概率+資料為\(h_2\)的壞資料的概率+資料為\(h_3\)的壞資料的概率+......+資料為\(h_M\)的壞資料的概率。本質是求並集(小於等於的原因是有可能存在交集)。這裡的\(M\)實際是\(|H|\),即\(H\)\(size\)
image
image
只要\(M\)是有限值、\(N\)足夠大,不等式的右式就能足夠小。
所以,
只要假設集大小有限、\(N\)足夠大------保證\(E_{in}\)\(E_{out}\)的差異在容忍度內,
\(A\)根據\(D\)\(H\)中挑選出\(g\)------保證\(E_{in}\)小,
就能說學習是PAC可能的。
image
但是,如果輸入空間\(X\)是無限的,那理論上對應的\(H\)的數量也是無限的,即當\(|H|\)無限大時,該怎麼辦呢?