臺大林軒田機器學習課程筆記4----訓練 VS. 測試
引言
上一篇講到了在有限的hypotheses下,學習錯誤的發生率,即E_in與E_out不同的概率邊界,本篇將會探討在infinite hypotheses情況下的概率邊界。
線的有效數字(Effective Number of Lines)
我們先將學習劃分為兩個核心的問題,即
圖4.1
設M代表H的大小,對M與上述兩個問題之間的關係有如下的結論
圖4.2
當M很小的時候,E_in與E_out非常接近,但是由於M很小,所以可供選擇的假設空間很小,則E_in不一定很小;而大的M則與之相反。根據Hoeffding Inequality:
圖4.3
圖4.4
圖4.4所展示的是在m個假設空間下的概率邊界求解過程,B1~Bm表示m個事件,當m無限大時,是否可以找到一個值來替換圖4.3的M?
<圖4.5>
再來看上圖,B1,B2和B3代表了三個近乎重疊的事件,如果按照圖4.4將其union bound,則我們又多增加了重疊部分的資訊,即會出現over-estimating。這個示例要說明的是,我們在推導有限個H的概率邊界時忽略瞭如hypotheses重疊的情況導致邊界變大以致於我們無法估計無限大的事情。這裡利用分類的方式來解決上述問題。
圖4.6
我們利用二維空間的線性分類來舉例,如圖4.6,最終得到當有N個點時,最多可劃2^N$條線。
圖4.7
上圖定義了effective number of lines,即對於N個輸入得到的有限的線,結合上例,即effective(N)=2^N$,將其普遍的形式代入Hoeffding Inequality,得到
圖4.8
在上述具體的示例中,不等式右邊當N無窮大時趨於0,則代表學習錯誤的概率近似為0。
假設的有效數字(Effective Number of Hypotheses)
圖4.9
先來引入dichotomies的概念。它本質上其實是2分法,例如對於一個二維平面,可以通過假設H,即直線將其中的圈和叉分開,最後所分成的所有集合組成了dichotomies H(x1,x2,…,xN)。H有可能是無限的,而dichotomies H因其總共有N個點,每個點都只有兩種劃分方法,所以最大的邊界為2^N$。所以我們接下來用dichotomies的大小來取代H。
圖4.10
為了消除dechotomies對X的依賴,我們定義成長函式mH(N)作為所有假設中dechotomies的最大值。
接下來引入shatter的定義。一資料集D被假設空間H打散(shatter),當且僅當對D的每個劃分,存在H中的某假設與此劃分一致(即當D的每種可能劃分可由H中的某個假設來表達時,稱H打散D)。注意如果一個數據集合沒有被假設空間打散,那麼必然存在某種劃分可被定義在資料集中,但不能由假設空間表示。H的這種打散資料集合的能力是其在這些資料上定義目標函式的表示能力的度量。可以說被打散的X的子集越大,H的表示能力越強。
斷點(Break Point)
成長函式中的break point其實就是第一個無法被shatter的點的數量,例如二維平面線性劃分問題,當輸入四個點時,理應得到16種集合,但是卻是14種,於是這一類問題的break point為4。
圖4.11