1. 程式人生 > >【機器學習 吳恩達】CS229課程筆記notes4翻譯-Part VI學習理論

【機器學習 吳恩達】CS229課程筆記notes4翻譯-Part VI學習理論

CS229課程筆記

吳恩達

Part VI 學習理論
1 偏差/方差權衡
        當我們談論線性迴歸,我們討論它是否擬合一個簡單的模型,比如線性模型“y=θ0+θ1x”,或者更復雜的模型,比如多項式模型“y=θ0+θ1x+θ2x2+θ3x3+θ4x4+θ5x5”。見下例。

        擬合一個5階的多項式(最右圖)不會得到一個好的模型,即使5階的多項式由訓練集中的x(即,居住面積)到y(即,房屋價格)預測的很好,我們也不認為當房屋價格不在訓練集中時,它會預測的很好。換句話說,訓練集中學習到的東西對其他房屋並不具有一般化。對於訓練集中的樣本,假設的泛化誤差是我們不想要的誤差。
        上面的最左圖和最右圖都有很大的泛化誤差,然而,兩個模型非常不同。如果y和x之間的關係不是線性的,即使我們對一個非常大的訓練資料擬合了一個線性模型,這個線性模型仍然不能準確地捕獲資料中的結構。非正式地,我們定義一個模型的偏差bias為泛化誤差,即使我們使用的是一個非常大的(或者無限大的)訓練集來擬合。因此,對於上面的問題,線性模型有一個很大的偏差,導致對資料的欠擬合。
        除了偏差,泛化誤差有第二個元件,即模型擬合過程的方差。特別地,在最右圖中擬合一個5階的多項式時,有很大可能是因為我們是在一個小的有限的訓練集上擬合數據,並不反映x和y之間的廣泛關係,這可能是因為訓練集中的資料可能碰巧比平均值稍貴,或者碰巧比平均值稍便宜。通過擬合這些訓練集中不合理的模式,我們又會獲得一個具有較大泛化誤差的模型,我們說這時的模型擁有大的方差。
        通常,偏差和方差之間有一個權衡。如果我們的模型太簡單,有很少的引數,它可能有大的偏差(但是小的方差),如果模型太複雜,有很多引數,它可能有大的方差(但是小的偏差)。在上面的例子中,擬合一個二次函式比1階或5階多項式更好。

2 準備工作
        在這份筆記中,我們從學習理論開始。我們將尋求一些問題的答案:首先,我們會做出正式的偏差/方差權衡嗎?我們將討論模型的選擇方法,自動地決定用幾階多項式擬合一個訓練集。第二,在機器學習中我們關心泛化誤差,但絕大多數學習演算法都能夠將模型擬合到訓練集。我們應該將訓練集上的誤差與泛化誤差相關嗎?最後,在哪些條件下我們可以證明學習演算法工作的很好?
        我們用兩個簡單但非常有用的引理開始。
        引理1(聯合邊界引理)讓A1,A2,…,Ak是k個不同的事件(可能不獨立)。那麼

P(A1∪···∪Ak)≤P(A1)+···P(Ak)

        在概率論中,聯合邊界引理通常認為是一個公理(不需要證明),但我們也有直觀的感覺:k個事件中的任何一個發生的概率最多是k個不同事件的概率和。
        引理2(霍芬不等式)讓Z1,…,Zm是m個獨立且獨立同分布的隨機變數,服從伯努利分佈。例如,P(Zi=1)=φ,P(Zi=0)=1-φ。讓

為這些隨機變數的平均值,讓任何γ>0為固定值。然後,

        該引理(在學習理論中叫做霍芬不等式)表明,如果我們取為m個伯努利隨機變數的平均值——是我們對φ的估計,那麼我們離開真值的概率很小,只要m很大。其他方式,如果你有一個有偏差的硬幣,落在你頭上的機會為φ,如果你投擲硬幣m次,計算它落在頭上的次數,這很大程度上將是φ的一個很好的估計(如果m很大)。
        使用這兩個引理,我們將能夠證明一些學習理論中最深的和最重要的結果。
        為了簡化我們的闡述,讓我們將我們的注意力集中到二值分類問題上,標籤是y∈{0,1}。我們這裡將說的一切都具有一般意義,包括迴歸和多類別分類問題。
        我們假定給定大小為m的訓練集S={(x(i),y(i));i=1,…,m},訓練樣本(x(i),y(i))服從概率分佈D。對於假設h,我們定義訓練誤差(也叫做學習理論中的經驗風險或經驗誤差)為

        這只是h個誤分類訓練樣本中的一部分。當我們想要在訓練集S上做出明確的依賴,我們可以寫為。我們定義泛化誤差為

        例如,如果我們從分佈D得到一個新的樣本(x,y),ε(h)是h對該樣本誤分類的概率。
        注意,我們假定訓練資料服從相同的分佈D,我們將評估我們的假設(泛化誤差的定義中)。這有時也指的是PAC假設中的一個。
        考慮線性分類的環境,讓hθ(x)=1{θTx≥0}。擬合引數θ的合理方式是什麼?一種方法是試圖最小化訓練誤差,挑選

        我們叫這個過程為經驗風險最小化(ERM),通過學習演算法得到的假設輸出為。我們認為ERM是最基本的學習演算法,它將是我們在這些筆記中關注的演算法。(如logistic迴歸這樣的演算法也可以被看作經驗風險最小化的近似。)
        在我們對學習理論的研究中,從特定的假設引數和是否我們正在使用一個線性分類器的問題中抽象出經驗風險最小化。我們定義假設類H,用於學習演算法,作為它考慮的所有分類器的集合。對於線性分類器,H={hθ:hθ(x)=1{θTx≥0},θ∈Rn+1}因此是X(輸入域)上所有分類器的集合,其中決策邊界是線性的。更廣泛的,如果我們正在學習神經網路,那麼我們能夠讓H為所有分類器的集合,由某個神經網路體系結構代表。
        經驗風險最小化被認為是函式H的類的最小值,其中學習演算法為如下假設:

3 有限的H的情形
        我們開始考慮一種學習演算法,我們有一個有限的假設類H={h1,…,hk},包括k各假設。因此,H僅僅是k個函式的集合,從X對映到{0,1},經驗風險最小化選擇為這k個函式無論哪個有最小的訓練誤差。
        我們想要給出泛化誤差h的保證。我們的策略包括兩部分:首先,是所有h的可靠估計。第二,這意味著泛化誤差的上界。
        取任一固定的hi∈H,考慮伯努利隨機變數Z,其分佈定義如下。樣本(x,y)服從分佈D。然後,我們設定Z=1{hi(x)≠y},讓Z表示hi是否誤分類。簡單地,我們也定義Zj=1{hi(x(j)≠y(j)}。由於我們的訓練集服從D分佈,Z和Zj有相同的分佈。
        我們看到誤分類概率ε(h)是Z(和Zj)的期望值。此外,訓練誤差寫為

        因此,是m個隨機變數Zj的平均值,服從伯努利分佈,平均值為ε(hi)。因此,我們應用霍芬不等式,獲得

        這顯示,對於我們特殊的hi,訓練誤差在很高的概率下接近泛化誤差,假定m很大。但是對於一個特定的hi,我們不僅僅想要保證ε(hi)以很高的概率靠近。我們想要證明對於所有的h∈H,這都是正確的。讓Ai代表事件。我們已經展示,對於任何特殊的Ai,P(Ai)≤2exp(-2γ2m)都是正確的。因此,使用聯合邊界,我們有

        如果我們從1提取兩邊,我們發現

        (符號代表“非”)因此,概率至少為1-2k exp(-2γ2m),對於所有的h∈H,ε(h)將在的γ中。這叫做一致收斂結果,對於所有的h∈H,這是一個共同的邊界。
        在上面的討論中,對於特殊值m和γ,依概率給定一個邊界,對於某個h∈H,這裡存在三個感興趣的量:m,γ和概率誤差;我們可以依據其中一個得到另外兩個。