1. 程式人生 > >統計學習方法筆記(三)統計學習方法簡介

統計學習方法筆記(三)統計學習方法簡介

正則化與交叉驗證

前文所述的模型選擇只能大體選擇出一類較好的模型,即利用訓練資料集學習模型,沒有考慮到測試誤差,而正則化與交叉驗證的提出,則加入了測試誤差的考量,因此,這兩種方法用來選擇具體模型。

正則化

正則化是結構風險最小化策略的實現,其是在經驗風險加上一個正則項或罰項。一般來說,正則化項是模型複雜度的單調遞增函式。正則化一般具有以下形式:
minfF1Ni=1NL(yi,f(xi))+λJ(f)
正則化項可以取不同形式,在迴歸問題中,損失函式是平方損失,正則項是引數向量的 L2 範數。正則化的目的是選取經驗風險與複雜度同時較小的模型。

交叉驗證

交叉驗證的原理:當樣本充足時,可以將資料劃分為訓練集、驗證集、測試集,使用訓練集來訓練模型,驗證集來選擇模型,測試集用來評估模型,但在實際中,資料一般並不充足,這時可以考慮重複使用資料,即將資料切分組成訓練集與測試集,在此基礎上反覆訓練、測試、模型選擇
1. 簡單交叉驗證:將資料隨機分為兩部分,一部分是訓練集,一部分是測試集,使用訓練集訓練模型,測試集評價測試誤差,選出最優模型。
2. S折交叉驗證:隨機將資料分為S個大小相同的子集,然後利用S-1個子集的資料訓練模型,利用餘下的子集測試模型;將這一過程對S種可能重複進行,選出平均測試誤差最小的模型
3. 留一交叉驗證:是S折交叉驗證的特殊情況,S=N,N是給定資料的容量,適用於缺乏資料的情況下。

泛化能力

  1. 泛化誤差:泛化能力,指模型對未知資料的預測能力;現實中,通常使用測試誤差來評價學習方法的泛化能力,現在從理論上分析泛化能力,如果學到的模型是 f^ ,用這個模型對未知資料預測的誤差即為泛化誤差:
    Rexp(f^)=Ep[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dxdy
    事實上,泛化誤差就是所學習到模型的期望風險。
  2. 泛化誤差上界:比較兩種學習方法的優劣通常是比較他們的泛化誤差上界;泛化誤差上界通常具有以下性質:它是樣本容量的函式,當容量增加時,泛化上界趨於0;它是假設空間的函式,空間容量越大,模型越難學,泛化誤差上界越大。
    定義:對二類分類問題,當假設空間是有限個函式的集合時,對任意一個函式
    fF
    ,至少以概率 1δ ,以下不等式成立:
    R(f)R^(f)+ε(d,N,δ)
    其中,ε(d,N,δ)=12N(logd+log1δ)
    不等式左邊是泛化誤差,右端即為泛化誤差上界,d 是函式個數。在泛化誤差上界中,第一項是訓練誤差,第二項是N的單調遞減函式,同時也是假設空間的函式