1. 程式人生 > >統計學習方法---第一章統計學習方法概論

統計學習方法---第一章統計學習方法概論

統計學習的三要素:

(1)模型:所要學習的條件概率分佈或決策函式。

(2)策略:按照什麼樣的準則學習或選擇最優的模型。

(3)演算法:學習模型的具體計算方法。

         方法 = 模型 + 策略 + 演算法

 

統計學習包括:

監督學習,半監督學習,非監督學習,強化學習

監督學習的方法與應用:

分類問題,標註問題,迴歸問題

 

模型的選擇方法:

正則化,交叉驗證,學習的泛化能力

 

統計學習的目的:對資料進行預測與分析。

       目標:從假設空間中選取最優模型。

       物件:資料

 

迴歸問題:

輸入變數與輸出變數均為連續變數的預測問題。

分類問題:

輸出變數為有限個離散變數的預測問題。

標註問題:

輸入變數與輸出變數均為變數序列的預測問題。

 

聯合概率分佈:

兩個及以上隨機變數組成的隨機變數的概率分佈。表示為:P(X,Y)

條件概率分佈:

就是由條件的聯合概率分佈。描述輸入與輸出隨機變數之間的對映關係。

 

假設空間:

模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間。

 

監督學習:

利用訓練資料集學習一個模型,再用模型對測試樣本集進行預測。

分為兩個部分:訓練和預測。

 

 

風險函式:

度量平均意義下模型預測的好壞。

損失函式:

          度量模型一次預測的好壞。記作:L(Y,f(x)).損失函式值越小,模型就越好。

 

損失函式的期望:

     R_{exp}(f)=E_{p}[L(Y,f(X))]=\int _{x*y}L(y,f(x))P(x,y)dxdy

    期望風險R(exp)是模型關於聯合分佈的期望損失。

 

經驗風險或經驗損失:模型關於訓練資料集的平均損失。記作R(emp):

              當樣本容量N趨於無窮時,經驗風險趨於期望風險。

 

經驗風險最小化(ERM)

當模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。

 

結構風險最小化(SRM):為了防止過擬合而提出來的策略。

結構風險最小化等價於正則化。

結構風險最小化就等價於最大後驗概率估計。

 

過擬合:

所選模型的複雜度往往會比真模型更高。

這一現象對已知資料預測的很好,但對未知資料預測的很差的現象。

 

 

 

正則化:

        一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。

        一般形式:

 

         第一項是經驗風險,第二項是正則化。

         正則化項可以是引數向量的L2範數:

 

          L1範數:

 

 

 

交叉驗證:

訓練集:訓練模型。

驗證集:模型的選擇。

測試集:最終對學習方法的評估。

基本想法:重複地使用資料。

 

1.簡單的交叉驗證

隨機地將已給資料分為兩部分。

2.S折交叉驗證

隨機地將已給資料分為S個互不相交的大小想同的子集;

然後利用 S-1 個子集的資料訓練模型,利用餘下的子集測試模型。

3.留一交叉驗證

S折交叉驗證的特殊情形是 S = N。

 

泛化能力:

通過測試誤差來評價學習方法的泛化能力。

泛化誤差就是所學習得到的模型的期望風險

泛化誤差:

泛化誤差上界:

 

 

 

歐式空間:

輸出空間遠遠小於輸入空間。