1. 程式人生 > >《統計學習方法》筆記一 統計學習方法概論

《統計學習方法》筆記一 統計學習方法概論

類模型 小時 term jsb lamda 計算方法 直接 估計 預測

統計學習

統計學習時關於計算機基於數據構建概率統計模型 並運用模型 對數據進行預測與分析

統計學習的三要素:

方法 = 模型+策略+算法

統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。

實現統計學習方法的具體步驟如下:

(1)得到一個有限的訓練數據集合;

(2)確定包含所有可能的模型的假設空間,即學習模型的集合;

(3)確定模型選擇的準則,即學習的策略;

(4)實現求解最優模型的算法,即學習的算法;

(5)通過學習方法選擇最優模型;

(6)利用學習的最優模型對數據進行預測或分析。

監督學習

一些基本概念:

  • 輸入空間、特征空間、輸出空間

  輸入與輸出所有可能取值的集合成為輸入空間

輸出空間。每個具體的輸入是一個實例,通常由特征向量表示,所有特征向量存在的空間成為特征空間

  特征空間每一維對應一個特征,有時對輸入空間與特征空間不加以區分,有時假設輸入空間與特征空間為不同的空間,將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。

根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱:

  回歸問題:輸入、輸出變量均為連續變量的預測問題;

  分類問題:輸出變量為有限個離散變量的預測問題;

  標註問題: 輸入、輸出變量均為變量序列的預測問題

監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出,這個模型的一般形式為決策函數:Y=f(X)或者條件概率分布P(Y|X)

統計學習三要素

模型

模型就是要學習的條件概率分布或決策函數。模型的假設空間包含所有可能的條件概率分布或決策函數。

空間用F表示,假設空間可以定義為決策函數的集合,即:

技術分享圖片

F通常是由一個參數向量來決定的條件概率分布族

技術分享圖片

技術分享圖片

假設空間也可以定義為條件概率的集合

技術分享圖片

此時有

技術分享圖片

策略

  • 經驗風險最小化
  • 結構風險最小化(正則化)

有了假設空間,考慮如何在假設空間中選取最優模型,因此引入損失函數和風險函數等來度量模型的好壞。

損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。

損失函數是f(X)和Y的非負實值函數,記做 L(Y,f(X))

常用的損失函數:

技術分享圖片

技術分享圖片

這是理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失,稱為風險函數或期望損失

經驗風險或經驗損失:
技術分享圖片

選擇令期望損失值最小的模型即為學習的目標,但是聯合分布未知因此Rexp不能直接計算,但如知道了聯合分布,可直接計算條件概率分布P(Y|X),也就不需要學習。因此監督學習成為一個病態問題。

根據大數定律,當樣板容量趨於無窮,經驗風險趨於期望風險,但實際中訓練樣本數量有限,因此用經驗風險估計期望風險不理想,需進行矯正,則涉及監督學習的兩個基本策略:經驗風險最小化和結構風險最小化

經驗風險最小化(empirical risk minimization,ERM)

ERM認為,經驗風險最小的模型最優,則最優模型可轉換為:
技術分享圖片

當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計。

F為假設空間,當樣本容量足夠大,學習效果較好,但樣本容量很小時,容易過擬合,則引申出結構風險最小化。

結構風險最小化(structural risk minimization,SRM)/正則化

在ERM基礎上加上表示模型復雜度的正則化項或罰項,定義如下

技術分享圖片

其中J(f)為模型的復雜度,是定義在假設空間F上的泛函,模型f越復雜,J(f)越大。lamda是系數,≥0,用以權衡ERM和模型復雜度。

則SRM最小化將求最優模型轉換為求解最優問題:

技術分享圖片

當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。

算法

指學習模型的具體計算方法

模型評估與模型選擇

訓練誤差與測試誤差

技術分享圖片

正則化與交叉驗證

正則化一般形式如下:
技術分享圖片

第一項為經驗風險,第二項為正則化項目,正則化項可取不同的形式。經驗風險較小的模型可能較復雜(有多個非零參數),則第二項模型復雜度會較大,正則化的作用是選擇經驗風險與模型復雜度同時小的模型。

從貝葉斯估計角度看,正則化項對應模型的先驗概率,可假設復雜的模型有較大的先驗概率,簡單的模型有較小的先驗概率。

若樣本充足,可隨機將數據集分為訓練集、驗證集和測試集,驗證集用於模型選擇,在學習到的不同復雜度的模型中,選擇對驗證集有最小預測誤差的模型。但實際中數據不夠,因此采用交叉驗證,即重復利用數據,將給定數據劃分為訓練集與測試集,反復訓練、測試及模型選擇。

  • 簡單交叉驗證

  隨機將數據分為訓練集和測試集,用訓練集在各條件下訓練模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型

  • S折交叉驗證

  隨機將數據切分為S個互不相交的大小相同的子集,利用S-1個子集的數據訓練模型,利用余下的子集測試模型,重復進行算出S次評測中平均測試誤差最小的模型

  • 留一交叉驗證

  當S=N時,N為給定數據集的容量

泛化能力

指由該方法學習到的模型對未知數據的預測能力。泛化誤差相當於所學習到的模型的期望風險。

技術分享圖片

泛化誤差上界(泛化誤差概率上界)

它是樣本容量的函數,樣本容量增加,泛化上界趨於0;是假設空間容量的函數,假設空間容量越大,模型越難學,泛化誤差上界越大。

技術分享圖片

R(f)為期望風險,R^為經驗風險。

生成模型與判別模型

技術分享圖片

分類問題

技術分享圖片

標註問題

標註問題可認為是分類問題的推廣,輸入是一個觀測序列,輸出是一個標記序列或狀態序列。 評價標註模型的指標與評價分類模型的指標一樣,常用的有標註準確率、精確率和召回率。 標註常用的統計學習方法有:隱馬爾可夫模型、條件隨機場。

回歸問題

回歸用於預測輸入變量和輸出變量之間的關系,回歸模型表示從輸入變量到輸出變量之間映射的函數,回歸問題的學習等價於函數擬合。 回歸問題按照輸入變量的個數,分為一元回歸和多元回歸,按照輸入變量和輸出變量之間關系的類型即類型的模型,分為線性回歸和非線性回歸。 回歸常用的損失函數是平方損失函數,例最小二乘法。

《統計學習方法》筆記一 統計學習方法概論