1. 程式人生 > >第1章 統計學習方法概論

第1章 統計學習方法概論

1.什麼是統計學習 OR 統計機器學習 OR 機器學習?

        =計算機基於資料構建概率統計模型,並運用模型對資料進行預測與分析(統計學習的目的)。

        統計學習就是計算機系統通過運用資料統計方法提高系統性能的機器學習。

2.統計學習的物件:統計學習的物件是資料。它熊資料出發,提取資料的特徵;抽象出資料的模型,發現數據中的知識;又回到資料的分析與預測中去。

3.統計學習的組成:監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)、強化學習(reinforcement learning)。

4.實現統計學習方法的步驟如下:

  • 得到一個有限的訓練資料集合;
  • 確定包含所有可能的模型的假設空間,即學習模型的集合;
  • 確定模型選擇的準則,即學習的策略;
  • 實現求解最有模型的演算法,即學習的演算法;
  • 通過學習方法選擇最有模型;
  • 利用學到的最優模型對新資料進行預測和分析。

5.監督學習的任務:學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。

6.基本概念:

  • 輸入、輸出空間:可以是有限元素的集合,也可以是整個歐式空間(什麼鬼?);它們可以是同一個空間,也可以是不同的空間,但通常輸出空間遠小於輸入空間;
  • 特徵向量(feature vector):每個具體的輸入是一個例項,通常由特徵向量表示。所有特徵向量存在的空間稱為特徵空間(feature space)。特徵空間與輸入空間有時相同,有時不同。(什麼時候不區分?)
  • 訓練資料(training data)
  • 測試資料(test data)
  • 假設空間(Hypothesis space):函式的集合。
  • 條件概率分佈P(Y|X)和決策函式Y=f(X)。
  • 聯合概率分佈函式P(X,Y)。

7.迴歸問題:輸入變數與輸出變數均為連續變數的預測問題。

8.分類問題:輸出變數為有限個離散變數的預測問題。

9.標註為題:輸入和輸出變數均為變數序列的預測問題。

10.統計學習三要素:方法 = 模型 + 策略 + 演算法。統計學習基於訓練資料集,根據學習策略,從假設空間中選擇最優模型,最後考慮用什麼樣的計算方法求解最優模型。

  • 模型:就是所要學習的條件概率分佈或決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。
  • 策略:按照什麼樣的準則學習或選擇最優的模型。統計學習的目的在於從假設空間中選取最優模型。
    • 損失函式:一次預測的好壞。用損失函式(Loss function)來度量預測錯誤的程度。損失函式時f(X)和Y的非負值函式,記為L(Y,f(X))。
    • 風險函式:平均意義下模型預測的好壞。由於模型的輸入、輸出(X,Y)是隨機變數,遵循聯合分佈P(X,Y),所以損失函式的期望是:Rexp(f)= Ep[L(Y,f(X))],稱為風險函式(risk function)。
    • 經驗風險:模型f(X)關於訓練資料集的平均損失稱為經驗風險(empirical risk)或經驗損失(empirical loss)。記為Remp(f) = 1/N∑L(y,f(x)).
    • 經驗風險最小化:在假設空間、損失函式和訓練資料集確定的情況下,經驗風險函式式就可以確定。經驗風險最小化(ERM)的策略認為經驗風險最小的模型是最優模型。根據這一策略,按照經驗風險最小化求最幽默型就是最優模型。但是,當樣本容量很小時,經驗風險最小化可能導致過擬合(over-fitting)的現象。
    • 結構風險最小化(structual-risk minimization,SRM):是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化(Regularization)。結構風險在經驗風險上加上表示模型複雜度的正則化項。在假設空間、損失函式以及訓練資料集確定的情況下,結構風險的定義是:Rsrm(f) = 1/N∑L(y,f(x))+λJ(f)。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。
    • 這樣監督學習問題就變成了經驗風險或結構風險函式的最優化問題,這時經驗或結構風險函式時最優化的目標函式。
  • 演算法:學習模型的具體計算方法。

11.泛華能力(generalization ability):學習方法對未知資料的預測能力。

12.交叉驗證:模型選擇的方法除了上邊的正則化(結構風險最小化法)外,常用的還有交叉驗證(cross validation)。交叉驗證的基本想法是重複使用資料,把給定的資料進行切分,將切分的資料組合為訓練資料集與測試資料集。在此基礎上反覆的進行訓練、測試以及模型選擇。

  1. 簡單交叉驗證:隨機將給定資料分為兩部分,一部分做訓練資料集(如70%),一部分做測試資料集(如30%)。然後用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出誤差最小的模型。
  2. S折交叉驗證(常用):首先,隨機將已給資料且分為S個互不相交的大小相同的子集;然後利用S-1個子集的資料訓練模型,利用餘下的子集測試模型;將這一過程對可能的S種選擇重複進行;最後選出S次評測中平均測試誤差最小的模型。