1. 程式人生 > >統計學習方法概論

統計學習方法概論

1.1 統計學習

1. 統計學習的特點

統計學習(statistical learning)是關於計算機基於資料構建概率統計模型並利用模型進行分析與預測的一門學科。統計學習也稱為統計機器學習(statistical machine learning)。

統計學習的主要特點是:
1. 統計學習以計算機和網路為平臺。
2. 統計學習以資料為研究物件,是資料驅動的學科。
3. 統計學習的目的是對資料進行預測和分析。
4. 統計學習以方法為中心,統計學習方法構建模型並利用模型進行預測和分析。
5. 統計學習是概率論、統計學、資訊理論、計算理論、最優化理論及電腦科學等多個領域的交叉學科。

Herbert Simon 曾對“學習”給出以下定義:如果一個系統能夠通過執行某個過程改進它的效能,這就是學習。按照這一觀點,統計學習就是計算機系統運用資料及統計方法提高系統性能的機器學習。

2. 統計學習的物件

統計學習的物件是資料。它從資料出發,提取資料的特徵,抽象出資料的模型,發現數據中的知識,又回到對資料的分析與預測中去。資料是多樣的,包括存在於計算機及網路上的各種數字、文字、影象、視訊、音訊資料以及它們的組合。
統計學習關於資料的基本假設是同類資料具有一定的統計規律,這是統計學習的前提。

3. 統計學習的目的

統計學習用於對資料進行預測與分析,特別是對未知資料的預測和分析。對資料的預測與分析是通過概率統計模型來實現的。統計學習總的目標就是考慮學習什麼樣的模型和如何學習模型,以使模型能夠對資料進行準確的預測與分析,同時也要考慮儘可能地提高學習效率。

4. 統計學習的方法

統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。
統計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的演算法,稱其統計學習方法三要素,簡稱為模型、策略和演算法。

實現統計學習方法的步驟如下:

  1. 得到一個有限的訓練資料集合;
  2. 確定包括所有可能模型的假設空間,即學習模型的集合;
  3. 確定模型選擇的準則,即學習的策略;
  4. 實現求解最優模型的演算法,即學習的演算法;
  5. 通過學習方法選擇最優模型;
  6. 利用學習的最優模型對新資料進行預測和分析。