1. 程式人生 > >演算法工程師修仙之路:李航統計學習方法(一)

演算法工程師修仙之路:李航統計學習方法(一)

第1章 統計學習方法概論

統計學習


統計學習的特點

  • 統計學習(statistical learning)是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科,統計學習也稱為統計機器學習(statistical machine learning)。

  • 統計學習的主要特點

    • 統計學習以計算機及網路為平臺,是建立在計算機及網路之上的;
    • 統計學習以資料為研究物件,是資料驅動的學科;
    • 統計學習的目的是對資料進行預測與分析;
    • 統計學習以方法為中心,統計學習方法構建模型並應用模型進行預測與分析;
    • 統計學習是概率論、統計學、資訊理論、計算理論、最優化理論及電腦科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論體系與方法論。
  • 學習的定義:如果一個系統能夠通過執行某個過程改進它的效能,這就是學習。統計學習就是計算機系統通過運用資料及統計方法提高系統性能的機器學習。

統計學習的物件

  • 統計學習的物件是資料(data)。它從資料出發,提取資料的特徵,抽象出資料的模型,發現數據中的知識,又回到對資料的分析與預測中去。

  • 統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提,這裡的同類資料是指具有某種共同性質的資料。

  • 在統計學習過程中,以變數或變數組表示資料。資料分為由連續變數和離散變量表示的型別。

統計學習的目的

  • 統計學習用於對資料進行預測與分析,特別是對未知新資料進行預測與分析。

  • 對資料的預測可以使計算機更加智慧化,或者說使計算機的某些效能得到提高。

  • 對資料的分析可以讓人們獲取新的知識,給人們帶來新的發現。

  • 對資料的預測與分析是通過構建概率統計模型實現的。統計學習總的目標就是考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的預測與分析,同時也要考慮儘可能地提高學習效率。

統計學習的方法

  • 統計學習的方法是基於資料構建統計模型從而對資料進行預測與分析。

  • 統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。

  • 監督學習的方法

    • 從給定的、有限的、用於學習的訓練資料(training data)集合出發;
    • 假設資料是獨立同分布產生的,並且假設要學習的模型屬於某個函式的集合稱為假設空間(hypothesis space);
    • 應用某個評價準則(evaluation criterion),從假設空間中選取一個最優的模型,使它對已知訓練資料及未知測試資料(test data)在給定的評價準則下有最優的預測;
    • 最優模型的選取由演算法實現。
  • 統計學習方法的三要素

    • 模型(model):模型的假設空間;
    • 策略(strategy):模型選擇的準則;
    • 演算法(algorithm):模型學習的演算法。
  • 實現統計學習方法的步驟如下:

    • 得到一個有限的訓練資料集合;
    • 確定包含所有可能的模型的假設空間,即學習模型的集合;
    • 確定模型選擇的準則,即學習的策略;
    • 實現求解最優模型的演算法,即學習的演算法;
    • 通過學習方法選擇最優模型;
    • 利用學習的最優模型對新資料進行預測或分析;