1. 程式人生 > >第一章 統計學習方法概論 —— 第1~3節 統計學習及監督學習的簡介、損失函式及風險函式的公式化表達

第一章 統計學習方法概論 —— 第1~3節 統計學習及監督學習的簡介、損失函式及風險函式的公式化表達

關於統計學習方法的知識,參考書《統計學習方法》,李航著,清華大學出版社。

所有章節的符號表示、公式表示都是統一化的。

第一章 統計學習方法概論

第一節 統計學習

一、概念

所謂統計學習,指的是基於已知資料構建統計模型,從而對未知資料進行預測。

二、分類

監督學習(supervised)、半監督學習(semi-supervised)、非監督學習(unsupervised)和強化學習(reinforcement learning)等。

三、統計學習的三要素:

1、模型(model)

從給定的一組已知資料,學習得到一個適合這組資料的模型。假設要學習的模型屬於某個函式集合,這個集合成為假設空間(hypothesis space)。

2、策略(strategy)

在假設空間中,我們要從中選取一個最優的模型,以使它對已知訓練資料和未知測試資料,在給定的評價準則(evaluation criterion)下有最優的表現。那麼這個選擇最優模型的準則,就叫做策略,通常具象為損失函式、風險函式、目標函式等等。

3、演算法(algorithm)

有了選擇最優模型的準則以後,我們要通過優化方法的手段,找到這個最優模型。這個優化的過程就是演算法的體現。

第二節 監督學習

本書著重在於介紹監督學習。所以這一節介紹監督學習的一些基本概念。

一、概念:

1、輸入空間(特徵空間),輸出空間,這兩個概念比較簡單,此處略。

2、假設空間:

上面一節我們已經描述了什麼叫做假設空間。那麼在監督學習中,這個假設空間,其實就是表示從輸入到輸出的所有對映的集合。

監督學習的模型可以是概率模型或非概率模型,由條件概率分佈P(Y|X)或決策函式(decision function)Y=f(X)表示,描述了輸入與輸出隨機變數之間的對映關係,隨具體學習方法而定。對具體的輸入進行相應的輸出預測時,寫作 P(y|x) 或 y=f(x)(大小寫不同而已。大寫通常表示特徵空間或輸入輸出空間,小寫則通常表示具體的輸入例項和具體的輸出預測)

二、分類:

包括迴歸、分類、標註三種問題

迴歸(regression):輸入與輸出均為連續變數

分類(classification):輸出為離散變數

標註(tagging):輸入與輸出均為變數序列。例如馬爾可夫模型、條件隨機場等,輸入是一個變數序列(由多個結點和邊構成的一個圖模型),輸出則是對應輸入序列中每個變數的label組成的一個序列。像這樣,輸入是一個觀測序列,輸出是一個標記序列或狀態序列(圖模型中的狀態轉移),就屬於標註問題。

三、損失函式

上面說過,策略就是指選擇最優模型的準則,或者說損失函式、代價函式、風險函式等的定義問題。下面我們詳細介紹。

對於給定的輸入X,由f(X)給出相應的輸出Y,而損失函式(loss function)或代價函式(cost function)就是指關於這個輸出預測值f(X)與真實值Y的函式,用來度量預測錯誤的程度。

統計學習常用的損失函式有以下幾種:

四、風險函式

1、損失函式度量模型一次預測的好壞,而風險函式度量的是模型平均意義下預測的好壞,即損失函式的期望:


監督學習本來就是建立在輸入和輸出空間服從聯合概率分佈P(X, Y)的假設基礎上的。所以風險函式(期望風險)可以用上述公式來計算。

2、由於聯合概率分佈P(X, Y)是未知的,上式無法計算。那麼給定一個訓練資料集T,我們可以用下面的公式採用離散的方式計算風險函式,我們把這樣計算出來的風險值叫做經驗風險或經驗損失(empirical risk / loss)。公式中的大F表示模型空間(假設空間或引數空間)


原因是:根據大數定律,當樣本容量N趨於無窮時,經驗風險趨於實際的期望風險。

3、當樣本容量N比較小時,學習得到的模型容易產生過擬合現象。所謂的過擬合,直接原因是由於模型過於複雜(次數過高)導致的。

那麼為了防止過擬合,我們需要新增一項描述模型複雜度的函式到風險函式中。這樣在進行風險函式最優化時,我們既希望各個樣本損失函式值的和最小,同時也希望模型的複雜度最小。這一點在學習stanford Ng老師的 machine learning 公開課時,裡面也有講到。模型的次數階數越高,則複雜度越大,越容易過擬合。

加上模型複雜度項的目標函式的優化過程就叫做:結構風險最小化(structural risk minimization, SRM)。SRM只做一種概念,不需要糾結於與其他叫法的不同。