1. 程式人生 > >《統計學習方法(李航)》統計學習方法概論 學習筆記

《統計學習方法(李航)》統計學習方法概論 學習筆記

 

1.重點歸納

1)統計學三要素

(1)模型:就是所要學習的條件概率分佈或決策函式

(2)策略:從假設空間中選取最優模型,需要考慮按照什麼樣的準則學習或選擇最優的模型

(3)演算法:求解最優化問題的演算法

2)損失函式(loss function)或代價函式(cost function)用來度量預測錯誤的程度,損失函式越小越好。常見的損失函式:

  •  0-1損失函式(0-1 loss function)

  • 平方損失函式(quadratic loss function)

  • 絕對損失函式(absolute loss function)

  • 對數損失函式(logarithmic loss funcion)

3)學習的損失函式未必是評估時使用的損失函式。

4)訓練誤差的大小反映了模型對訓練資料學習的好壞,測試誤差反映了學習方法對未知的測試資料集的預測能力。

5)正則化是結構風險最小策略的實現,是在經驗風險上加了一個正則化項或罰項。

  • L1範數:L1是絕對值最小,趨向於產生少量的特徵,而其它特徵為0。

  • L2範數:L2是平方最小,會選擇更多的特徵,這些特徵都會接近0。

6)判別式模型與生成式模式

(1)判別式模型(直接判斷是否有判別邊界)

  • 對條件概率P(Y|X)建模。
  • 對所有樣本只構建一個模型,確定總體判別邊界。
  • 觀測到輸入什麼特徵,就預測最優可能的類標。
  • 例子:LR、決策樹、最大熵、條件隨機場

(2)生成式模式

  • 對聯合概率P(X, Y)建模
  • 分類問題中,每種類標都需要進行建模,最終選擇最優概率的類標,沒有判別邊界
  • 例子:樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型

2.統計學習方法

1)統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如文章、網頁、DB資料等。

2)由於它們具有統計規律性,所以可以用概率統計方法來處理,例如:

  • 用隨機變數描述資料中的特徵
  • 用概率分佈描述資料的統計規律

3)統計學習的目的是對資料進行預測與分析,特別是對未知新資料進行預測與分析。

4)統計學習方法的三要素:模型的假設空間(模型)、模型選擇準則(策略)以及模型學習的演算法(演算法)。

5)學習方法步驟:

  • 獲取訓練資料集
  • 確定包含所有可能的模型的假設空間(即學習模型的集合)
  • 確定模型選擇的準則(即學習策略)
  • 實現求解最優模型的演算法(即學習的演算法)
  • 通過學習方法選擇最優模型
  • 利用學習的最優模型對新資料進行預測或分析

3.監督學習

1)監督學習的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。

2)輸入、輸出的不同型別劃分預測任務:

  • 輸入變數與輸出變數均為連續變數的預測問題為迴歸問題
  • 輸出變數為有限個離散變數的預測問題為分類問題
  • 輸入變數與輸出變數均為變數序列的預測問題為標註問題

標註問題是分類問題的推廣,分類問題只輸出一個值,而標註問題輸出的是一個向量,向量的每個值都屬於一種標記型別。

3)簡單學習的目的在於學習一個由輸入到輸出的對映,這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間。

4.統計學三要素

1)模型

       在監督學習過程中,模型就是所要學習的條件概率分佈或決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。

  • 決策函式表示模型的非概率模型,決策函式的集合:
  • 由條件概率表示的模型為概率模型,條件概率的集合:

2)策略

(1)統計學習的目標在於從假設空間中選取最優模型,需要考慮按照什麼樣的準則學習或選擇最優的模型。

(2)損失函式(loss function)或代價函式(cost function)用來度量預測錯誤的程度,損失函式越小越好。常見的損失函式:

  • 0-1損失函式(0-1 loss function)

  • 平方損失函式(quadratic loss function)

  • 絕對損失函式(absolute loss function)

  • 對數損失函式(logarithmic loss funcion)

(3)損失函式的期望就是欺負損失或風險函式,學習的目標就是選擇期望風險最小的模型。

  • 模型關於訓練資料集的平均損失稱為經驗風險或經驗損失
  • 期望風險是模型關於聯合分佈的期望損失,經驗風險是模型關於訓練集的平均損失。

(4)根據大數定律,當樣本容量趨於無窮大時,經驗風險趨於期望風險。極大似然估計就是經驗風險最小化的例子。當模型是條件概率分佈,損失函式時對數損失函式時,經驗風險最小化等價於極大似然估計。

(5)當樣本容量很小時,經驗風險最小化學習效果未必很好,會產生過擬合。結構風險最小化是為了防止過擬合而提出的策略,等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項或懲罰項。

3)演算法

演算法是指學習模型的具體計算方法。統計學習問題歸結為最優化問題,統計學習的演算法成為求解最優化問題的演算法。

5.模型評估與模型選擇

1)基於損失函式的模型的訓練誤差和測試誤差是學習方法的評估標準。學習的損失函式未必是評估時使用的損失函式。

2)訓練誤差的大小反映了模型對訓練資料學習的好壞,測試誤差反映了學習方法對未知的測試資料集的預測能力。通常將對未知資料的預測能力成為泛華能力。

3)如果一味追求提高對訓練資料的預測能力,所選模型會過擬合,對訓練資料預測得很好,但對未知資料預測得很差。模型選擇旨在避免過擬合併提高模型的預測能力。

6.正則化

1)正則化是結構風險最小策略的實現,是在經驗風險上加了一個正則化項或罰項。

  1. 第1項為經驗風險,第2項為正則化項,λ≥0為調整兩者之間關係的係數。
  2. λ能控制對方差和偏差的影響。當λ上升時,它減少了係數的值,從而降低了方差。直到上升到某值之前,λ的增大很有利,因為它只是減少方差(避免過擬合),而不會丟失資料的任何重要特徵。當λ在某值之後,模型會失去重要的特徵,導致偏差上升產生欠擬合。

2)L1範數

     L1是絕對值最小,趨向於產生少量的特徵,而其它特徵為0。

3)L2範數

     L2是平方最小,會選擇更多的特徵,這些特徵都會接近0。

4)從貝葉斯角度看,正則化對應於模型的先驗概率,可以假設複雜模型有較小的先驗概率,簡單模型有較大的先驗概率。

      5)交叉驗證

(1)樣本數量充足時,可以隨機將資料集劃分成三部分,分別為:訓練集、驗證集合測試集。當資料不足時,為了選擇好的模型,可以採用交叉驗證方法。

(2)簡單交叉驗證

隨機把資料劃分成兩部分,使用訓練資料訓練,使用測試資料測試誤差,選出測試誤差最小的模型。

(3)K折交叉驗證

隨機地把資料切分為K份資料量相同的資料,利用K-1資料進行訓練,利用剩餘的子集作測試,共進行K次訓練和測試。選出K次評測中平均測試誤差最小的模型。

(4)留一交叉驗證

K折交叉驗證的特殊情況,K=N,N為總樣本量。

7.泛化能力

1)泛化能力是指模型對未知資料的預測能力。模型對未知資料的預測誤差就是泛華誤差,泛華誤差就是模型的期望風險。

2)比較兩種學習方法的泛化誤差上界的大小來比較它們的優劣。

8.生產模型與判別模型

1)判別式模型

  • 對條件概率P(Y|X)建模。
  • 對所有樣本只構建一個模型,確定總體判別邊界。
  • 觀測到輸入什麼特徵,就預測最優可能的類標。
  • 優點:對資料量要求沒生成式模型嚴格,速度也快,小資料量小準確率也會好些。
  • 例子:LR、決策樹、最大熵、條件隨機場等

2)生成式模式

  • 對聯合概率P(X, Y)建模
  • 分類問題中,每種類標都需要進行建模,最終選擇最優概率的類標,沒有判別邊界
  • 中間生成聯合分佈,並可生成取樣資料
  • 優缺點
    • 所包含的資訊非常齊全,所以不僅可以用於預測label,還可以幹其它事情。
    • 需要非常充足的資料量以保證取樣到資料本來的面目。
    • 當存在隱變數時仍可以使用。
    • 速度比較慢。
  • 例子:樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型

9.分類問題

1)評價分類器效能的指標一般是分類準確率

2)對於不平衡二分類(如正負比例小於等於1:4)需要採用精確率(precision)和召回率(recall)

(1)名詞說明

  • TP:將正類預測為正類數
  • FN:將正類預測為負類數
  • FP:將負類預測為正類數
  • TN:將負類預測為負類數

(2)精確率(查準率),誤預測為正類的數量預測少,精確率越高

(3)召回率(查全率),漏預測的正類的數量預少,召回率越高

(4)F度量(F-measure),常用β=1,即F1度量。精確率和召回率都高時,F1值也會高。

10.標註問題

1)標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測問題的簡單形式。標註問題輸入的是一個觀測序列,輸出是一個標記序列或狀態序列。

2)學習系統基於訓練資料集構建一個模型,表示為條件概率分佈:。標註系統按照學習到的條件概率分佈模型,對新輸入觀測序列找到相應的輸出標記序列。

3)評價標註模型的指標與評價分類模型的一樣。

      4)標註常用的統計學習方法有:隱馬爾科夫模型、條件隨機場

      5)標註問題再資訊抽取、自然語言處理等領域被廣泛應用。

例子:自然語言處理的次性標註:給定一個由單片語成的句子,對這個句子中的每一個單詞進行標註,即對單詞序列預測其對應的詞性標記序列。

11.迴歸問題

1)迴歸問題等價於函式擬合,選擇一條曲線使其很好地擬合已知資料並很好預測未知資料。

2)迴歸學習最常用的損失函式時平方損失函式,在此情況下,迴歸問題可以由最小二乘法求解。