《統計學習方法(李航)》統計學習方法概論 學習筆記
-
作者:jliang
1.重點歸納
1)統計學三要素
(1)模型:就是所要學習的條件概率分佈或決策函式
(2)策略:從假設空間中選取最優模型,需要考慮按照什麼樣的準則學習或選擇最優的模型
(3)演算法:求解最優化問題的演算法
2)損失函式(loss function)或代價函式(cost function)用來度量預測錯誤的程度,損失函式越小越好。常見的損失函式:
- 0-1損失函式(0-1 loss function)
- 平方損失函式(quadratic loss function)
- 絕對損失函式(absolute loss function)
- 對數損失函式(logarithmic loss funcion)
3)學習的損失函式未必是評估時使用的損失函式。
4)訓練誤差的大小反映了模型對訓練資料學習的好壞,測試誤差反映了學習方法對未知的測試資料集的預測能力。
5)正則化是結構風險最小策略的實現,是在經驗風險上加了一個正則化項或罰項。
- L1範數:L1是絕對值最小,趨向於產生少量的特徵,而其它特徵為0。
- L2範數:L2是平方最小,會選擇更多的特徵,這些特徵都會接近0。
6)判別式模型與生成式模式
(1)判別式模型(直接判斷是否有判別邊界)
- 對條件概率P(Y|X)建模。
- 對所有樣本只構建一個模型,確定總體判別邊界。
- 觀測到輸入什麼特徵,就預測最優可能的類標。
- 例子:LR、決策樹、最大熵、條件隨機場
(2)生成式模式
- 對聯合概率P(X, Y)建模
- 分類問題中,每種類標都需要進行建模,最終選擇最優概率的類標,沒有判別邊界
- 例子:樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型
2.統計學習方法
1)統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如文章、網頁、DB資料等。
2)由於它們具有統計規律性,所以可以用概率統計方法來處理,例如:
- 用隨機變數描述資料中的特徵
- 用概率分佈描述資料的統計規律
3)統計學習的目的是對資料進行預測與分析,特別是對未知新資料進行預測與分析。
4)統計學習方法的三要素:模型的假設空間(模型)、模型選擇準則(策略)以及模型學習的演算法(演算法)。
5)學習方法步驟:
- 獲取訓練資料集
- 確定包含所有可能的模型的假設空間(即學習模型的集合)
- 確定模型選擇的準則(即學習策略)
- 實現求解最優模型的演算法(即學習的演算法)
- 通過學習方法選擇最優模型
- 利用學習的最優模型對新資料進行預測或分析
3.監督學習
1)監督學習的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。
2)輸入、輸出的不同型別劃分預測任務:
- 輸入變數與輸出變數均為連續變數的預測問題為迴歸問題
- 輸出變數為有限個離散變數的預測問題為分類問題
- 輸入變數與輸出變數均為變數序列的預測問題為標註問題
標註問題是分類問題的推廣,分類問題只輸出一個值,而標註問題輸出的是一個向量,向量的每個值都屬於一種標記型別。
3)簡單學習的目的在於學習一個由輸入到輸出的對映,這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間。
4.統計學三要素
1)模型
在監督學習過程中,模型就是所要學習的條件概率分佈或決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。
- 決策函式表示模型的非概率模型,決策函式的集合:
- 由條件概率表示的模型為概率模型,條件概率的集合:
2)策略
(1)統計學習的目標在於從假設空間中選取最優模型,需要考慮按照什麼樣的準則學習或選擇最優的模型。
(2)損失函式(loss function)或代價函式(cost function)用來度量預測錯誤的程度,損失函式越小越好。常見的損失函式:
- 0-1損失函式(0-1 loss function)
- 平方損失函式(quadratic loss function)
- 絕對損失函式(absolute loss function)
- 對數損失函式(logarithmic loss funcion)
(3)損失函式的期望就是欺負損失或風險函式,學習的目標就是選擇期望風險最小的模型。
- 模型關於訓練資料集的平均損失稱為經驗風險或經驗損失
- 期望風險是模型關於聯合分佈的期望損失,經驗風險是模型關於訓練集的平均損失。
(4)根據大數定律,當樣本容量趨於無窮大時,經驗風險趨於期望風險。極大似然估計就是經驗風險最小化的例子。當模型是條件概率分佈,損失函式時對數損失函式時,經驗風險最小化等價於極大似然估計。
(5)當樣本容量很小時,經驗風險最小化學習效果未必很好,會產生過擬合。結構風險最小化是為了防止過擬合而提出的策略,等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項或懲罰項。
3)演算法
演算法是指學習模型的具體計算方法。統計學習問題歸結為最優化問題,統計學習的演算法成為求解最優化問題的演算法。
5.模型評估與模型選擇
1)基於損失函式的模型的訓練誤差和測試誤差是學習方法的評估標準。學習的損失函式未必是評估時使用的損失函式。
2)訓練誤差的大小反映了模型對訓練資料學習的好壞,測試誤差反映了學習方法對未知的測試資料集的預測能力。通常將對未知資料的預測能力成為泛華能力。
3)如果一味追求提高對訓練資料的預測能力,所選模型會過擬合,對訓練資料預測得很好,但對未知資料預測得很差。模型選擇旨在避免過擬合併提高模型的預測能力。
6.正則化
1)正則化是結構風險最小策略的實現,是在經驗風險上加了一個正則化項或罰項。
- 第1項為經驗風險,第2項為正則化項,λ≥0為調整兩者之間關係的係數。
- λ能控制對方差和偏差的影響。當λ上升時,它減少了係數的值,從而降低了方差。直到上升到某值之前,λ的增大很有利,因為它只是減少方差(避免過擬合),而不會丟失資料的任何重要特徵。當λ在某值之後,模型會失去重要的特徵,導致偏差上升產生欠擬合。
2)L1範數
L1是絕對值最小,趨向於產生少量的特徵,而其它特徵為0。
3)L2範數
L2是平方最小,會選擇更多的特徵,這些特徵都會接近0。
4)從貝葉斯角度看,正則化對應於模型的先驗概率,可以假設複雜模型有較小的先驗概率,簡單模型有較大的先驗概率。
5)交叉驗證
(1)樣本數量充足時,可以隨機將資料集劃分成三部分,分別為:訓練集、驗證集合測試集。當資料不足時,為了選擇好的模型,可以採用交叉驗證方法。
(2)簡單交叉驗證
隨機把資料劃分成兩部分,使用訓練資料訓練,使用測試資料測試誤差,選出測試誤差最小的模型。
(3)K折交叉驗證
隨機地把資料切分為K份資料量相同的資料,利用K-1資料進行訓練,利用剩餘的子集作測試,共進行K次訓練和測試。選出K次評測中平均測試誤差最小的模型。
(4)留一交叉驗證
K折交叉驗證的特殊情況,K=N,N為總樣本量。
7.泛化能力
1)泛化能力是指模型對未知資料的預測能力。模型對未知資料的預測誤差就是泛華誤差,泛華誤差就是模型的期望風險。
2)比較兩種學習方法的泛化誤差上界的大小來比較它們的優劣。
8.生產模型與判別模型
1)判別式模型
- 對條件概率P(Y|X)建模。
- 對所有樣本只構建一個模型,確定總體判別邊界。
- 觀測到輸入什麼特徵,就預測最優可能的類標。
- 優點:對資料量要求沒生成式模型嚴格,速度也快,小資料量小準確率也會好些。
- 例子:LR、決策樹、最大熵、條件隨機場等
2)生成式模式
- 對聯合概率P(X, Y)建模
- 分類問題中,每種類標都需要進行建模,最終選擇最優概率的類標,沒有判別邊界
- 中間生成聯合分佈,並可生成取樣資料
- 優缺點
- 所包含的資訊非常齊全,所以不僅可以用於預測label,還可以幹其它事情。
- 需要非常充足的資料量以保證取樣到資料本來的面目。
- 當存在隱變數時仍可以使用。
- 速度比較慢。
- 例子:樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型
9.分類問題
1)評價分類器效能的指標一般是分類準確率
2)對於不平衡二分類(如正負比例小於等於1:4)需要採用精確率(precision)和召回率(recall)
(1)名詞說明
- TP:將正類預測為正類數
- FN:將正類預測為負類數
- FP:將負類預測為正類數
- TN:將負類預測為負類數
(2)精確率(查準率),誤預測為正類的數量預測少,精確率越高
(3)召回率(查全率),漏預測的正類的數量預少,召回率越高
(4)F度量(F-measure),常用β=1,即F1度量。精確率和召回率都高時,F1值也會高。
10.標註問題
1)標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測問題的簡單形式。標註問題輸入的是一個觀測序列,輸出是一個標記序列或狀態序列。
2)學習系統基於訓練資料集構建一個模型,表示為條件概率分佈:。標註系統按照學習到的條件概率分佈模型,對新輸入觀測序列找到相應的輸出標記序列。
3)評價標註模型的指標與評價分類模型的一樣。
4)標註常用的統計學習方法有:隱馬爾科夫模型、條件隨機場
5)標註問題再資訊抽取、自然語言處理等領域被廣泛應用。
例子:自然語言處理的次性標註:給定一個由單片語成的句子,對這個句子中的每一個單詞進行標註,即對單詞序列預測其對應的詞性標記序列。
11.迴歸問題
1)迴歸問題等價於函式擬合,選擇一條曲線使其很好地擬合已知資料並很好預測未知資料。
2)迴歸學習最常用的損失函式時平方損失函式,在此情況下,迴歸問題可以由最小二乘法求解。