統計學習方法---第一章統計學習方法概論
統計學習的三要素:
(1)模型:所要學習的條件概率分佈或決策函式。
(2)策略:按照什麼樣的準則學習或選擇最優的模型。
(3)演算法:學習模型的具體計算方法。
方法 = 模型 + 策略 + 演算法
統計學習包括:
監督學習,半監督學習,非監督學習,強化學習
監督學習的方法與應用:
分類問題,標註問題,迴歸問題
模型的選擇方法:
正則化,交叉驗證,學習的泛化能力
統計學習的目的:對資料進行預測與分析。
目標:從假設空間中選取最優模型。
物件:資料
迴歸問題:
輸入變數與輸出變數均為連續變數的預測問題。
分類問題:
輸出變數為有限個離散變數的預測問題。
標註問題:
輸入變數與輸出變數均為變數序列的預測問題。
聯合概率分佈:
兩個及以上隨機變數組成的隨機變數的概率分佈。表示為:P(X,Y)
條件概率分佈:
就是由條件的聯合概率分佈。描述輸入與輸出隨機變數之間的對映關係。
假設空間:
模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間。
監督學習:
利用訓練資料集學習一個模型,再用模型對測試樣本集進行預測。
分為兩個部分:訓練和預測。
風險函式:
度量平均意義下模型預測的好壞。
損失函式:
度量模型一次預測的好壞。記作:L(Y,f(x)).損失函式值越小,模型就越好。
損失函式的期望:
期望風險R(exp)是模型關於聯合分佈的期望損失。
經驗風險或經驗損失:模型關於訓練資料集的平均損失。記作R(emp):
當樣本容量N趨於無窮時,經驗風險趨於期望風險。
經驗風險最小化(ERM)
當模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。
結構風險最小化(SRM):為了防止過擬合而提出來的策略。
結構風險最小化等價於正則化。
結構風險最小化就等價於最大後驗概率估計。
過擬合:
所選模型的複雜度往往會比真模型更高。
這一現象對已知資料預測的很好,但對未知資料預測的很差的現象。
正則化:
一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。
一般形式:
第一項是經驗風險,第二項是正則化。
正則化項可以是引數向量的L2範數:
L1範數:
交叉驗證:
訓練集:訓練模型。
驗證集:模型的選擇。
測試集:最終對學習方法的評估。
基本想法:重複地使用資料。
1.簡單的交叉驗證
隨機地將已給資料分為兩部分。
2.S折交叉驗證
隨機地將已給資料分為S個互不相交的大小想同的子集;
然後利用 S-1 個子集的資料訓練模型,利用餘下的子集測試模型。
3.留一交叉驗證
S折交叉驗證的特殊情形是 S = N。
泛化能力:
通過測試誤差來評價學習方法的泛化能力。
泛化誤差就是所學習得到的模型的期望風險
泛化誤差:
泛化誤差上界:
歐式空間:
輸出空間遠遠小於輸入空間。