【機器學習】模型評估與選擇

內容大多來自

統計學習方法——李航
機器學習——周志華

1. 統計學習三要素

統計學習方法都是有模型、策略和演算法構成的，也就是統計學習方法由三要素構成，可以簡單地表示為：

方 法 = 模 型 + 策 略 + 算 法

構建一種統計學習方法就是確定具體的統計學習的三要素。

1.1 模型

統計學習首要考慮的問題是學習什麼樣的模型，在監督學習過程中，模型就是所要學習的條件概率分佈或是決策函式。模型的假設空間（hypothesis space）包含所有可能的條件概率分佈或決策函式。例如，假設決策函式是輸入變數的線性函式，那麼模型的假設空間就是所有這些線性函式構成的函式集合。假設空間中的模型一般由無窮多個。

假設空間用 $F$ 表示。假設空間可以定義為決策函式的集合：

F = {f | Y = f (X)}

其中，

X

和

Y

是定義在輸入空間

X

和輸出空間

Y

上的變數。這是

F

通常是有一個引數向量決定的函式族：

F = {f | Y = f_{θ} (X), θ \in R^{n}}

引數向量

θ

取值於

n

維歐式空間

R^{n}

，稱為引數空間（parameter space）。

假設空間也可以定義為條件概率的集合：

F = {P | P (Y | X)}

其中，

X

和

Y

是定義在輸入空間

X

和輸出空間

Y

上的隨機變數。這時

F

通常由一個引數向量決定的條件概率分佈族：

F = {P | P_{θ} (Y | X), θ \in R^{n}}

引數向量

θ

取值於

n

維歐式空間

R^{n}

，稱為引數空間（parameter space）。

1.2 策略

有了模型的假設空間，統計徐誒需要考慮的是按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選取最優模型。

首先引入損失函式與風險函式的概念。

損失函式：度量模型以此預測的好壞；
風險函式：度量平均一一下模型預測的好壞；

1.2.1 損失函式和風險函式

監督學習問題是在假設空間 $F$ 中選取模型 $f$ 作為決策函式，對於給定的輸入 $X$

X

，由

f (X)

給出相應的輸出

Y

，這個輸出的預測值

f (X)

與真實值

Y

可能一致也可能不一致，用一個損失函式 (loss function) 或代價函式 (cost function) 來度量預測錯誤的程度。損失函式是

f (X)

和

Y

的 非負實值函式，記做

L (Y, f (X))

統計學習中常用的損失函式有一下幾種

0-1 損失函式 (0-1 loss function)
平方損失函式 (quadratic loss function)
絕對損失函式 (absolute loss function)
對數損失函式 (logarithmic loss function)

$L (Y, P (Y | X)) = - l o g P (Y | X)$

損失函式值越小，模型也就越好，由於模型的輸入，輸出 $(X, Y)$ 是隨機變數，遵循聯合分佈 $P (X, Y)$ ，所以損失函式的期望是

R_{e x p} (f) = E_{p} [L (Y, f (X))] = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y

【機器學習】模型評估與選擇

1. 統計學習三要素

1.1 模型

1.2 策略

1.2.1 損失函式和風險函式

【機器學習】模型評估與選擇

AI工程師成長之路--機器學習之模型評估與選擇

機器學習筆記--模型評估與選擇

機器學習初學者——模型評估與選擇

【機器學習123】模型評估與選擇 (上)

機器學習-學習筆記模型評估與選擇

機器學習：模型評估和選擇

【機器學習】決策樹與隨機森林（轉）

機器學習之模型評估與引數調優

【機器學習】精確率與召回率

【機器學習】模型的效能評價指標

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

【機器學習筆記】第二章：模型評估與選擇

【機器學習】機器學習模型訓練與測試評估

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

機器學習第二章：模型評估與選擇-總結

機器學習（西瓜書）模型評估與選擇

機器學習總結之第二章模型評估與選擇

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

西瓜書《機器學習》學習筆記二模型評估與選擇（二）效能度量 ROC AUC...