1. 程式人生 > >【機器學習】模型評估與選擇

【機器學習】模型評估與選擇

內容大多來自

  • 統計學習方法——李航
  • 機器學習——周志華

    1. 統計學習三要素

  統計學習方法都是有模型、策略和演算法構成的,也就是統計學習方法由三要素構成,可以簡單地表示為:

=++
構建一種統計學習方法就是確定具體的統計學習的三要素。

1.1 模型

  統計學習首要考慮的問題是學習什麼樣的模型,在監督學習過程中,模型就是所要學習的條件概率分佈或是決策函式。模型的假設空間(hypothesis space)包含所有可能的條件概率分佈或決策函式。例如,假設決策函式是輸入變數的線性函式,那麼模型的假設空間就是所有這些線性函式構成的函式集合。假設空間中的模型一般由無窮多個。

  假設空間用 F 表示。假設空間可以定義為決策函式的集合:

F={f|Y=f(X)}
其中,XY 是定義在輸入空間 X 和輸出空間 Y 上的變數。這是 F 通常是有一個引數向量決定的函式族:
F={f|Y=fθ(X),θRn}
引數向量 θ 取值於 n 維歐式空間 Rn,稱為引數空間(parameter space)。

  假設空間也可以定義為條件概率的集合:

F={P|P(Y|X)}
其中, XY 是定義在輸入空間 X 和輸出空間 Y 上的隨機變數。這時
F
通常由一個引數向量決定的條件概率分佈族:
F={P|Pθ(Y|X),θRn}
引數向量 θ 取值於 n 維歐式空間 Rn,稱為引數空間(parameter space)。

1.2 策略

  有了模型的假設空間,統計徐誒需要考慮的是按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選取最優模型。

  首先引入損失函式與風險函式的概念。

  • 損失函式:度量模型以此預測的好壞;
  • 風險函式:度量平均一一下模型預測的好壞;

1.2.1 損失函式和風險函式

  監督學習問題是在假設空間 F 中選取模型 f 作為決策函式,對於給定的輸入

X,由 f(X) 給出相應的輸出 Y,這個輸出的預測值 f(X) 與真實值 Y 可能一致也可能不一致,用一個損失函式 (loss function) 或 代價函式 (cost function) 來度量預測錯誤的程度。損失函式是 f(X)Y非負實值函式,記做 L(Y,f(X)).\

  統計學習中常用的損失函式有一下幾種

  • 0-1 損失函式 (0-1 loss function)

  • 平方損失函式 (quadratic loss function)

  • 絕對損失函式 (absolute loss function)

  • 對數損失函式 (logarithmic loss function)

    L(Y,P(Y|X))=logP(Y|X)

  損失函式值越小,模型也就越好,由於模型的輸入,輸出 (X,Y) 是隨機變數,遵循聯合分佈 P(X,Y),所以損失函式的期望是