1. 程式人生 > >《ESL》學習筆記-第二章 監督學習概述

《ESL》學習筆記-第二章 監督學習概述

文章目錄

變數的型別

定量變數Y

  • 舉例:身高,體重
  • 編碼方式:標量

定性變數G

分類

  • 有序定性變數
  • 無序定性變數

舉例

  • 有序定性變數:物體體積定性描述(小,中,大);
  • 無序定性變數:物體的顏色(紅,綠,藍)

編碼方式

  • 二類定性變數:0-1編碼或者(-1)-1編碼
  • 多類定性變數:獨熱編碼(one-hot)——k類可以用一組k維向量表示,向量中只有某一維的值為1,其餘為0,比如 (
    0 , 0 , 1 ) (0,0,1)
    指示屬性“大”, (
    0 , 1 , 0 ) (0,1,0)
    指示屬性“中”, ( 1 , 0 , 0 ) (1,0,0) 指示屬性“小”。

兩種最簡單的估計模型

線性模型(使用最小二乘估計)

線性模型

假設輸入向量為 x = ( x 1 ; x 2 ; . . . ; x n ) x=(x_1;x_2;...;x_n) ,設 x ^ = ( x ; 1 ) \hat x=(x;1) ,則預測的輸出表示為:
y ^ = x ^ T β ^ \hat y=\hat x^T\hat \beta
β ^ \hat \beta 為待估計引數。

最小二乘的解

β ^ = ( X T X ) 1 X T y \hat \beta=(X^TX)^{-1}X^T\vec y
問題:如何使用矩陣求導得到最小二乘的解?

聚類模型(使用最近鄰估計)

k-NN模型(k近鄰)

y ^ = 1 k x i N k ( x ) y i \hat y=\frac{1}{k}\sum_{x_i\in N_k(x)}y_i
當k=1時即為最近鄰模型

模型含義

對應了特徵空間的劃分

  • 當k=1時,特徵空間被劃分為若干子空間,每個子空間包含且僅包含一個訓練樣本點,子空間內所有點的輸出標記和訓練樣本點保持一致。
  • 當k>1時,特徵空間的劃分變得複雜,但還是運用鄰域的思想。

兩種模型的差異

  • 最小二乘模型比較穩定,但預測不準(方差小,偏差大)
  • 最近鄰模型預測較準,但不穩定,易受訓練集噪聲干擾(方差大,偏差小)

模型的型別

  • 決策式:用決策函式 y = f ( x ) y=f(x) 表徵,上面介紹的兩種模型均為決策式模型。
  • 生成式:用條件概率 f ( y x ) f(y|x) 表徵,可以描述輸入輸出間更為複雜的依賴關係。

統計決策論

期望預測誤差

L ( x ) L(x) 表示損失函式,則期望預測誤差表示為:
E P E ( f ) = E T [ L ( y f ( x ) ) ] EPE(f)=E_T[L(y-f(x))]
E P E ( f ) EPE(f) 是選擇決策函式 f f 的重要判斷依據

偏差-方差分解

當損失函式為平方損失函式時,預測問題為迴歸問題時, E P E ( f ) EPE(f) 可以分解為偏差與方差之和。此時, E P E ( f ) EPE(f) M S E ( f ) MSE(f) (均分誤差),並有
M S E ( x 0 ) = E T [ f ( x 0 ) y ^ 0 ] 2 = E T [ y ^ 0 E T ( y ^ 0 ) ] 2 + E T [ E T ( y ^ 0 ) f ( x 0 ) ] 2 MSE(x_0)=E_T[f(x_0)-\hat y_0]^2=E_T[\hat y_0-E_T(\hat y_0)]^2+E_T[E_T(\hat y_0)-f(x_0)]^2
其中 f ( x ) f(x) 表示真實函式,分解的兩項中前者為方差,後者為偏差。

高維情況下的區域性方法

高維帶來的問題

  • 弱化了“鄰域”的概念,使得鄰域在單一維度下的表現不像鄰域。(需要覆蓋單一維度下足夠大的跨度)
  • 使得靠近樣本空間邊界的樣本點的比例增多
  • 容易造成樣本空間的稀疏性
  • 使均分誤差變大1

結構化迴歸模型

E P E ( f ) EPE(f) 中引入表徵結構複雜度的罰項,實際上是將對解空間模糊性的克服轉換為對約束條件(罰項)的選擇


  1. 均方誤差可以分解為偏差和方差之和,在不同的情況下,起支配作用的物件不同,比如當真實函式用到輸入資料的多維情況時,偏差容易起到支配作用;而當真實函式僅僅用到輸入資料的少量維度時,方容易起到支配作用。 ↩︎