1. 程式人生 > >周志華機器學習總結

周志華機器學習總結

Lecture3 線性模型

基本形式

一般向量形式:

f (

x ) = ω T x + b
f(\boldsymbol{x}) = \boldsymbol{\omega}^T*\boldsymbol{x}+b

優點:

  1. 非線性模型可由線性模型通過引入層級結構和高維對映得到
  2. 具有很好的解釋性(哪一個引數更為重要)

線性迴歸

根據給定資料集,是給定一個線性模型儘可能準確的預測實值的輸出標記
最小化均方誤差的模型求解方法即為最小二乘法
( ω

, b ) = argmin ( ω , b ) i = 1 m ( y i ω x i b ) (\boldsymbol{\omega}^*, b^*) = \underset{(\boldsymbol{\omega},b)}{\text{argmin}}\sum_{i=1}^{m}(y_i-\boldsymbol{\omega}*\boldsymbol{x_i}-b)
上式中樣本 x i \boldsymbol{x_i} 由多個屬性描述,稱為多元線性迴歸

廣義線性模型

y = g 1 ( ω T x + b ) y = g^{-1}(\boldsymbol{\omega}^T\boldsymbol{x}+b)
g ( ) g() 為單調可微函式,當對應輸出不為線性變化時引入 g ( ) g() 。比如輸出在指數尺度上變化時,引入對數,則輸出就可近似為線性

對數機率迴歸

尋找一個單調可謂的函式將分類任務的真實標記 y y 與線性迴歸函式的預測值聯絡起來,拿2分類任務為例,簡單的方法是選擇單位階階躍函式,但是該函式並不連續,因此選擇類似的對數機率函式
f ( x ) = 1 1 + e ( ω x + b ) f(x) = \frac{1}{1+e^{-(\omega x + b)}}
對數機率函式是任意階可導的凸函式

由對數機率函式確定 ω \boldsymbol{\omega} b b

對數機率函式可變化為
l n y 1 y = ω T x + b ln\frac{y}{1-y} = \boldsymbol{\omega}^T\boldsymbol{x} + b
y = p ( y = 1       x ) y = p(y=1\;|\;\boldsymbol{x}) ,則 1 y = p ( y = 0       x ) 1-y = p(y=0\;|\;\boldsymbol{x})
所以
p ( y = 1       x ) = e ω T x + b 1 + e ω T x + b p ( y = 0       x ) = 1 1 + e ω T x + b p(y=1\;|\;\boldsymbol{x}) = \frac{e^{\boldsymbol{\omega}^T\boldsymbol{x} + b}}{1+e^{\boldsymbol{\omega}^T\boldsymbol{x}+b}} p(y=0\;|\;\boldsymbol{x}) = \frac{1}{1+e^{\boldsymbol{\omega}^T\boldsymbol{x}+b}}
然後通過最大似然法估計引數,根據給定模型,對數迴歸模型最大化‘對數似然’
l ( ω , b ) = i = 1 m ln p ( y i       x ; ω , b ) l(\boldsymbol{\omega}, b) = \sum_{i=1}^{m}\ln p(y_i\;|\;\boldsymbol{x};\boldsymbol{\omega},b)
即使得m個樣本的預測為真是標記的概率最大
為了表示方便,可以將概率 p p 表示為
p ( y i       x i ; ω , b ) = y i p 1 ( x , ω , b ) + ( 1 y i ) p 0 ( x , ω , b ) p(y_i\;|\;\boldsymbol{x}_i;\boldsymbol{\omega},b) = y_ip_1(\boldsymbol{x,\omega},b) + (1-y_i)p_0(\boldsymbol{x,\omega},b)
p 1 p_1 表示預測為1的概率, p 2 p_2 表示為預測為0的概率,則 p 1 = 1 p 0 p_1 = 1 - p_0
所以原式可表示為
p ( y i       x i ; ω , b ) = y i    p ( x , ω , b ) + ( 1 y i )    ( 1 p ( x , ω , b