1. 程式人生 > >Coursera機器學習基石筆記week8

Coursera機器學習基石筆記week8

Noise and Error

Noise and Probabilistic Target

這節課引入noise的概念,那麼VC Dimension的推導還成立嗎?

首先,資料集的Noise一般有三種情況:

  • 由於人為因素,正類被誤分為負類,或者負類被誤分為正類;
  • 同樣特徵的樣本被模型分為不同的類;
  • 樣本的特徵被錯誤記錄和使用。

之前的資料集是確定的,即沒有Noise的,我們稱之為Deterministic。現在有Noise了,也就是說在某點處不再是確定分佈,而是概率分佈了,即對每個(x,y)出現的概率是P(y|x)。

因為Noise的存在,比如在x點,有0.7的概率y=1,有0.3的概率y=0,即y是按照P(y|x)分佈的。數學上可以證明如果資料集按照P(y|x)概率分佈且是iid(獨立同分布)的,那麼以前證明機器可以學習的方法依然奏效,VC Dimension有限即可推斷 E

i n E_{in} E o u t
E_{out}
是近似的。
在這裡插入圖片描述
從上圖可知,P(y|x)稱之為目標分佈(Target Distribution),而且確定資料集可以看作是目標分佈的特殊案例。即P(y|x)=1,for y=f(x),P(y|x)=0,for y≠f(x)

Error Measure

在這裡插入圖片描述
PointWise error實際上就是對資料集的每個點計算錯誤並計算平均, E

i n E_{in} E o u t E_{out} 的pointwise error的表示式為:
在這裡插入圖片描述
pointwise error是機器學習中最常用也是最簡單的一種錯誤衡量方式,未來課程中,我們主要考慮這種方式。pointwise error一般可以分成兩類:0/1 error和squared error。0/1 error通常用在分類(classification)問題上,而squared error通常用在迴歸(regression)問題上。
在這裡插入圖片描述
Ideal Mini-Target由P(y|x)和err共同決定,0/1 error和squared error的Ideal Mini-Target計算方法不一樣。例如上面這個例子,分別用0/1 error和squared error來估計最理想的mini-target是多少。0/1 error中的mini-target是取P(y|x)最大的那個類,而squared error中的mini-target是取所有類的加權平方和。

Algorithmic Error Measure

Error有兩種:false accept和false reject。false accept意思是誤把負類當成正類,false reject是誤把正類當成負類。 根據不同的機器學習問題,false accept和false reject應該有不同的權重,這根實際情況是符合的,比如是超市優惠,那麼false reject應該設的大一些;如果是安保系統,那麼false accept應該設的大一些。
在這裡插入圖片描述
常見計算error的方法如下:
在這裡插入圖片描述

Weighted Classification

對於安保系統,false accept權重應該較大,那麼針對這個情況,生成了加權的 E i n E_{in}
在這裡插入圖片描述
我們可以通過virtual copying,來使 E i n w E_{in}^w E i n 0 / 1 E_{in}^{0/1} 扯上關係,相當於使權重不變,但是對於犯錯誤的資料進行虛擬複製1000次,那麼計算 E i n w E_{in}^w 還是可以通過 E i n 0 / 1 E_{in}^{0/1}
在這裡插入圖片描述
在這裡插入圖片描述
但是事實上我們不會真正複製對應的資料集1000次,而是使計算對應的資料集的概率變為原來的1000倍。

###總結
本節課主要講了在有Noise的情況下,即資料集按照P(y|x)概率分佈,那麼VC Dimension仍然成立,機器學習演算法推導仍然有效。機器學習cost function常用的Error有0/1 error和squared error兩類。實際問題中,對false accept和false reject應該選擇不同的權重。對於有權重的演算法,可以利用virtual copying來使原始的演算法一樣有效。