Coursera機器學習基石筆記week8

阿新 • • 發佈：2018-11-12

Noise and Error

Noise and Probabilistic Target

這節課引入noise的概念，那麼VC Dimension的推導還成立嗎？

首先，資料集的Noise一般有三種情況：

由於人為因素，正類被誤分為負類，或者負類被誤分為正類；
同樣特徵的樣本被模型分為不同的類；
樣本的特徵被錯誤記錄和使用。

之前的資料集是確定的，即沒有Noise的，我們稱之為Deterministic。現在有Noise了，也就是說在某點處不再是確定分佈，而是概率分佈了，即對每個(x，y)出現的概率是P(y|x)。

因為Noise的存在，比如在x點，有0.7的概率y=1，有0.3的概率y=0，即y是按照P(y|x)分佈的。數學上可以證明如果資料集按照P(y|x)概率分佈且是iid（獨立同分布）的，那麼以前證明機器可以學習的方法依然奏效，VC Dimension有限即可推斷 $E$

i n E_{in}

E_{i n}

和

E_{out}

是近似的。

從上圖可知，P(y|x)稱之為目標分佈（Target Distribution），而且確定資料集可以看作是目標分佈的特殊案例。即P(y|x)=1,for y=f(x)，P(y|x)=0,for y≠f(x)

Error Measure

在這裡插入圖片描述
PointWise error實際上就是對資料集的每個點計算錯誤並計算平均， $E$

i n E_{in}

E_{i n}

和

E_{out}

的pointwise error的表示式為：
在這裡插入圖片描述

pointwise error是機器學習中最常用也是最簡單的一種錯誤衡量方式，未來課程中，我們主要考慮這種方式。pointwise error一般可以分成兩類：0/1 error和squared error。0/1 error通常用在分類（classification）問題上，而squared error通常用在迴歸（regression）問題上。
在這裡插入圖片描述

Ideal Mini-Target由P(y|x)和err共同決定，0/1 error和squared error的Ideal Mini-Target計算方法不一樣。例如上面這個例子，分別用0/1 error和squared error來估計最理想的mini-target是多少。0/1 error中的mini-target是取P(y|x)最大的那個類，而squared error中的mini-target是取所有類的加權平方和。

Algorithmic Error Measure

Error有兩種：false accept和false reject。false accept意思是誤把負類當成正類，false reject是誤把正類當成負類。根據不同的機器學習問題，false accept和false reject應該有不同的權重，這根實際情況是符合的，比如是超市優惠，那麼false reject應該設的大一些；如果是安保系統，那麼false accept應該設的大一些。
在這裡插入圖片描述
常見計算error的方法如下：

Weighted Classification

對於安保系統，false accept權重應該較大，那麼針對這個情況，生成了加權的 $E_{in}$ ：
在這裡插入圖片描述
我們可以通過virtual copying，來使 $E_{in}^w$ 和 $E_{in}^{0/1}$ 扯上關係，相當於使權重不變，但是對於犯錯誤的資料進行虛擬複製1000次，那麼計算 $E_{in}^w$ 還是可以通過 $E_{in}^{0/1}$ 。

但是事實上我們不會真正複製對應的資料集1000次，而是使計算對應的資料集的概率變為原來的1000倍。

###總結
本節課主要講了在有Noise的情況下，即資料集按照P(y|x)概率分佈，那麼VC Dimension仍然成立，機器學習演算法推導仍然有效。機器學習cost function常用的Error有0/1 error和squared error兩類。實際問題中，對false accept和false reject應該選擇不同的權重。對於有權重的演算法，可以利用virtual copying來使原始的演算法一樣有效。

Coursera機器學習基石筆記week8

Noise and Error

Noise and Probabilistic Target

Error Measure

Algorithmic Error Measure

Weighted Classification

Coursera機器學習基石筆記week8

Coursera機器學習基石筆記week4

Coursera機器學習基石筆記week3

Coursera機器學習基石筆記Week2

Coursera機器學習基石筆記Week1

Coursera機器學習基石筆記week7

Coursera機器學習基石筆記week9

Coursera機器學習基石筆記week6

Coursera機器學習基石筆記week5

Coursera機器學習基石筆記week16

Coursera機器學習基石筆記week15

Coursera機器學習基石筆記week14

Coursera機器學習基石筆記week13

Coursera機器學習基石筆記week12

Coursera機器學習基石筆記week11

Coursera機器學習基石筆記week10

機器學習基石筆記-Lecture 10 Logistic regression

機器學習基石筆記-Lecture 9 Linear regression

機器學習基石筆記-Lecture 4 Learning is possible

機器學習基石筆記-Lecture 3 Types of learning

Coursera機器學習基石筆記week8

Noise and Error

Noise and Probabilistic Target

Error Measure

Algorithmic Error Measure

Weighted Classification

相關推薦