1. 程式人生 > >感知機1 -- 感知機模型

感知機1 -- 感知機模型

設有 統計學 pan 一點 一個 隨著 法向量 存在 strong

聲明:

1,本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結,不得用作商用。歡迎轉載。但請註明出處(即:本帖地址)。

2,因為本人在學習初始時有非常多數學知識都已忘記,因此為了弄懂當中的內容查閱了非常多資料。所以裏面應該會有引用其它帖子的小部分內容。假設原作者看到能夠私信我。我會將您的帖子的地址付到以下。

3,假設有內容錯誤或不準確歡迎大家指正。

4。假設能幫到你,那真是太好了。

定義

感知機模型說白了就是推斷“屬於規定類?還是不屬於規定類”的模型。

其函數為:

F(x)= sign(w·x + b)

w、b :感知機模型的參數

w∈Rn :權值/權值向量

b∈R :偏置

w·x :w和x的內積

Sign :符號函數

感知機為一種線性分類模型,屬於一宗判別模型

感知機的幾何解釋

首先。其線性方程為w·x + b = 0,於是例如以下圖所看到的:

技術分享

若該線性方程相應特征空間Rn

中的一個超平面S,則w為該超平面的法向量,b為超平面的截距,該超平面將Rn分成正負兩類。於是該超平面也被稱為分離超平面

第一次總結

綜上所述。感知機預測就是通過學習得到的感知機模型,給出新輸入實力相應的輸出類別。

線性可不可分

對數據集 T={(x1,y1),(x2,y2),...,(xn,yn)},當中x1∈Rn。yi={+1,-1}, i=1, 2, ...,n,若存在一超平面S:

w·x + b = 0

可將數據集的正實例點和負實例點全然正確的劃分到超平面的兩側。即:

對全部的yi = +1的實例i,有w·xi

+ b > 0

對全部的yi = -1的實例i,有w·xi+ b < 0

則稱數據集T為線性可分數據集,反之。稱其為線性不可分數據集

感知機學習策略

於是。其學習策略就是找出一個可將數據集全然正確分離的超平面:

w·x + b = 0

話句話說。就是確定w和b這兩個參數

而為了確定這兩個參數,我們需了解下“損失函數”。

損失函數

我們規定,損失函數為誤分類點到超平面S的總距離。

於是,我們先寫出輸入空間Rn中任一點x0到超平面S的距離:

|w·x + b| / ||w||

這裏||w||為w的L2範數。

對於誤分類的數據(xi,yi)來說:

-yi(wxi + b) > 0

由於。對於誤分類的數據:

w·x + b > 0 時,yi = -1

w·x + b < 0 時。yi = +1

於是

∵誤分類點xi到超平面S的距離為:

-yi(wxi + b) / ||w||

∴ 對於誤分類點集合M。全部誤分類點到S的總距離為:

技術分享

∴若不考慮1/||w|||,就得到了感知機學習模型的損失函數

最後,損失函數定義為:

對給定數據集 T={(x1,y1),(x2,y2),...,(xn,yn)},當中x1∈Rn,yi={+1,-1}, i=1, 2, ...,n

感知機sign(w·x + b)學習的損失函數定義為:

L(w,b) = -yi(w·xi + b)

當中。M為誤分類點的集合。

第二次總結(關於損失函數)

1, 損失函數L(w, b) 是非負的

2, 若無誤分類點,則損失函數為0

而隨著誤分類點的降低。損失函數的值也會降低

3, 一個特定的樣本的損失函數:

在誤分類時為參數w,b 的線性函數,在正確分類時為0

4, 於是。對給定訓練數據T。損失函數L(w, b)為:w,b的連續可導函數

感知機學習算法的最優化方法

感知機學習算法的最優化的方法為:隨機梯度下降算法。

(類似的還有個:最小二乘法)

感知機學習算法的原始形式

現已知,對於誤分類點的幾何,損失函數為:

L(w,b) = -yi(w·xi + b)

於是乎,我們的目的就是求L(w, b)的極小值,而這裏,我們選擇隨機梯度下降算法來求此極小值。

以下請轉到“隨機梯度下降算法”的總結。

感知機1 -- 感知機模型