統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

阿新 • • 發佈：2019-01-16

簡介

感知機（perceptron）是二分類的線性分類模型，其輸入為例項的特徵向量，輸出為例項的類別，取+1和-1二值。感知機對應於輸入空間（特徵空間）中將例項劃分為正負兩類的分離超平面，屬於判別模型，解決的問題是分類問題。

目標/目的：求出將訓練資料進行線性劃分的分類超平面，為此匯入誤分類的損失函式，利用梯度下降法對損失函式進行最小化，求的感知機模型。

感知機學習演算法具有簡單而易於實現的優點，分為原始形式和對偶形式。感知機預測是用學習得到的感知機模型對新的輸入例項進行分類。

總的來說：

模型：符號函式（判別模型）
策略：損失函式：誤分點到超平面距離之和
演算法：利用梯度下降演算法進行優化

感知機模型

定義（感知機）

假設輸入空間（特徵空間）是 $\chi \in R^{n}$ ,輸出空間是Y={+1,-1}。輸入 $x\in \chi$ 表示例項的特徵向量，對應於輸入空間（特徵空間）的點；輸出 $y\in Y$ 表示例項的類別。由輸入空間到輸出空間的如下函式

$f(x)=sign(w\cdot x+b)$ (2.1)

稱為感知機。其中，w和b為感知機的模型引數， $w\in R^{n}$ 叫作權值(weight)貨值權值向量（weight vector）， $b\in R$ 叫做偏置(bias)， $w\cdot x$ 表示w和x的內積，sign()是符號函式：

$sign(x)=\left\{\begin{matrix} +1 & x\geqslant0\\ -1 & x< 0 \end{matrix}\right.$

感知機是一種線性分類模型，屬於判別模型。感知機模型的假設空間是定義在特徵空間中的所有線性分類模型或者線性分類器，即函式集合：{f|f(x)=w.x+b}。

感知機的幾何解釋：

線性方程 $w\cdot x+b=0$ 對應於特徵空間 $R^{n}$ 中的一個超平面S，其中w是超平面的法向量，b是超平面的截距（不理解的可以百度一下，法向量與直線方程的關係）。這個超平面將特徵空間劃分為兩個部分。位於兩部分的點（特徵向量）被分為正負兩類，因為超平面S稱為分類超平面（separating hyperplane）。

感知機的學習：由訓練資料集（例項的特徵向量以及類別） $T=\{(x_1,y_1),(x_1,y_1),...,(x_N,y_N)\}$ ,其中， $x_{i}\in \chi =R^{n},y_{i}\in Y=\{ +1,-1\},i=1,2,3,...N$ ，求得感知機模型，也就是求出引數w和b。
感知機的預測：通過學習得到的感知機模型，對於新的輸入例項給出其對應的輸出類別。

感知機的學習策略

定義（資料集的線性可分性）：

給定一個數據集，

$T=\{(x_1,y_1),(x_1,y_1),...,(x_N,y_N)\}$ ,其中， $x_{i}\in \chi =R^{n},y_{i}\in Y=\{ +1,-1\},i=1,2,3,...N$ ，如果存在某個超平面S： $w\cdot x+b=0$ ，能夠將資料集的正例項和負例項完全正確

地劃分到超平面的兩側，即對所有 $y_{i}=+1$ 的例項i，有： $w\cdot x_{i}+b>0$ ；對所有 $y_{i}=-1$ 的例項i，有 $w\cdot x_{i}+b<0$ ，則稱資料集T為線性可分資料集（Linear separable dataset）；否則，稱資料集T線性不可分。

感知機學習策略

假設訓練資料集是線性可分的，感知機學習的目標是求得一個能夠將訓練集正例項點和負例項點完全正確分開的分離超平面，為了找出這樣的超平面，即確定感知機模型的引數w，b，需要確定一個學習策略，即定義（經驗）損失函式並將損失函式最小化。

損失函式的一個自然選擇是誤分類點的總數，但是這樣的損失函式不是引數w，b的連續可導函式，不宜優化。損失函式的另一個選擇是誤分類點到超平面S的總距離，這是感知機所採用的。
為此，首先，寫出輸入空間中任意一點x,到超平面S的距離(點到直線的距離)：

$\frac{1}{\parallel w\parallel}\mid w\cdot x_{0}+b\mid$

其次，對於誤分類點（xi,yi）來說，有 $-y_{i}(w\cdot x_{i}+b)>0$ ，因此誤分點xi到超平面S的距離可以寫成如下公式：

$-\frac{y_{i}(w\cdot x_{i}+b)}{\parallel w\parallel }$

這樣，假設超平面S的誤分類點集合為M，那麼所有誤分類點到超平面S的總距離為：

$-\frac {1}{\parallel w\parallel }\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$
不考慮 $\frac {1}{\parallel w\parallel }$ ，則得到感知機學習的損失函式。

補充：為什麼不考慮 $\frac {1}{\parallel w\parallel }$ ：

1、1/||w||恆為正，不影響-y(w*x+b)正負的判斷，也就是不影響學習演算法的中間過程。因為感知機學習演算法是誤分類驅動的（只有當出現誤分類時才去調整模型，或者說損失函式只與誤分類點有關），這裡需要注意的是，所謂的“誤分類驅動”指的是我們只需要判斷-y(w*x+b)的正負來判斷分類的正確與否，而1/||w||並不影響正負值的判斷，所以1/||w||對感知機學習演算法的中間過程可有可無。
2、1/||w||不影響感知機學習演算法的最終結果，因為感知機學習演算法最終的終止條件是所有的輸入都被正確的分類，即不存在誤分類點，則此時的損失函式為0，對應於-y(w*x+b)/||w||，即分子為0.則可以看出1/||w||對最終結果也無影響。

綜上所述，即使忽略1/||w||，也不會對感知機學習演算法的執行過程產生任何影響，反而還能簡化運算，提高演算法執行效率。

給定一個訓練資料集，

$T=\{(x_1,y_1),(x_1,y_1),...,(x_N,y_N)\}$ ,其中， $x_{i}\in \chi =R^{n},y_{i}\in Y=\{ +1,-1\},i=1,2,3,...N$ ，感知機 $sign(w\cdot x+b)$ 學習的損失函式定義為
$L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$ （2.4）

其中，M為誤分類點的集合，這個損失函式就是感知機學習的經驗風險函式。

顯然，損失函式L(w,b)是非負的。如果沒有誤分類點，損失函式值就是0。而且誤分類點越少，誤分類點離超平面越近，都會使得損失函式值越小。一個特定的樣本點的損失函式：在誤分類時是引數w,b的線性函式，在正確分類的時候是0，因此，給定訓練資料集T,損失函式L(w,b)是w,b的連續可導函式。

總之，感知機學習的策略是在假設空間中選取使得損失函式式(2.4)最小的模型引數w,b，即感知機模型。

感知機學習演算法

在感知機優化問題中，最優化方法選擇的是隨機梯度下降法。

感知機學習演算法的原始形式

給定一個訓練資料集，

$T=\{(x_1,y_1),(x_1,y_1),...,(x_N,y_N)\}$ ,其中， $x_{i}\in \chi =R^{n},y_{i}\in Y=\{ +1,-1\},i=1,2,3,...N$ ，求引數w,b，使其為以下損失函式極小化問題的解 $\underset{w,b}minL(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$ (2.5)
其中，M為誤分點的集合。

感知機學習演算法是誤分類驅動的，具體採用隨機梯度下降演算法。首先，任意選擇一個超平面w0,b0，然後用梯度下降演算法不斷極小化目標函式（2.5）式。極小化過程中不是一次使M中所有誤分類點的梯度下降，而是一次隨機選取一個誤分類點使其梯度下降。

假設誤分類點集合M時固定的，那麼損失函式L(w,b)的梯度由

$\bigtriangledown_{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i}$ $\bigtriangledown_{b}L(w,b)=-\sum_{x_{i}\in M}y_{i}$
給出。

隨機選取一個誤分類點(xi,yi),對w,b進行更新：

$w\leftarrow w+\eta y_{i}x_{i}$
$b\leftarrow b+\eta y_{i}$

其中， $\eta (0<\eta\leq 1)$ 是步長，在統計學習中又稱為學習率(learning rate)。這樣，通過迭代，可以期待損失函式L(w,b)不斷縮小，直到為0，綜上所述，得到如下演算法：

再次提醒，注意第二步中，是隨機選擇資料

這種學習演算法直觀上有如下解釋，當一個例項點被誤分類，即位於分離超平面錯誤的一側時，則調整w,b的值，使分離超平面向該誤分類點的一側移動，以減少誤分類點與超平面之間的距離，直到超平面越過該誤分類點，使其被正確分類。

感知機學習演算法由於採不同的初始值(w0,b0)或者選取不同的誤分類點（因為在選取誤分類點的時候是隨機選取的），最終解可以不同。

這裡寫圖片描述

演算法的收斂性

現在證明，對於線性可分的資料集感知機演算法的原始形式收斂，即經過有限次迭代可以得到一個將訓練資料集完全正確劃分的分離超平面及感知機模型。

記 $\widehat{x}=(x^{T},1)^{T}$ , $\widehat{w}=(w^{T},b)^{T}$ 則有， $\widehat{w}\cdot \hat{x}=w\cdot x+b$

定理2.1（novikoff） 設訓練資料集，

$T=\{(x_1,y_1),(x_1,y_1),...,(x_N,y_N)\}$ ,其中， $x_{i}\in \chi =R^{n},y_{i}\in Y=\{ +1,-1\},i=1,2,3,...N$ ，則
(1)存在滿足條件 $\left \| \hat{w}_{opt} \right \|=1$ 的超平面 $\hat{w}_{opt} \cdot \hat{x}=w_{opt}\cdot x+b_{opt}=0$ 將訓練資料集完全正確分開；且存在 $\gamma >0$ ，對所有i=1,2,…,N $y_{i}(\hat{w}_{opt}\cdot \hat{x}_{i})=y_{i}(w_{opt}\cdot x_{opt}+b_{opt})\geqslant \gamma$

(2)令 $R=\underset{1\leqslant i\leqslant N}{max}\left \| \hat{x}_{i} \right \|$ ，則感知計演算法2.1在訓練資料集的誤分次數k滿足不等式

$k\leqslant (\frac{R}{\gamma })^2$

這裡寫圖片描述

（證明過程還是比較簡單的，比較容易理解的，在此就不再多加描述。）

我對收斂性的理解：因為感知機演算法是誤分類驅動的，每次迭代，誤分類點的總間隔（損失函式值）都會下降（梯度下降），而總間隔又是大於等於0的，所以，具有下确界0，根據單調有界函式必收斂的性質可得，感知機學習演算法的原始形式是收斂的。

感知機學習演算法的對偶形式

對偶形式的基本想法是，將w和b表示為例項xi和標記yi的線性組合的形式，通過求解其係數而求得w和b。假設設初始值w0,b0均為0,。對誤分類點(xi,yi)通過

$w\leftarrow w+\eta y_{i}x_{i}$ $b\leftarrow b+\eta y_{i}$

逐步修改w,b，設修改n次，則w,b關於(xi,yi)的增量分別是 $\alpha_{i}y_{i}x_{i}$ 和 $\alpha_{i}x_{i}$ ，這裡 $\alpha_{i}=n_{i}\eta$ ，這樣從學習過程中，不難看出，最後學習得到的w,b可以分別表示為

$w= \sum_{i=1}^{N} \alpha _{i}y_{i}x_{i}$ $b= \sum_{i=1}^{N} \alpha _{i}y_{i}$

這裡 $\alpha _{i}\geq 0,i=1,2,...,N$ 。

我的解釋：對於 $]![$ 意思是，例項點(xi,yi)誤分的次數為ni，每誤分一次，就改變 $\eta$ 步長。注意，存在 $\alpha _{i}=0$ 的情況，例如例項點(xi,yi)從來沒有被誤分過。
當 $\eta =1$ 時，表示第i個例項點由於誤分而進行更新的次數。例項點更新次數越多，就意味著它離分離超平面越近，也就越男正確分類。換句話說，這樣的例項對學習結果影響最大。

這裡寫圖片描述

對偶形式中訓練例項僅以內積的形式出現，為了方便，可以預先將訓練集中例項間的內積計算出來，並以矩陣的形式儲存，這個矩陣就是所謂的Gram矩陣

$G=[x_{i}\cdot x_{j}]_{N\times N}$

這裡寫圖片描述

注意，最後再強調一下，感知機解決的問題的是分類問題，不要和後面要學習到的邏輯斯諦迴歸混淆。

《完》

    人生如棋，落子無悔。
                      ----------By Ada

統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

簡介

感知機模型

定義（感知機）

感知機的幾何解釋：

感知機的學習策略

定義（資料集的線性可分性）：

感知機學習策略

感知機學習演算法

感知機學習演算法的原始形式

演算法的收斂性

感知機學習演算法的對偶形式

統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

感知機:Perceptron Learning Algorithm

統計學習方法筆記9—EM演算法2

【ML】統計學習方法筆記

李航—統計學習方法筆記（一）

統計學習方法筆記1

統計學習方法筆記7.1

《統計學習方法》“支援向量機”一章中說可以取函式間隔等於 1 是為什麼？

統計學習方法_支援向量機SVM實現

統計學習方法筆記（一）：K近鄰法的實現：kd樹

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

《統計學習方法筆記》——Logistic迴歸

統計學習方法筆記（三）K近鄰演算法

統計學習方法筆記（三）統計學習方法簡介

統計學習方法 7-支援向量機

統計學習方法筆記（一）統計學習方法簡介

李航-統計學習方法筆記（一）：統計學習方法概論

統計學習方法學習筆記（二）：感知機

統計學習方法二感知機

《統計學習方法》筆記第二章 —— 感知機

統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

簡介

感知機模型

定義（感知機）

感知機的幾何解釋：

感知機的學習策略

定義（資料集的線性可分性）：

感知機學習策略

感知機學習演算法

感知機學習演算法的原始形式

演算法的收斂性

感知機學習演算法的對偶形式

相關推薦