機器學習-15：MachineLN之感知機

你要的答案或許都在這裡：

我想說：

其實感知機雖然原理簡單，但是不得不說他的意義重大，為什們呢？他是SVM的前身，後面的SVM是由此進化來的，其實兩個結合起來學習會更好的，但是內容太多，SVM三境界，我可能還是停留在“昨夜西風調碧樹，獨上高樓，望盡天涯路”，期待突破後面的兩重天：“衣帶漸寬終不悔，為伊消得人憔碎”， “眾裡尋他千百度，驀然回首，那人卻在，燈火闌珊處”。說起三境界不得不提佛家三境界：看山是山，看水是水；看山不是山，看水不是水；看山還是山，看水還是水。兩者相通互補吧，才疏學淺不敢瞎說，理解還是有點困難的，突然感覺很多事情都是相通的，分久必合，合久必分？亂了亂了，我整天就知道瞎說，別介意。另外最近開始想這麼一個問題：什麼樣的資料不適合用卷積？什麼樣的資料不適合用池化？什麼樣的資料只適合用全連線的結構？

稍微有點眉目；感覺真的沒有通用的網路！！！真是悲哀，以前提通用AI差點被罵死，出來DL後沒人再提，只是說針對特定領域特定問題的AI；

看完文章記得最下面的原文連結，有驚喜哦！

說起感知機，那麼我的問題：（根據MachineLN之三要素：模型、策略、演算法）

（1）什麼是感知機？（模型）

（2）感知機是如何學習的？（策略）

（3）感知機學習演算法？（演算法）

看到這裡你的答案是什麼？下面是我的答案：

1. 什麼是感知機？

感知機是一個二類分類的線性分類模型。那麼說起線性與非線性請參考MachineLN之啟用函式;

感知機模型：

其中，w和b為感知機引數，w∈Rn叫做權值或權值向量，

b∈R叫做偏置，w⋅x表示w和x的內積。感知機學習的目的就在於確定引數w和b的值。符號函式sign(x)不用多解釋吧：

看到這裡其實可以聯絡到兩個模型：（1）邏輯迴歸：把sign改為sigmoid就是邏輯迴歸表示式；（2）SVM：表示式可以定義為一樣；策略和演算法差不遠了去了（為了解決感知機的不足）；

幾何解釋：

可以用下面的線性方程表示：

可以理解時一個特徵空間中的一個超平面，其中w是超平面的法向量（為什麼？），b是超平面的截距，這個超平面會把分成兩部分，將點分為正、負兩部分，看一下圖吧：

下面是w為什麼是超平面的法向量？（看書時候的筆記）

是的感知機就是在找這麼一個能夠將兩個類別資料分開的超平面；並且超平面不是唯一的（引數更新的時候：樣本的順序是很大因素）；（SVM就是將感知機的不唯一變為唯一，後面我們會擼svm原始碼，使用拉格朗日直接求解引數，和使用tensorflow的梯度下降求解引數，這時候損失函式要重新定義）

2. 感知機是如何學習的？

其實這裡就是策略，就是常提的損失函式：用來衡量預測值和真實值的相似度的；有時候損失函式直接選擇誤分類點的總數更直觀，但是這個損失函式不是引數的連續可導的函式（那麼為什麼非要可導：好像無論梯度下降，最小二乘法等都得可導吧，那麼為什麼非得用梯度下降最小二乘法等？有人說你這是瞎搞，哦nonono，這才是真正要探索的東西，你如果有好的方法不用非讓損失函式可導，那麼你就厲害了）；

先看一下下面的公式：應該很熟悉吧，點到直線的距離；

是L2範數應該很明白了。

但是，這裡很重要：要弄明白所關心的是什麼點到直線的距離作為函式，是分類正確的點？還是分類錯誤的點？提醒到這裡大家就很明白，不說透的話是不是感覺雲裡霧裡！那麼說到誤分類點，它是滿足下面條件的：（為什麼呢？因為我們預測的輸出為[-1, 1],誤分類點和真實值肯定異號，正確分類的點肯定同號）

那麼我們可以重新定義損失函式：就是誤分類點的點到超平面的距離，注意是誤分類！！！下一篇程式碼實現可以格外注意一下；用下面的式子定義：

那麼所有誤分類點到超平面的總距離可以定義為：

不考慮，得到感知機的損失函式為：

那麼問題又來了，為什麼不考慮呢？？？這也正是它的分類超平面不唯一的原因之一！（在SVM中為什麼又考慮呢？）

個人理解：因為感知機任務是進行二分類工作，最終並不關心得到的超平面點的距離有多少（SVM格外關心哦！）（所以我們才可以不去考慮L2正規化；）只是關心最後是否正確分類（也就是隻考慮誤分類點的個數）正如下面這個圖（有點糙）x1,x2是一類，x3是一類，對於感知機來說是一樣好的，而SVM就是那麼最求完美的人，我只要最好！