1. 程式人生 > >統計學習方法 李航 支持向量機

統計學習方法 李航 支持向量機

所有 www 基本 通過 btv lfs 說明 地方 目的

技術分享圖片
實際上這裏從線性可分支持向量機到線性支持向量機再到非線性支持向量機,就是從特殊到一般的過程.
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
這裏介紹了函數間隔和幾何間隔,這裏前面乘以y的目的就是為了保證得到的值為正;註意定義中是間隔還是間隔的最小值;先引入函數間隔,然後為了規範化又引入了幾何間隔(這裏我感覺類似於向量中的單位向量,即用向量除以模長).
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
關於間隔最大化,網上看到篇博客是這麽描述的:到樣本中最近的點最遠,感覺很形象;網上還有個證明說誤差次數的上界是由幾何距離決定的,這也就是為什麽u間隔最大化的原因;這裏關鍵是前一節中樣本集的幾何間隔的定義,是所有幾何間隔中的最小值;大致過程,列出約束最優化問題,然後化簡,得到凸二次規劃問題,然後求解即可;後面是證明該解的存在唯一性(可忽略);還有個關鍵點就是理解支持向量和間隔.

技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
上一小節講到最後求解凸二次規劃問題,這裏便給出解法;流程大概是先用拉格朗日函數得到等價的無約束問題(這步書中省略了),然後寫出其對偶問題,(大概原理:然後根據弱對偶性得出對偶問題的解是原問題解的下界,又因為此問題滿足kkt條件,所以轉化成了強對偶性,因此這兩個問題解等價),就變成了求解對偶問題,對偶問題先求內側min的w,b,然後用$\alpha$替換掉w,b,再進一步求解外側max的$\alpha$,求解出$\alpha$後再帶入,便得到了w,b(事實上這裏它也並未說明關於$\alpha$的式子如何求解,網上看到別人說是用smo算法求解的,沒錯,是這樣的,可看7.4節第一段對此算法的描述).

這裏事實上應該是近似線性可分才用這種軟間隔,否則一般的不可分應該用後面提到的核函數.
技術分享圖片
技術分享圖片
技術分享圖片
註意這裏的松弛並非是對所有的點,而好似對一些不正常的點而言的,對於正常的點而言,松弛是為0的;懲罰因子C是表明對不正常點的重視程度的,因此,若C趨近無窮,則就變成了硬間隔了,因此可以認為硬間隔是一種特殊情況.
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
事實上這裏的解法和線性可分是類似的,當然其中也有少量差別,因此不再重復.
技術分享圖片
這裏有點暈暈的,反正我是只知道在軟間隔內是會存在點的.
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
不太理解這個合頁損失函數和整個章節之間的關系.
技術分享圖片
通俗點來講,就是通過空間轉換,即低維度轉向高維度,將非線性映射成線性或者近似線性來求解,即更加的一般化,這裏涉及到了非線性變換,(貌似我們線代老師提到過,原來它可以用在這個地方,深刻感受到仿佛是<數學之美>中的故事一樣);這一小節我基本上就了解了個它的大概思想,實際上裏面很多都沒怎麽看懂.

技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
網上別人博客中說核函數可以理解為就是輸入兩個低維度的向量,輸出高維度的內積.
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
看不太懂.
技術分享圖片
技術分享圖片
說了下幾個常用的核函數,之後對字符串那個的解釋也看不懂.
技術分享圖片
技術分享圖片
大概說了下算法流程,其實和前面也類似,主要有個核方法.

接下來這一大節主要介紹了smo算法,沒怎麽具體看,感覺應該也看不懂,就不做具體解釋了.
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片

參考:
統計學習基礎
https://blog.csdn.net/u010140338/article/details/13509897 很多細節原理都涉及到了
https://blog.csdn.net/b285795298/article/details/81977271 整個流程思路很清晰
https://www.cnblogs.com/ooon/p/5723725.html 拉格朗日那一塊講的非常清楚

統計學習方法 李航 支持向量機