【Machine Learning, Coursera】機器學習Week7 核函式

阿新 • • 發佈：2018-12-13

Kernels

本節內容：
核函式(Kernel)是一類計算變數間相似度的函式，它可用於構造新的特徵變數，幫助SVM解決複雜的非線性分類問題。

相關機器學習概念：
相似度函式(Similarity Function)
高斯核函式(Gaussian Kernel)

1. Kernels

對於下圖中的非線性分類問題，常用的思路是構造多項式特徵變數，如果 $\theta^T x=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x^2_1+\theta_5x^2_2 +...≥0$

θ^{T} x = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1} x_{2} + θ_{4} x_{1}^{2} + θ_{5} x_{2}^{2} + . . . \geq 0

，預測

y=1

，反之預測0.

然而，將所有高階項納入特徵變數會導致運算成本過高等問題，有沒有更好的選擇特徵變數的方法呢？

核函式就是一種可用於構造新的特徵變數的方法。

把新的特徵變數記作 $f$ ， $\theta^T f=\theta_0+\theta_1f_1+...+\theta_nf_n$
$f_i$ 的計算方法如下：
$f_{i} = s i m i l a r i t y (x, l^{(i)}) = e x p (- \frac{‖ x - l^{(i)} ‖^{2}}{2 σ^{2}})$

f_i=similarity(x,l^{(i)})=exp(-\frac{‖ x-l^{(i)} ‖^2}{2\sigma^2})

f_{i} = s i m i l a r i t y (x, l^{(i)}) = e x p (- 2 σ ^{2} ‖ x - l ^{(i)} ‖ ^{2})

其中，

l^{(i)}

是我們事先選擇的一些標記點（選擇方法在下一節會講到），它的維度和樣本點的維度相同，每個標記點定義一個新的特徵變數。這裡的similarity函式是高斯核函式(Gaussian Kernel)，它是核函式中的一種。核函式是眾多相似度函式的總稱。

高斯核函式所做的，其實是計算了樣本點和標記點的遠近程度，距離越近， $f_i$ 的值越接近1，反之，其值越接近0.
如果 $x$

≈l(i)x≈l^{(i)}

x \approx l^{(i)}

，那麼

f_i≈exp(-\frac{0}{2\sigma^2})≈1

如果

x

距離

l^{(i)}

很遠，那麼

f_i≈exp(-\frac{(large\ number)^2}{2\sigma^2})≈0

高斯核函式的表示式中有一個 $\sigma^2$ ，它是高斯核函式的引數，它控制了 $f_i$ 下降的速度。
在這裡插入圖片描述

$\qquad$

2. Application

2.1 SVM with Kernels

要使用核函式，首先需要選擇一系列標記點。

標記點該如何選擇呢？

在實踐中，一種選擇標記點的方法是將標記點與樣本點完全對應。有m個樣本點，就能得到m個標記點。此外，按照慣例，我們可能還會加入一個額外的標記點 $f_0$ ，其值始終為1.

在這裡插入圖片描述

這樣我們就得到了帶核函式的SVM模型：

Hypothesis: Given x, compute features $f∈\R^{m+1}$
$\qquad$ Predict “y=1” if $\theta^T f=\theta_0+\theta_1f_1+...+\theta_mf_m≥0$

Objective function:
$J(\theta)=C\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^T f^{(i)})+(1-y^{(i)})cost_0(\theta^T f^{(i)})]+\frac{1}{2}\sum_{j=1}^m\theta_j^2$
$\qquad$
從原理上看，核函式不僅可以應用於SVM，也可應用於其他演算法，如邏輯迴歸等。但在實踐中我們並不這樣做，原因是用於SVM的計算技巧不能很好地推廣到其他演算法上，核函式和其他演算法結合時運算速度會非常慢。
$\qquad$

2.2 SVM parameters

在這裡插入圖片描述

【Machine Learning, Coursera】機器學習Week7 核函式

Kernels

1. Kernels

2. Application

2.1 SVM with Kernels

2.2 SVM parameters

【Machine Learning, Coursera】機器學習Week7 核函式

【Machine Learning, Coursera】機器學習Week7 支援向量機的應用

【Machine Learning, Coursera】機器學習Week6 偏斜資料集的處理

【Machine Learning, Coursera】機器學習Week6 機器學習應用建議

【Machine Learning, Coursera】機器學習Week3 Logistic Regression

【火爐煉AI】機器學習036-NLP詞形還原

【火爐煉AI】機器學習017-使用GridSearch搜索最佳參數組合

【火爐煉AI】機器學習048-Harris檢測圖像角點

【火爐煉AI】機器學習051-視覺詞袋模型+極端隨機森林建立圖像分類器

【火爐煉AI】機器學習053-資料降維絕招-PCA和核PCA

【火爐煉AI】機器學習054-用ICA做盲源分離

【火爐煉AI】機器學習042-NLP文字的主題建模

【火爐煉AI】機器學習040-NLP性別判斷分類器

【火爐煉AI】機器學習041-NLP句子情感分析

【火爐煉AI】機器學習039-NLP文字分類器

【吳恩達】機器學習第10章學習收穫

【吳恩達】機器學習ex3程式設計練習

【吳恩達】機器學習第13章下以及ex6程式設計作業

【吳恩達】機器學習第14章k-Means以及ex7-k-means程式設計練習

【吳恩達】機器學習第14章PCA以及ex7PCA程式設計練習

【Machine Learning, Coursera】機器學習Week7 核函式

Kernels

1. Kernels

2. Application

2.1 SVM with Kernels

2.2 SVM parameters

相關推薦