機器學習----統計學習方法-1

阿新 • • 發佈：2019-02-13

一、統計學習方法概論

統計學習方法是基於資料構建統計從而進行預測和分析，統計學習方法分為監督學習、非監督學習、半監督學習和強化學習。
統計學習方法的三要素：假設空間、模型選擇的準則和模型學習的演算法。
這裡寫圖片描述

1.1、基本概念

1.1.1、輸入空間、特徵空間和輸出空間

將輸入和輸出的所有可能的取值的集合分別成為輸入空間（input space）和輸出空間（output space）。
每個具體的輸入是一個例項，通常由特徵向量表示，這時，所有特徵向量存在的空間成為特徵空間，特徵空間的每一維對應一個特徵。

1.1.2、聯合概率分佈

這裡寫圖片描述

1.1.3、假設空間

這裡寫圖片描述

1.2、問題的形式化

監督學習利用訓練資料集學習一個模型，再用模型對測試樣本集進行預測(prediction)，監督學習分為學習和預測兩個過程，由學習系統和預測系統完成。
這裡寫圖片描述

1.3、統計學習三要素

這裡寫圖片描述

1.3.1、常用的幾種損失函式（loss function）

0-1損失函式
這裡寫圖片描述
平方損失函式

L (Y, f (X)) = (Y - f (X))^{2}

絕對值損失函式

L (Y, f (X)) = | Y - f (X) |

對數損失函式

L (Y, f (X)) = - l o g P (Y | X)

損失函式越小，模型越好，由於模型的輸入、輸出（X,Y）是隨機變數，遵循聯合分佈P(X,Y)，所以損失函式的期望

是：

R_{e x p} (f) = E_{p} [L (Y, f (X))] = \int_{x \times y} L (y, f (x)) P (x, y) d x d y

1.3.2、經驗風險最小化與結構風險最小化

這裡寫圖片描述
在假設空間、損失函式以及訓練資料集確定的情況下，結構風險的定義是：

min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

1.4、模型評估和選擇

1.4.1、訓練誤差與測試誤差

訓練誤差是模型關於訓練資料集的平均損失：

R_{e m p} = \frac{1}{N} \sum_{i = 1}^{N} L (y, \hat{f} (x_{i}))

測試誤差是模型關於測試資料集的平均損失：

e_{t e s t} = \frac{1}{N^{^{'}}} \sum_{i = 1}^{N} L (y, \hat{f} (x_{i}))

1.4.2、過擬合和模型的選擇

這裡寫圖片描述

1.5、正則化和交叉驗證

這裡寫圖片描述
交叉驗證

1.6、分類問題

這裡寫圖片描述
F1值

二、感知機

類似於支援向量機，具體用法及介紹點選這裡

2.1、定義

這裡寫圖片描述

2.2、感知機模型

這裡寫圖片描述

感知機的演算法原理和SVM的原理一致，具體見SVM詳解

2.3、演算法的`收斂性`

這裡寫圖片描述
最後，

三、K近鄰法

3.1、解釋

K近鄰是不具有顯式的學習過程，當K=1的時候，成為最近鄰演算法。
K最近鄰(k-Nearest Neighbour，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。
用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項（也就是上面所說的K個鄰居），這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。
這裡寫圖片描述

3.2、距離度量

特徵空間中兩個例項點的距離是兩個例項點相似程度的反映，k近鄰模型的特徵空間一般是n 維特徵向量的R^2，使用的距離是歐式距離，也可以使用其他的距離，如下：
這裡寫圖片描述

3.3、k值的選擇

這裡寫圖片描述

3.4、K近鄰搜尋：kd樹

K近鄰法最簡單的實現方法是線性掃描
這裡寫圖片描述

3.5、搜尋方法

這裡寫圖片描述

四、樸素貝葉斯

4.1、原理

樸素貝葉斯分類是一種十分簡單的分類演算法，叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素，樸素貝葉斯的思想基礎是這樣的：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。通俗來說，就好比這麼個道理，你在街上看到一個黑人，我問你你猜這哥們哪裡來的，你十有八九猜非洲。為什麼呢？因為黑人中非洲人的比率最高，當然人家也可能是美洲人或亞洲人，但在沒有其它可用資訊下，我們會選擇條件概率最大的類別，這就是樸素貝葉斯的思想基礎。
這裡寫圖片描述

4.2、極大似然估計

案例解決原理
這裡寫圖片描述

4.3、計算分類的步驟

這裡寫圖片描述

4.4、貝葉斯估計（類似於拉普拉斯平滑）

這裡寫圖片描述

機器學習----統計學習方法-1

一、統計學習方法概論

1.1、基本概念

1.1.1、輸入空間、特徵空間和輸出空間

1.1.2、聯合概率分佈

1.1.3、假設空間

1.2、問題的形式化

1.3、統計學習三要素

1.3.1、常用的幾種損失函式（loss function）

1.3.2、經驗風險最小化與結構風險最小化

1.4、模型評估和選擇

1.4.1、訓練誤差與測試誤差

1.4.2、過擬合和模型的選擇

1.5、正則化和交叉驗證

1.6、分類問題

二、感知機

2.1、定義

2.2、感知機模型

2.3、演算法的收斂性

三、K近鄰法

3.1、解釋

3.2、距離度量

3.3、k值的選擇

3.4、K近鄰搜尋：kd樹

3.5、搜尋方法

四、樸素貝葉斯

4.1、原理

4.2、極大似然估計

4.3、計算 分類的步驟

4.4、貝葉斯估計（類似於拉普拉斯平滑）

相關推薦

2.3、演算法的`收斂性`

4.3、計算分類的步驟