1. 程式人生 > >機器學習----統計學習方法-1

機器學習----統計學習方法-1

一、統計學習方法概論

統計學習方法是基於資料構建統計從而進行預測和分析,統計學習方法分為監督學習、非監督學習、半監督學習和強化學習
統計學習方法的三要素:假設空間模型選擇的準則模型學習的演算法
這裡寫圖片描述

1.1、基本概念

1.1.1、輸入空間、特徵空間和輸出空間

將輸入和輸出的所有可能的取值的集合分別成為輸入空間(input space)和輸出空間(output space)。
每個具體的輸入是一個例項,通常由特徵向量表示,這時,所有特徵向量存在的空間成為特徵空間,特徵空間的每一維對應一個特徵。

1.1.2、聯合概率分佈

這裡寫圖片描述

1.1.3、假設空間

這裡寫圖片描述

1.2、問題的形式化

監督學習利用訓練資料集學習一個模型,再用模型對測試樣本集進行預測(prediction),監督學習分為學習和預測兩個過程,由學習系統預測系統完成。
這裡寫圖片描述

1.3、統計學習三要素

這裡寫圖片描述

1.3.1、常用的幾種損失函式(loss function)

0-1損失函式
這裡寫圖片描述
平方損失函式

L(Y,f(X))=(Yf(X))2
絕對值損失函式
L(Y,f(X))=|Yf(X)|
對數損失函式
L(Y,f(X))=logP(Y|X)

損失函式越小,模型越好,由於模型的輸入、輸出(X,Y)是隨機變數,遵循聯合分佈P(X,Y),所以損失函式的期望

是:

Rexp(f)=Ep[L(Y,f(X))]=x×yL(y,f(x))P(x,y)dxdy
1.3.2、經驗風險最小化與結構風險最小化

這裡寫圖片描述
在假設空間、損失函式以及訓練資料集確定的情況下,結構風險的定義是:

minfF1Ni=1NL(yi,f(xi))+λJ(f)
這裡寫圖片描述
這裡寫圖片描述

1.4、模型評估和選擇

1.4.1、訓練誤差與測試誤差

訓練誤差是模型關於訓練資料集的平均損失:

Remp=1Ni=1NL(y,f^(xi))
測試誤差是模型關於測試資料集的平均損失:
etest=1Ni=1NL(y,f^(xi))
1.4.2、過擬合和模型的選擇

這裡寫圖片描述

1.5、正則化和交叉驗證

這裡寫圖片描述
交叉驗證
這裡寫圖片描述

1.6、分類問題

這裡寫圖片描述
F1值
這裡寫圖片描述

二、感知機

類似於支援向量機,具體用法及介紹點選這裡

2.1、定義

這裡寫圖片描述

2.2、感知機模型

這裡寫圖片描述

感知機的演算法原理和SVM的原理一致,具體見SVM詳解

2.3、演算法的收斂性

這裡寫圖片描述
最後,
這裡寫圖片描述

三、K近鄰法

3.1、解釋

K近鄰是不具有顯式的學習過程,當K=1的時候,成為最近鄰演算法。
K最近鄰(k-Nearest Neighbour,KNN)分類演算法,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。該方法的思路是:如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
用官方的話來說,所謂K近鄰演算法,即是給定一個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的K個例項(也就是上面所說的K個鄰居), 這K個例項的多數屬於某個類,就把該輸入例項分類到這個類中。
這裡寫圖片描述

3.2、距離度量

特徵空間中兩個例項點的距離是兩個例項點相似程度的反映,k近鄰模型的特徵空間一般是n 維特徵向量的R^2,使用 的距離是歐式距離,也可以使用其他的距離,如下:
這裡寫圖片描述

3.3、k值的選擇

這裡寫圖片描述

3.4、K近鄰搜尋:kd樹

K近鄰法最簡單的實現方法是線性掃描
這裡寫圖片描述

3.5、搜尋方法

這裡寫圖片描述

四、樸素貝葉斯

4.1、原理

樸素貝葉斯分類是一種十分簡單的分類演算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到一個黑人,我問你你猜這哥們哪裡來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用資訊下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。
這裡寫圖片描述

4.2、極大似然估計

案例解決原理
這裡寫圖片描述

4.3、計算 分類的步驟

這裡寫圖片描述

4.4、貝葉斯估計(類似於拉普拉斯平滑)

這裡寫圖片描述