【斯坦福---機器學習】複習筆記之生成學習演算法

阿新 • • 發佈：2019-01-20

本講大綱：

1.生成學習演算法（Generative learning algorithm）
2.高斯判別分析（GDA，Gaussian Discriminant Analysis）
3.樸素貝葉斯（Naive Bayes）
4.拉普拉斯平滑（Laplace smoothing）

1.生成學習演算法

判別學習演算法（discriminative learning algorithm）:直接學習p(y|x)（比如說logistic迴歸）或者說是從輸入直接對映到{0,1}.

生成學習演算法（generative learning algorithm）:對p(x|y)（和p(y)）進行建模.

簡單的來說，判別學習演算法的模型是通過一條分隔線把兩種類別區分開，而生成學習演算法是對兩種可能的結果分別進行建模，然後分別和輸入進行比對，計算出相應的概率。

比如說良性腫瘤和惡性腫瘤的問題，對良性腫瘤建立model1（y=0），對惡性腫瘤建立model2（y=1），p(x|y=0)表示是良性腫瘤的概率,p(x|y=1)表示是惡性腫瘤的概率.

根據貝葉斯公式（Bayes rule）推匯出y在給定x的概率為：這裡寫圖片描述

2.高斯判別分析

GDA是我們要學習的第一個生成學習演算法.

GDA的兩個假設：

假設輸入特徵x∈Rn，並且是連續值;
p(x|y)是多維正態分佈（multivariate normal distribution）

;

2.1 多維正態分佈
若x服從多維正態分佈（也叫多維高斯分佈），均值向量（mean vector）這裡寫圖片描述，協方差矩陣（convariance matrix），寫成x~, 其密度函式為：

表示行列式（determinant）.

均值：這裡寫圖片描述
協方差Cov(Z)== = ∑

高斯分佈的一些例子：
這裡寫圖片描述
左圖均值為零（2*1的零向量），協方差矩陣為單位矩陣I（2*2）（成為標準正態分佈）.
中圖協方差矩陣為0.6I，
右圖協方差矩陣為2I

這裡寫圖片描述
均值為0，方差分別為：

2.2 高斯判別分析模型
這裡寫圖片描述
寫出概率分佈：

模型的引數為φ，μ0，μ1，∑，對數似然性為：
這裡寫圖片描述

求出最大似然估計為：
這裡寫圖片描述

結果如圖所示：
這裡寫圖片描述

1.3 討論GDA和logistic迴歸
GDA模型和logistic迴歸有一個很有意思的關係.
如果把這裡寫圖片描述看做是x的函式，則有：

其中是的函式，這正是logistic迴歸的形式.

關於模型的選擇：
剛才說到如果p(x|y)是一個多維的高斯分佈，那麼p(y|x)必然能推出一個logistic函式；反之則不正確，p(y|x)是一個logistic函式並不能推出p(x|y)服從高斯分佈.這說明GDA比logistic迴歸做了更強的模型假設.

如果p(x|y)真的服從或者趨近於服從高斯分佈，則GDA比logistic迴歸效率高.
當訓練樣本很大時，嚴格意義上來說並沒有比GDA更好的演算法（不管預測的多麼精確）.
事實證明即使樣本數量很小，GDA相對logisic都是一個更好的演算法.

但是，logistic迴歸做了更弱的假設，相對於不正確的模型假設，具有更好的魯棒性（robust）.許多不同的假設能夠推出logistic函式的形式. 比如說，如果這裡寫圖片描述那麼p(y|x)是logistic. logstic迴歸在這種型別的Poisson資料中效能很好. 但是如果我們使用GDA模型，把高斯分佈應用於並不是高斯資料中，結果是不好預測的，GDA就不是很好了.

3.樸素貝葉斯

在GDA模型中，特徵向量x是連續的實數向量.如果x是離散值，我們需要另一種學習演算法了.

例子:垃圾郵件分類問題
首先是把一封郵件作為輸入特徵，與已有的詞典進行比對，如果出現了該詞，則把向量的xi=1,否則xi=0,例如：
這裡寫圖片描述
我們要對p(x|y)建模，但是假設我們的詞典有50000個詞，那麼，如果採用多項式建模的方式，會有，明顯引數太多了，這個方法是行不通的.

為了對p(x|y)建模，我們做一個很強的假設，假設給定y，xi是條件獨立(conditionally independent)的.這個假設成為樸素貝葉斯假設（Naive Bayes assumption).

因此有：
這裡寫圖片描述

雖然說樸素貝葉斯假設是很強的，但是其實這兒演算法在很多問題都工作的很好.

模型引數包括：這裡寫圖片描述

聯合似然性（joint likelihood）為：
這裡寫圖片描述
得到最大似然估計值：

很容易計算：
這裡寫圖片描述

樸素貝葉斯的問題：
假設在一封郵件中出現了一個以前郵件從來沒有出現的詞，在詞典的位置是35000，那麼得出的最大似然估計為：
這裡寫圖片描述
也即使說，在訓練樣本的垃圾郵件和非垃圾郵件中都沒有見過的詞，模型認為這個詞在任何一封郵件出現的概率為0.
假設說這封郵件是垃圾郵件的概率比較高，那麼

模型失靈.

在統計上來說，在你有限的訓練集中沒有見過就認為概率是0是不科學的.

4.laplace平滑

為了避免樸素貝葉斯的上述問題，我們用laplace平滑來優化這個問題.
這裡寫圖片描述

回到樸素貝葉斯問題，通過laplace平滑：
這裡寫圖片描述

分子加1，分母加1就把分母為零的問題解決了.

感謝博主的總結：http://blog.csdn.net/andrewseu/article/details/46789121

【斯坦福---機器學習】複習筆記之生成學習演算法

本講大綱：

1.生成學習演算法

2.高斯判別分析

3.樸素貝葉斯

4.laplace平滑

【斯坦福---機器學習】複習筆記之生成學習演算法

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

【斯坦福---機器學習】複習筆記之最優間隔分類器

【Android 進階】ORM 框架之 greenDAO學習筆記

【機器學習實戰系列】讀書筆記之AdaBoost演算法公式推導和例子講解（一）

【機器學習實戰系列】讀書筆記之KNN演算法（三）

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

多執行緒複習筆記之四【多執行緒中的異常】

多執行緒複習筆記之三【多執行緒中的Lock使用】

多執行緒複習筆記之二【執行緒間的通訊】

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

Python學習【第2篇】：Python之數據類型

Python學習【第2篇】：Python之數據類型（2）

【Redis學習】Redis筆記（一）——特點、基礎命令和資料結構

【原】javascript筆記之Array方法forEach&map&filter&some&every

Python學習【第4篇】：Python之可變資料型別與不可變資料型別可變資料型別和不可變資料型別

Python學習【第3篇】：Python之運算子 python-----運算子及while迴圈

Python學習【第5篇】：Python之字元編碼問題 python之----------字元編碼具體原理

Python學習【第9篇】：Python之常用模組二（時間模組，序列化模組等）常用模組2

Python學習【第8篇】：Python之常用模組一（主要是正則以及collections模組） python--------------常用模組之正則

【斯坦福---機器學習】複習筆記之生成學習演算法

本講大綱：

1.生成學習演算法

2.高斯判別分析

3.樸素貝葉斯

4.laplace平滑

相關推薦