1. 程式人生 > >李航《統計學習方法》-----樸素貝葉斯

李航《統計學習方法》-----樸素貝葉斯

樸素貝葉斯法naïve Bayes,在naïve的中間字母上其實有兩個點,查了一下才發現是法語中的分音符,在發音過程中發揮作用。但這不是重要的,重要的是在這種學習方法中貝葉斯承擔了什麼樣的角色。

首先簡單證明一下貝葉斯公式。聯合概率Joint probabilities是可逆的,只要同時滿足兩個條件就可以,無所謂先滿足哪個條件,所以可以有兩種寫法,都是利用了條件概率Conditionalprobabilities和乘法,因為條件概率就是滿足條件之後另外一個事件的概率,這時候再乘條件滿足的概率,結果就是聯合概率。在最後貝葉斯公式的分母中,P(A)稱作先驗概率,也稱作邊際概率Marginal probabilities,一般通過全概率公式求出。

提到貝葉斯定理,就必須要提到貝葉斯學派才能瞭解這種方法的思想,與其對應的是頻率學派。頻率學派認為模型的引數是固定的,只不過是未知的,實驗次數大到一定程度,頻率會穩定於一個固定值,即概率。具體主要通過似然函式求解,如最大似然估計MLE;而貝葉斯是從資料出發,認為引數也是隨機變數,擁有概率分佈,通過後驗概率計算,如最大後驗概率MAP,舊的後驗會成為新的先驗,如此重複下去。貝葉斯學派加入了先驗概率,靠譜的先驗概率可以使含有隨機噪聲的資料更加健壯。可以把頻率學派中的最大似然看作各種猜測先驗概率相等的特殊情況。

我們會發現,頻率學派和貝葉斯學派都不約而同地提到了模型,而模型正好是統計機器學習的三要素之一。樸素貝葉斯法,顧名思義,選擇了貝葉斯方法構造分類器。輸入依然是特徵向量x,輸出是類標記y。我們希望通過訓練資料學習聯合概率分佈P(X,Y),這說明樸素貝葉斯屬於生成模型。具體又是學習y的先驗概率和條件概率P(x|y)。既然已經有訓練資料,特徵和對應的標籤類別是已知的,所以根據統計可以很容易地知道y的先驗概率。而條件概率就比較棘手了,因為特徵空間通常是高維的,所以在已知某個類別下的條件概率有好多個,所以我們做了一個特別重要的假設,叫做條件獨立性假設:在類確定的條件下,用於分類的特徵是條件獨立的。這一假設使得模型包含的條件概率的數量大為減少,簡化了學習和預測,缺點是分類的效能不一定很高。

下面還是從三要素的方法研究一下樸素貝葉斯:

模型

前面已經提到了,樸素貝葉斯是生成模型,這是因為它會對聯合概率密度P(X,Y)進行估計。具體模型由條件概率表示,所以還屬於概率模型(由決策函式表示的模型為非概率模型)。在參考連結3中有這麼一句話:貝葉斯非引數模型中的引數數量可以隨著資料增大或者減小以適應模型的變化。比較流行的貝葉斯非引數模型還有高斯迴歸過程,隱含狄利克雷分佈(LDA)。選擇貝葉斯作為模型是因為我們可以考慮先驗概率,特殊的,先驗概率相等時,只能依靠似然函式。

策略

我們知道,策略有兩種,分別是經驗風險最小化和結構風險最小化,前者認為平均損失最小化的模型是最優模型,後者在經驗風險最小化的同時還要防止過擬合。從這個角度看,因為極大似然方法因為認為模型引數是固定不變的,就很容易過擬合,而樸素貝葉斯方法選擇了最大後驗概率作為策略,選擇0-1函式作為損失函式。按照書中的推導,為了使期望風險最小化,應該使已知輸入特徵的後驗概率最大化。所以樸素貝葉斯的策略應該是結構風險最小化的策略,先驗概率表示了模型的複雜度。

學習方法

方法主要是先估算出先驗概率和條件概率,取使得後驗概率最大時的y作為輸出。根據根據方法採用的是貝葉斯估計還是極大似然函式,又分為兩種方法。極大似然估計比較簡單,就是利用統計的頻率作為概率。但使用極大似然估計可能會出現所要估計的概率值為0的情況,可以採用貝葉斯估計避免。具體來說,對先驗概率P(Y),分母和分母分別在極大似然估計的統計上加常數lamda和K*lamda,K表示分類標籤數。對條件概率P(X|Y),分子和分母分別加lamda和S*lamda,S代表特徵空間的維數。我們常取lamda=1,這是稱作拉普拉斯平滑(Laplace smoothing)。

下面再回顧一下訊號檢測與估計課程中的貝葉斯估計。

至於為什麼把它叫做貝葉斯估計,是因為可以根據貝葉斯公式把聯合概率密度重寫,將問題轉換為使條件平均代價最小。

接下來就主要看代價函式的選取,當代價函式選擇平方損失函式時,就是最小均方誤差估計。當代價函式選擇0-1損失函式時,是最大後驗估計。估計量使得其後驗概率最大。

當代價函式選擇絕對損失函式時,貝葉斯估計就是條件中值估計,估計量是隨機引數變數的條件中值。

三種代價函式下的貝葉斯估計可以是統計的:當被估計量的後驗概率密度函式是高斯型的,三種代價函式下的估計量相同。這就是最佳估計的不變性。

在通訊的譯碼中也有貝葉斯的應用。最小錯誤概率準則(採用0-1損失函式),即最大後驗概率準則。當所有可能訊息序列的先驗概率相等,最大後驗概率準則又等價於最大似然譯碼準則。在輸入不等概分佈時採用最大似然譯碼準則的平均錯誤概率不是最小。

Refernence: