1. 程式人生 > >機器學習系列文章:引數方法(最大似然、分類、迴歸)

機器學習系列文章:引數方法(最大似然、分類、迴歸)

前面,我們討論了貝葉斯方法,使用概率對不確定性建模做出最優決策。現在我們考慮如何從給定的訓練集估計這些概率。

引言

    引數化方法是指我們假設樣本取自服從某種一直模型的某個分佈。我們利用最大似然和樣本資料近似的估計這個分佈的引數資訊,從而得出這個分佈的一般模型。換言之,一旦從樣本中估計出這些引數 ,就知道了整個分佈,然後使用它進行決策。

一、最大似然估計

   最大似然估計的假設前提,獨立同分布樣本,假設Xt是從某個定義在引數上的已知概率密度族中抽取的例項:

                                         

   我們希望找出這樣的引數,使得樣本儘可能像是從

中抽取的。因為假設前提是樣本獨立同分布,所以給定引數,樣本X的似然是單點似然的乘積:

                               

  我們感興趣的是找到這樣的引數,使得X最像是從中抽取的。因此我們尋找最大化樣本似然。由於原式中含有較多的乘積運算,為了簡化運算,我們可以使用最大化該似然的對數,而不改變它取最大值的數值。可以將乘積轉換成求和。簡化運算。

                            

   上述內容詳細講解了,引數估計方法最大似然法。然而,我們對估計的引數的具體形式,還不太清楚。所以針對這個問題,我們引出其他內容。下面內容是介紹當假設我們的類似然函式服從某種分佈,我們通過最大似然法求得分佈中引數,從而進行決策。

二、常見類似然分佈

   這裡我們以伯努利分佈、多項式分佈、高斯分佈為例。並且以下我們都假設給定樣本服從獨立同分布。

   1、伯努利密度

    伯努利分佈也叫兩點分佈或零一分佈。白女裡隨機變數X發生概率為p取值1,時間不發生概率為1-p取值0。其概率密度函式如下:

                           

   對應的對數似然函式為:

                           

   最大化上述似然函式,求 偏導數 可得到該對數似然的估計 。

.                        

   p的估計是時間發生的次數與實驗次數的比值。

   2、多項式密度

      多項式分佈可以看作伯努利分佈的推廣,其中隨機事件的結果不是兩種狀態,而是K中互斥、窮舉狀態之一,每種狀態出現的概率為pi,其概率密度函式為:

                       

   如果xi是0/1,則可以認為它們是K次獨立的伯努利試驗。

   3、高斯密度

       高斯分佈也叫正太分佈,其密度函式為:

                      

    對於給定樣本高斯樣本的對數似然為:

                  

   最大似然估計引數為:

                      

三、利用最大似然進行引數化分類

    本節將利用前面講解的貝葉斯規則和最大似然估計方法,解決實際問題中引數化分類方法的公式推導和概念理解。

   本節假設作者已瞭解貝葉斯規則和最大似然方法,具體概念筆者不再一一贅述。直接進行公式推導。

   貝葉斯公式:

                   

前面介紹過,貝葉斯公式中的證據項是觀測樣本的邊緣概率,無論正例負例,在同一個樣本中,其值固定。所以我們根據貝葉斯公式,得出引數化分類的判別式函式。

                  

或等價於

                   

當我們假設類似然服從高斯分散式時,則:

                     

  判別式函式變為:

                 

  到此,就完成了對引數分類方法的公式推導過程。接下來我們需要求的判別式函式中引數資訊,也就是類似然函式所服從的高斯分佈的均值和方差資訊。因為,我們不能準確知道,但是我們有樣本資料,所以我們可以通過樣本估計它們並把它們的估計插入上述判別式函式得到判別式函式的估計。進而進行分類決策。

   根據樣本資料的最大似然估計得到的均值和方差的估計:

                

                

   最終每個類的判別式的估計為:

               

  有趣的是,第一項是常數,因為它在所有類中都是公共項,如果這些先驗也相等,則最後一項也可以去掉,再進一步假設每一個類的方差也相等,則上式變為:

                 

總結:

   本節我們使用基於似然的分類方法,其本質是使用資料估計密度,使用貝葉斯計算後驗概率,然後得到判別。在以後的我們會討論基於判別式的分類方法,在哪裡我們將直接繞開密度估計直接估計判別式函式來實現分類。對本節內容,簡言之,就是為樣本資料假設一個概率分佈,然後通過最大似然法通過資料求得概率密度函式中的引數資訊,進而完成判別式函式的構造。

引:機器學習導論

原創文章,轉載註明出處!!!!!