機器學習基礎--貝葉斯分類器
單純的貝葉斯分類器很簡單,基本上就是一個貝葉斯公式,要理解透徹貝葉斯分類器需要搞清楚兩個概念
似然函式
基本上維基百科講的很清楚,我這裡在重複一下,可以直接去維基百科看
在數理統計學中,似然函式是一種關於統計模型中的引數的函式,表示模型引數中的似然性。似然函式在統計推斷中有重大作用,如在最大似然估計和費雪資訊之中的應用等等。“似然性”與“或然性”或“概率”意思相近,都是指某種事件發生的可能性,但是在統計學中,“似然性”和“或然性”或“概率”又有明確的區分。概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的引數進行估計。
在這種意義上,似然函式可以理解為條件概率的逆反。在已知某個引數B時,事件A會發生的概率寫作:
利用貝葉斯定理,
因此,我們可以反過來構造表示似然性的方法:已知有事件A發生,運用似然函式
注意到這裡並不要求似然函式滿足歸一性:
例子
考慮投擲一枚硬幣的實驗。通常來說,已知投出的硬幣正面朝上和反面朝上的概率各自是
其中H表示正面朝上。
在統計學中,我們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的資訊。
我們可以建立一個統計模型:假設硬幣投出時會有
這時,條件概率可以改寫成似然函式:
也就是說,對於取定的似然函式,在觀測到兩次投擲都是正面朝上時,
如果考慮
三次投擲中頭兩次正面朝上,第三次反面朝上時的似然函式
注意到似然函式的值變大了。
這說明,如果引數
在這個例子中,似然函式實際上等於:
如果取
類似地,如果觀測到的是三次投擲硬幣,頭兩次正面朝上,第三次反面朝上,那麼似然函式將會是:
這時候,似然函式的最大值將會在
最大似然估計
我們首先要定義似然函式:
並且在
例子
現在假設例子1中的盒子中有無數個硬幣,對於