1. 程式人生 > >【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

1)先驗:統計歷史上的經驗而知當下發生的概率;

2)後驗:當下由因及果的概率;

2、網上有個例子說的透徹:

1)先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨的概率;

2)似然——看到了某種結果,對產生結果的原因作出假設:是颳風了?還是有烏雲?還是現在是上午十二點?(每一個伴隨此結果的,都是可能導致此結果的原因)我們現在計算的就是P(θi|X),已知X,求每一個θi對應的概率。顯然,“烏雲”的概率遠大於“上午十二點”。下雨(果)的時候有烏雲(因/證據/觀察的資料)的概率,即已經有了果,對證據發生的可能性描述;

3)後驗——根據天上有烏雲(原因或者證據/觀察資料),下雨(結果)的概率;

後驗 ~ 先驗*似然(後驗正比於先驗與似然的乘積) : 存在下雨的可能(先驗),下雨之前會有烏雲(似然)~ 通過現在有烏雲推斷下雨概率(後驗);

3、幫助主觀理解的例子:

先驗概率可理解為統計概率,後驗概率可理解為“引數”條件概率。

設定背景:酒至半酣,忽陰雲漠漠,驟雨將至。

情景一: “天不會下雨的,歷史上這裡下雨的概率是20%”----先驗概率 “陰雲漠漠時,下雨的概率是80%”----後驗概率

情景二: “飛飛別急著走啊,歷史上酒桌上死人的概率只有5%“----先驗概率 ”他是曹操啊,夢裡都殺人“----後驗概率

情景三: “她的車技不好,坐她的車我們很危險”----先驗概率 “她喝了酒開車,太危險了”----後驗概率

情景三是想說明:已知的引數並不一定會“反轉”先驗概率,也並不一定會“support”先驗概率,甚至不一定會改變先驗概率(比如,已知引數是她的車頂上有鳥屎,那麼已知引數的影響趨於0)。

情景四: 新疆的西瓜好吃—先驗概率 這個新疆的西瓜並沒有熟,它肯定不好吃—後驗概率

從數學角度理解一下似然函式: 現有一個數據集,只有正負兩類,要用一個超平面將他分類,求出這個超平面,超平面的引數為w(向量)和b。 w和b的任意取值構成的每一個超平面都是假設空間的元素,都可能是我們需要的模型,每一個超平面都有一個對應的似然函式,其值代表了這個超平面是我們要的模型的可能性,似然函式越大,說明這組w和b的取值對應的超平面越符合我們的需求(越能正確地將資料集分類),這裡的似然函式就可以是分類準確率,但是分類準確率不方便我們將函式最優化,故而,我們將似然函式用每一點到超平面的距離來表示,那麼就很Ok了。將似然函式最優化的結果就是最優的引數取值的結果。