之前一直對極大似然估計雲裡霧裡,下午特意抽空查閱資料,整理成一篇較為通俗易懂的博文。

  概念

   為了更通俗的理解極大似然估計法,我們可以把極大似然估計拆成三個詞,意思分別如下:

  • 極大:最大的概率
  • 似然:像是這個樣子的

  • 估計:那就是這個樣子

  連起來就是,最大的概率像是這個樣子的,那就是這個樣子

  舉個例子

 

   

 

 

   如圖,有兩個外形完全相同的箱子。甲箱中有99個白球1個黑球,乙箱中有99個黑球1個白球。一次試驗,取出的是黑球。 那麼這個黑球最像是從哪個箱子取出的?大多數人都會說,這個黑球最像是從乙箱中取出的,這個推斷符合人們的經驗,即為“最大似然”。

    總結來說,最大似然估計 假設模型是確定的,然後利用抽取的樣本結果,反推最大概率導致這樣結果的模型引數值,即:“模型已定,引數未知”。

因此,樣本結果的概率,是一個帶模型引數的似然函式。最大似然估計法的目標就是最大化似然函式,用最優化演算法求解 導致樣本結果概率最大的引數值。

  極大似然估計的描述

      極大似然估計中取樣需滿足一個很重要的假設,就是所有的取樣都是獨立同分布的。

      首先,假設為獨立同分布的取樣,θ為模型引數, f 為所使用的模型。因此,產生上述取樣結果的概率可表示為:

      f(x_1,x_2,...,x_n|\theta) = f(x_1|\theta)

  

  由於極大似然估計法中,我們已知的為,未知為θ,故似然函式定義為:

  

  兩邊取對數,得到對數似然,公式為:

  

  最大似然估計法最常用的為對數平均似然,公式為:

  

  因此最大似然估計法就是 最大化似然函式求引數值,即:

   

 

 

 

由上可知最大似然估計的一般求解過程:

  (1) 寫出似然函式;

  (2) 對似然函式取對數,並整理;

  (3) 求導數 ;

  (4) 解似然方程

 

 

——導致這樣的樣本結果的概率,是一個帶引數的似然函式。

目標就是最大化似然函式,用最優化演算法求解 概率最大的引數值。

 

注意:

  • 引數估計不同於估計。

日常所說的估計一般是通過樣本分佈估計總體的分佈,如用樣本集的均值作為總體的期望。

  • 引數估計也不同於非引數估計

在引數估計中,模型是假設已知的,估計得引數後就可得完整模型;

——對於引數估計,我們希望通過某些方法,通過給定樣本集D估計假定模型的引數。極大似然估計就可以幫我們從引數空間中選擇引數,使該引數下的模型產生D的概率最大(最似然的)。

  • 對於判別模型,就對於y=f(x|θ),假定f(如假設為線性迴歸),通過x和y估計θ。
  • 對於生成模型,就對於pdata(x;θ)→D,假定p(如假設為正態分佈),通過D估計θ。