極大似然估計是經驗風險最小化的理解(統計學習方法)
看過李航老師的《統計學習方法》的同學都知道,機器學習(統計學習)的三要素為:模型、策略、和演算法。其中,模型就是所要學習的條件概率分佈或者決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。統計學習的目標在於從假設空間中選取最優模型。其中的兩種選擇最優模型的策略就是經驗風險最小化和結構風險最小化。而演算法負責根據策略求解出最優模型。
今天我嘗試著給出《統計學習方法》第9頁的“當模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。”的簡單證明,有不對的地方請大家指正。
首先給出經驗風險最小化的公式:
其中,F是假設空間,f是模型,L是損失函式,n是觀察到的樣本數。
下面引用一段其它部落格的關於最大似然估計的內容:
**************************我是華麗的分割線***********************
最大似然估計中取樣需滿足一個很重要的假設,就是所有的取樣都是獨立同分布的。下面我們具體描述一下最大似然估計:
首先,假設為獨立同分布的取樣,θ為模型引數,f為我們所使用的模型,遵循我們上述的獨立同分布假設。引數為θ的模型f產生上述取樣可表示為
回到上面的“模型已定,引數未知”的說法,此時,我們已知的為,未知為θ,故似然定義為:
在實際應用中常用的是兩邊取對數,得到公式如下:
其中
即取θ使得最大,此處可對θ求導
***********************我是華麗的分割線*********************
將需要求和的ln前面加上負號,也就是:
對比經驗風險最小化公式:
由於f( | )是模型,可以是條件概率分佈模型,那麼
補全了這篇文章中缺失的公式