似然函式（likelihood）、最大似然函式、最小二乘解

阿新 • • 發佈：2019-02-14

在英語語境裡，likelihood 和 probability 的日常使用是可以互換的，都表示對機會 (chance) 的同義替代。但在數學中，probability 這一指代是有嚴格的定義的，即符合柯爾莫果洛夫公理 (Kolmogorov axioms) 的一種數學物件（換句話說，不是所有的可以用0到1之間的數所表示的物件都能稱為概率）。而 likelihood (function) 這一概念是由Fisher提出，他採用這個詞，也是為了凸顯他所要表述的數學物件既和 probability 有千絲萬縷的聯絡，但又不完全一樣的這一感覺。

中文把它們一個翻譯為概率（probability），一個翻譯為似然（likelihood）也是獨具匠心。

似然函式的定義：

$L(\theta | \textbf{x}) = f(\textbf{x} | \theta)$

上式中，小x指的是聯合樣本隨機變數X取到的值，即X= x；這裡的θ是指未知引數，它屬於引數空間；而

$f(\textbf{x}|\theta)$ 是一個密度函式，特別地，它表示(給定)θ下關於聯合樣本值x的聯合密度函式。

從定義上，似然函式和密度函式是完全不同的兩個數學物件：前者是關於θ的函式，後者是關於x的函式。所以這裡的等號= 理解為函式值形式的相等，而不是兩個函式本身是同一函式（根據函式相等的定義，函式相等當且僅當定義域相等並且對應關係相等）。

兩者的聯絡：

如果X是離散隨機變數，那麼其概率密度函式 $f(\textbf{x}|\theta)$ 可改寫為：

$f(\textbf{x} | \theta) = \mathbb{P}_\theta(\textbf{X} = \textbf{x})$

即代表了在引數為θ下，隨機變數X取到x的可能性。並且，如果我們發現：

$L(\theta_1 | \textbf{x} ) = \mathbb{P}_{\theta_1}(\textbf{X} = \textbf{x}) > \mathbb{P}_{\theta_2}(\textbf{X} = \textbf{x}) = L(\theta_2 | \textbf{x})$

那麼似然函式就反應出這樣一個樸素推測：在引數 $\theta_1$ 下隨機向量X取到值x的可能性大於在引數 $\theta_2$ 下隨機向量X取到值x的可能性。換句話說，我們更有理由相信相對於 $\theta_2$ 來說 $\theta_1$ 更有可能是真實值。這裡的可能性是由概率來刻畫。

綜上，概率(密度)表達給定 $\theta$ 下樣本隨機向量X = x的可能性，而似然表達了給定樣本X = x下引數 $\theta_1$ (相對於另外的引數 $\theta_2$ )為真實值的可能性。

最大似然估計：

在已知試驗結果（即是樣本）的情況下，用來估計滿足這些樣本分佈的引數，把可能性最大的那個引數 $\theta$ 作為真實的引數估計。最大似然估計，最大似然估計是建立在這樣的思想上：已知某個引數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個引數作為估計的真實值。

求最大似然函式估計值的一般步驟：
（1）寫出似然函式
（2）對似然函式取對數，並整理
（3）求導數
（4）解似然方程

最小二乘法（Least Square ）的解析解可以用 Gaussian 分佈以及最大似然估計求得

首先假設線性迴歸模型具有如下形式：

$f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon$

其中： $\mathbf x \in \mathbb R^{1 \times d}$ ， $\mathbf w \in \mathbb R^{1 \times d}$ ，誤差 $\epsilon \in \mathbb R$

已知：

$\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}$ ， $\mathbf y \in \mathbb R^{n \times 1}$

如何求引數W呢？

如果用最小二乘法的話，有誤差函式：

$\text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2$

我們對W求偏導，然後令個偏導 = 0，聯立解方程——這就是最小二乘法求W的過程。

如果用最大似然函式求解的話：

假設誤差服從高斯正態分佈：

$\epsilon_i \sim \mathcal{N}(0, \sigma^2)$

也就是說：

$\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2)$

則最大似然估計推導：

$\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*}$

對上式求偏導然後令個偏導 = 0，聯立解方程。

總結：兩者的結果是一樣的。

似然函式（likelihood）、最大似然函式、最小二乘解

似然函式（likelihood）、最大似然函式、最小二乘解

求超定方程組的最小二乘解（matlab）

Oracle 利用管道函式（pipelined）實現高效能大資料處理

最小二乘解

最大似然預計（Maximum Likelihood Estimation）

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

機器學習系列文章：引數方法（最大似然、分類、迴歸）

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

熵、最大似然估計（相對熵）、KL散度、交叉熵相互關係及程式碼計算

似然函式（Likelihood function）是什麼

【轉載】引數估計(Parameter Estimation)：頻率學派（最大似然估計MLE、最大後驗估計MAP）與貝葉斯學派（貝葉斯估計BPE）

最小二乘法和最大似然估計的聯系和區別（轉）

熵(Entropy),交叉熵(Cross-Entropy),KL-鬆散度(KL Divergence),似然（Likelihood）

最大似然估計（轉載）

最大似然估計最大似然估計（MLE）最大後驗概率（MAP）

【模式識別與機器學習】——最大似然估計（MLE）最大後驗概率（MAP）

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

似然函式（likelihood）、最大似然函式、最小二乘解

相關推薦