1. 程式人生 > >凸優化眼裡的世界(一)

凸優化眼裡的世界(一)

自從學了最優化,世界都變簡單了。這次我們來介紹最優化方法在一些統計問題中的身影。不過,這麼說,似乎把最優化看作是統計的工具了?哈哈,我還是喜歡優化多一些,不過...不管啦。我們開始。

最大似然估計 Maximum Likelihood Estimation

最大似然估計最早由德國數學家高斯在1821年針對正態分佈提出的,但一般將之歸功於費希爾,因為費希爾在1922年再次提出了這種想法並證明了它的一些性質而使得最大似然法得到了廣泛應用。

我們先來一個例子:

設產品分為合格品、不合格品,我們用隨機變數X來表示某產品檢查後的不合格品數目;X=0表示合格品,X=1表示不合格品,則X服從兩點分佈 b(1,p) 其中引數p是未知的不合格品率。
現在,抽取 n 個產品,便得到樣本 x_1, x_2, ... , x_n

這一組觀測值發生的概率:

嗯,現在的問題是,我們想知道產品的不合格率p,那麼便可以用最大似然的思想去處理這個問題。為什麼?

再看一個例子:

假設一種很極端的情況,有兩個箱子中各有100個球。其中1號箱有99個紅球、1個白球;2號箱有1個紅球、99個白球。抽取一次,得到紅球。
那麼,你覺得這個紅球是來自哪個箱子呢?我們大概都會說是1號箱子,因為那裡的紅球多嘛,可能性大。

那麼同樣地,我們有理由認為問題中的資料(x1,x2,...,xn)確實反映了不合格品的情況,並且!這個反映是充分的。即p的取值會讓這個概率最大

那麼,目標函式就有了。最優化她要出場了...

1.Problem Formulation.

在CVX的世界裡,你只需要把問題的本質抓住,把問題formulate出來;剩下的工作就好辦了。當然,有時候第一次寫出的式子可能是非凸的(non-convex),或是擬凸的(quasi-convex)對於其中的情形,有方法進行轉化或求解,我們以後會說到。

一般地,最大似然估計在優化的眼裡就是這樣一個式子:

如果似然函式l(x)是concave的話,此優化問題便是convex optimization problem


2.應用

好戲終於要來了。我們將穿行於最優化和統計之間,分別從相對的角度去看某個領域

2.1Linear Measurement with IID noise

考慮一個帶有噪聲的線性估計:

其中v_i是獨立同分布的資料噪聲,那麼y_i便也是一個隨機變數,不過它的具體分佈是由引數x給出的,下面考慮常見噪聲的分佈以及優化目標解釋出來的東西:

  1. Gaussian noise.假設此時v_i服從均值0、方差sigma^2的正態分佈,那麼密度函式以及對應的log-likelihood function是你會看到,雖然我們是從統計問題出發,得到一個優化形式的問題;更重要的是,第二項是一個最小二乘(least-squares approximation)的表達(事實上第一項無關緊要)。這意味著,(如果我們反過來看)當我們用least-squares去做近似時,這個形式的暗含著我們的近似誤差是服從正態分佈的! 機器學習中的linear regression問題正是這個形式。
  2. Laplacian noise.假設v_i服從Laplacian noise,密度函式和似然函式是:同樣地,此時我們做的就是l_1-norm approximation. 再看看分佈與Gaussian的對比:much heavier tail. 後者的尾部顯然比正態分佈大多了,也就是說,我們下次描述具有肥尾情況的問題時,或許採取l1-norm approximation會有更好的效果?

這裡提一個疑問:如果我對股指期貨的資料作為研究物件,我用l1-norm approximation的方式進行linear regression好些,還是least-squares呢?因為我選擇l1-norm的原因是它更接近股市中的長尾情況。不過,這樣的大誤差也會不時出現,這是對於策略設計需要如何考慮?

下面這幅圖可以幫助大家理解不同的penalties對residuals的影響: