1. 程式人生 > >機器學習基石筆記-Lecture 10 Logistic regression

機器學習基石筆記-Lecture 10 Logistic regression

pan wiki app 方向 resource 註意 實現 comment sce

soft binary classification的概念:軟二分類,不直接化為-1、1,而是給出一個概率值。

目標函數是一個概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。

技術分享

logistic hypothesis

技術分享

通過 theta 轉化為 0、1間的數。

技術分享

目標函數f(x)其實呢就是技術分享,那麽技術分享

那麽對N個樣本,產生的概率是技術分享

對於f的估計h,似然函數為技術分享

那麽有:

技術分享

使技術分享

用w替換掉h,技術分享即求w的極大似然估計

化簡後等價於

技術分享

最後的Ein就是cross-entropy error

接下來要做的事就是找到一個w使得Ein最小。

註意到Ein是連續的、可微的、凸函數,所以對w求偏導能得到最優解。(與linear regression思路一樣)

技術分享

但是 最後偏導出來的不是一個一次方程,不能像linear regression那樣直接寫出解。

gradient descent

想象成下山,每次探索的結果只要比現在的低,就走出去。在步長固定時,當前點的負梯度是下降最迅速的方向。

技術分享

一階泰勒展開

技術分享

技術分享

確定了下降的方向後,再考慮走出的步長。步長過大或過小都不好,我們希望在梯度比較大的時候步長稍微大一點,平緩的時候步長小一點。其實就和技術分享正相關。

它們的比例系數 叫做學習率。

技術分享

學習過程

技術分享

註意這裏算法終止的條件是梯度足夠小或者叠代達到最高次數。

梯度下降法每次計算在 w_t的梯度時,需要將n個點都計算一遍技術分享 然後求平均值

stochastic gradient descent

在樣本量很大時,梯度下降法每次叠代都要計算n各點對梯度的貢獻。

隨機梯度下降法在更新w時,只隨機選取一個點計算技術分享,當做梯度替代 n個點的平均

技術分享

logistic regression:

優點:計算代價不高,易於理解和實現。

缺點:容易欠擬合,分類精度可能不高。

適用:數值型和標稱型數據。

機器學習基石筆記-Lecture 10 Logistic regression