機器學習基石筆記-Lecture 10 Logistic regression
soft binary classification的概念:軟二分類,不直接化為-1、1,而是給出一個概率值。
目標函數是一個概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。
logistic hypothesis
通過 theta 轉化為 0、1間的數。
目標函數f(x)其實呢就是
那麽對N個樣本,產生的概率是
對於f的估計h,似然函數為
那麽有:
使
用w替換掉h,
化簡後等價於
最後的Ein就是cross-entropy error
接下來要做的事就是找到一個w使得Ein最小。
註意到Ein是連續的、可微的、凸函數,所以對w求偏導能得到最優解。(與linear regression思路一樣)
但是 最後偏導出來的不是一個一次方程,不能像linear regression那樣直接寫出解。
gradient descent
想象成下山,每次探索的結果只要比現在的低,就走出去。在步長固定時,當前點的負梯度是下降最迅速的方向。
一階泰勒展開
確定了下降的方向後,再考慮走出的步長。步長過大或過小都不好,我們希望在梯度比較大的時候步長稍微大一點,平緩的時候步長小一點。其實就和
它們的比例系數 叫做學習率。
學習過程
註意這裏算法終止的條件是梯度足夠小或者叠代達到最高次數。
梯度下降法每次計算在 w_t的梯度時,需要將n個點都計算一遍
stochastic gradient descent
在樣本量很大時,梯度下降法每次叠代都要計算n各點對梯度的貢獻。
隨機梯度下降法在更新w時,只隨機選取一個點計算
logistic regression:
優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
適用:數值型和標稱型數據。
機器學習基石筆記-Lecture 10 Logistic regression