邏輯迴歸損失函式與最大似然估計

阿新 • • 發佈：2019-02-20

機器學習的損失函式是人為設計的，用於評判模型好壞（對未知的預測能力）的一個標準、尺子，就像去評判任何一件事物一樣，從不同角度看往往存在不同的評判標準，不同的標準往往各有優劣，並不衝突。唯一需要注意的就是最好選一個容易測量的標準，不然就難以評判了。

其次，既然不同標準並不衝突，那使用最小二乘作為邏輯迴歸的損失函式當然是可以，那這裡為什麼不用最小二乘而用最大似然呢？請看一下最小二乘作為損失函式的函式曲線：

最小二乘作為邏輯迴歸模型的損失函式，theta為待優化引數

以及最大似然作為損失函式的函式曲線（最大似然損失函式後面給出）：

最大似然作為邏輯迴歸模型的損失函式，theta為待優化引數

很顯然了，圖2比圖1展現的函式要簡單多了，很容易求到引數的最優解（凸函式），而圖1很容易陷入區域性最優解（非凸函式）。這就是前面說的選取的標準要容易測量，這就是邏輯迴歸損失函式為什麼使用最大似然而不用最小二乘的原因了。

以上是這個問題的答案，下面來推一下邏輯迴歸中最大損失函式到底是怎麼來的，因為我看到很多地方只是說了一下用到最大似然的方法，就直接給出了最終的形式，還看到有書裡面過程搞錯了，也給出了最終的正確形式。

既然是最大似然，我們的目標當然是要最大化似然概率了：

對於二分類問題有：

用一個式子表示上面這個分段的函式為：(記得寫成相乘的形式)：

代入目標函式中，再對目標函式取對數，則目標函式變為：

如果用hθ(xi)表示p0，1 - hθ(xi)表示p1，將max函式換成min，則得到最終形式：

作者：茄子cheer
連結：https://www.jianshu.com/p/699a13c9a253
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。