機器學習實戰【4】（邏輯迴歸）

本部落格記錄《機器學習實戰》（MachineLearningInAction）的學習過程，包括演算法介紹和python實現。

邏輯迴歸

對於一個數據集中的樣本，將其每個特徵乘上一個對應的係數，然後輸入sigmoid函式中把結果對映到0-1區間內，用這個結果作為分類依據，這種方式稱為邏輯迴歸。

sigmoid函式

sigmoid函式公式及影象如下：

σ(z)=11+e−z
sigmoid函式影象

可以看出在x為0時，函式值為0.5，x>0時逐漸趨向1，x<0時逐漸趨向0。這個性質使得sigmoid函式可以把實數域內的資料對映到0-1範圍內，從而完成分類的任務。

迴歸引數確定

邏輯迴歸中最重要的一部就是引數的確定，如何選擇最優的引數使得模型分類時能夠達到更高的準確率。這裡用到的尋找最優引數的方法是一種最優化方法——梯度上升法。

在二分類問題中，把樣本資料的每個特徵乘以迴歸係數θ 並求和，將結果輸入到sigmoid函式中，把得到的結果作為分到1類的概率。這樣，結果大於0.5的樣本就分到1類，小於0.5的樣本就分到0類。構造預測函式如下：

hθ(x)=g(θTx)=11+e−θTx

這個hθ(x) 就代表了樣本分到1類的概率，θTx 代表引數與輸入樣本的特徵向量x的加權和，於是有：

p(y=1|x;θ)=hθ(x)
p(y=0|x;θ)=1−hθ(x)

綜合起來寫就是對於樣本x，在引數為θ 時，分到y類的概率為：

p(y|x;θ)=hθ(x)y(1−hθ(x))1−y

假設輸入的樣本特徵為x1...xn，對應的分類結果為y

1...yn，那麼最優的引數應該使L(θ) 最大：

L(θ)=∏i=1np(yi|xi;θ)=∏i=1nhθ(xi)yi(1−hθ(xi))1−yi

這裡用到了最大似然法，引用百度百科的定義：

最大似然法（Maximum Likelihood，ML）也稱為最大概似估計，也叫極大似然估計，是一種具有理論性的點估計法，此方法的基本思想是：當從模型總體隨機抽取n組樣本觀測值後，最合理的引數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大

L(θ) 表示模型分類結果與n個樣本資料都符合的概率，稱為似然函式，根據最大似然法，我們以L(θ) 的值最大作為標準確定模型引數θ 。為了找到函式的最大值，採用的方法就是梯度上升法。

所謂梯度就是指函式值在任意點遞增最快的方向，用∇ 表示。梯度上升法是一種引數更新的方法，初始時給引數θ 賦初值，計算L(θ) 在引數點的梯度，把梯度乘以步長後加到引數上來更新引數，這樣引數的每次更新都會朝著使得L(θ) 增加最快的方向進行，引數更新公式如下：

θ=θ+α∇L(θ)

對於每一個引數：

θj=θj+α∂∂θjL(θ)

為了便於計算，將L(θ) 取對數，即改為求l(θ)=logL(θ) 的最大值：

∂∂θjl(θ)=∂∂θilog(∏i=1nhθ(xi)yi(1−hθ(xi))1−yi)=∂∂θj∑i=1nyilog(hθ(

機器學習實戰【4】（邏輯迴歸）

邏輯迴歸

sigmoid函式

迴歸引數確定

機器學習實戰【4】（邏輯迴歸）

機器學習實戰【5】（SVM-支援向量機）

【機器學習筆記2.2】用邏輯迴歸預測馬疝病的死亡率

【AC軍團週報（第四周）第一篇】線段樹從入門到入土【4】（未完成）

吳恩達《deeplearning深度學習》課程學習筆記【1】（精簡總結）

吳恩達《deeplearning深度學習》課程學習筆記【3】（精簡總結）

機器學習入門之房價預測（線性迴歸）

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

【深度學習】一文讀懂機器學習常用損失函數（Loss Function）

機器學習框架ML.NET學習筆記【4】多元分類之手寫數字識別

【python】（第一章）1.4 數字和表達式

【原創】Logistic regression （邏輯迴歸）概述

機器學習實戰筆記4—Logistic迴歸

【機器學習經典演算法梳理】一.線性迴歸

機器學習作業-Logistic Regression（邏輯迴歸）

機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

《機器學習實戰》第5章邏輯斯蒂迴歸數學推導

深度學習筆記——理論與推導之Structured Learning【NLP】（十二）

機器學習實戰-第六章（支援向量機）

機器學習實戰筆記4(樸素貝葉斯)

機器學習實戰【4】（邏輯迴歸）

邏輯迴歸

sigmoid函式

迴歸引數確定

相關推薦