【機器學習】邏輯迴歸基礎知識+程式碼實現

阿新 • • 發佈：2019-01-04

1. 基本概念

邏輯迴歸用於二分類，將對輸入的線性表示對映到0和1之間，輸出為label為1的概率。

優點：實現代價低，可輸出分類概率。適用於資料線性不可分。

缺點：容易欠擬合，分類精度可能不高，且僅限二分類。

使用資料型別：數值型和標稱資料。

邏輯迴歸本質也是線性迴歸，但是是將線性迴歸對映到0/1分類上，因此邏輯迴歸用於分類。

2. 公式推導

單個輸入樣本為 $x =[1,x_1, x_2,...,x_n]$ ,第一項為1是為了直接把截距b加入到權重w矩陣中，方便計算。 $y = [y_1,y_2,...,y_n]$ 為正確的標籤類別。共有m個樣本。

迴歸函式：

$\\ \hat {y} = \sigma(wx) \\ \sigma(z) = \frac{1}{1+exp(-z)} \\\sigma(z)' = \sigma(z)(1-\sigma(z))$

屬於不同類別的概率：

$\\ p(y=1|x) = \hat{y} = \sigma(wx) \\p(y=0| x) = 1-\hat{y} = 1-\sigma(wx)$

則分類正確的概率：

$p(y|x) = \hat{y}^y * (1-\hat{y})^{(1-y)}$

則對於所有樣本，分類正確的最大似然估計為：

$P = \prod_{i=1}^{m}p(y^{<i>}|x^{<i>}) = \prod_{i=1}^{m} (\hat{y}^y * (1-\hat{y})^{(1-y)})$

取對數：

$J = logP =log \prod_{i=1}^{m}p(y^{<i>}|x^{<i>}) = \sum_{i=1}^{m} (ylog\hat{y} + (1-y)log(1-\hat{y}))$

即損失函式為上述對數似然函式，我們的目標是最大化對數似然函式（也可以是最小化負對數似然函式）。

已知損失函式關於w的導數為：

$\frac{\partial J}{\partial w} = x(y-\hat{y})$ （推導過程如下圖）（該結果與LMS類似）

由於是最大化問題，則權重更新公式為梯度上升更新公式：

$w = w + \alpha \frac{\partial J}{\partial w}$

3. 訓練細節

3.1 梯度上升 vs 隨機梯度上升

梯度上升：在整個資料集（訓練集）上計算一次損失函式，更新一次權重。

隨機梯度上升：對於每個樣本，都更新一次權重。

簡單的梯度上升，由於異常點的存在可能會減緩收斂且造成資料較大的波動。因此引入隨機梯度上升。

3.2 隨機梯度上升改進

1) 進行多輪，即引入迭代次數。提升分類準確率。

2) 隨著訓練的進行，改變步長alpha（類似於深度學習裡面的對學習率的自適應）。

$\alpha = \frac{4}{i+j+1} + 0.01$

初始時alpha較大，隨著進行論述的增加，alpha減小。加快收斂的同時，可減緩資料的波動。

3) 每次SGA時，隨機選取樣本點用於計算梯度，也減緩了資料的波動。

3.3 缺失資料的處理

若對於樣本資料，每個特徵值缺失，解決方法有：

使用可用特徵均值填補缺失特徵；
使用特殊值來填補缺失特徵，一般取特徵值不會取到的值（比如正常特徵值為整數的話，則可取-1）；
使用相似樣本的均值填補缺失特徵；
忽略帶有缺失特徵值的樣本；
使用其他ML方法預測缺失值。

對於邏輯迴歸，

特徵值缺失：一般填補缺失值為0，因為：一方面當x為0時，其對應的特徵係數w不會更新，另一方面因為sigmoid（0） = 0.5，即為中性概率，不會影響任何一端的判斷。

類別標籤缺失：直接捨棄該條樣本資料。不適用於KNN。

4. 程式碼實現

參考：《機器學習實戰》

原始碼地址以及資料：https://github.com/JieruZhang/MachineLearninginAction_src

from numpy import *
import random
import matplotlib.pyplot as plt
#加在資料集
def loadDataSet():
    dataMat = []
    labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        #為了便於截距b的計算，在資料集首尾加了一項1.0
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat, labelMat

#sigmoid函式
def sigmoid(inX):
    return 1.0/(1+exp(-inX))

#梯度上升
def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose()
    m,n = shape(dataMatrix)
    alpha = 0.001#移動步長，學習率
    maxCircles = 150#迭代次數
    weights = ones((n,1))
    for k in range(maxCircles):
        h = sigmoid(dataMatrix*weights)
        #該處推導見博文
        error = labelMat-h
        weights = weights + alpha*dataMatrix.transpose()*error
    return weights

#隨機梯度上升基本函式
def stoGradAscent0(dataMatrix,classLabels, numIter=150):
    m,n = shape(dataMatrix)
    alpha = 0.001
    weights = ones(n)
    for _ in range(numIter):
        for i in range(m):
            h = sigmoid(sum(dataMatrix[i]*weights))
            error = classLabels[i] - h
            weights = weights + alpha*error*dataMatrix[i]
    return weights

#隨機梯度上升改進函式
#共3處改進：多輪隨機梯度下降，每次更新權重是在隨機選取的樣本電上，步長alpha隨著訓練的進行逐漸減小（開始時較大）。（即自適應學習率）
def stoGradAscent1(dataMatrix, classLabels, numIter=150):
    m, n = shape(dataMatrix)
    weights = ones(n)
    for j in range(numIter):
        for i in range(m):
            alpha = 4/(1.0+i+j) + 0.01
            #隨機選取計算梯度使用的樣本點
            randIndex = random.randint(0,m-1)
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha*error*dataMatrix[randIndex]
    return weights

#視覺化分類效果：畫出決策邊界
def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] 
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2');
    plt.show()

#測試不同優化演算法所得到的分類器分類效果
dataArr, labelMat = loadDataSet()
weights0 = gradAscent(dataArr, labelMat)
plotBestFit(weights0.getA())
weights1 = stoGradAscent0(array(dataArr), labelMat)
plotBestFit(weights1)
weights2 = stoGradAscent1(array(dataArr), labelMat)
plotBestFit(weights2)

#預測病馬的死亡率
#分類
def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5:
        return 1.0
    else:
        return 0.0
    
def colicTest():
    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))
    trainWeights = stoGradAscent1(array(trainingSet), trainingLabels, 1000)
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)
    print ("the error rate of this test is: %f" % errorRate)
    return errorRate

def multiTest():
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()
    print ("after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests)))

multiTest()

【機器學習】邏輯迴歸基礎知識+程式碼實現

1. 基本概念邏輯迴歸用於二分類，將對輸入的線性表示對映到0和1之間，輸出為label為1的概率。優點：實現代價低，可輸出分類概率。適用於資料線性不可分。缺點：容易欠擬合，分類精度可能不高，且僅限二分類。使用資料型別：數值型和標稱資料。邏輯迴歸本質也是線性迴歸，但是

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

【機器學習】CART分類決策樹+程式碼實現

1. 基礎知識 CART作為二叉決策樹，既可以分類，也可以迴歸。分類時：基尼指數最小化。迴歸時：平方誤差最小化。資料型別：標值型，連續型。連續型分類時採取“二分法”，取中間值進行左右子樹的劃分。 2. CART分類樹特徵A有N個取值，將每個取值作為分界點，將資料

機器學習：邏輯迴歸與Python程式碼實現

前言：本篇博文主要介紹邏輯迴歸（logistic regression），首先介紹相關的基礎概念和原理，然後通過Python程式碼實現邏輯迴歸的二分類問題。特別強調，其中大多理論知識來源於《統計學習方法_李航》和斯坦福課程翻譯筆記以及Coursera機器學習課程。本篇博

【吳恩達機器學習】邏輯迴歸演算法Matlab實現

一，假設函式： 1）邏輯迴歸（Logistic Regression)，Logistic function, Sigmoid function是同一個意思，函式形式（假設函式形式）如下: 邏輯迴歸是二分類演算法，hθ(x)>=0.5hθ(x)&g

【吳恩達機器學習】邏輯迴歸的損失函式偏導

1) 邏輯迴歸（Logistic Regression, Logistic Function, Sigmoid Function）的損失函式為： J(θ)=−1m∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]J(θ

【機器學習】演算法原理詳細推導與實現(二):邏輯迴歸

【機器學習】演算法原理詳細推導與實現(二):邏輯迴歸在上一篇演算法中，線性迴歸實際上是連續型的結果，即 $y\in R$ ，而邏輯迴歸的 $y$ 是離散型，只能取兩個值 $y\in \{0,1\}$，這可以用來處理一些分類的問題。 logistic函式我們可能會遇到一些分類問題，例如想要劃

【機器學習】softmax迴歸（二）

通過上篇softmax迴歸已經知道大概了，但是有個缺點，現在來仔細看看 Softmax迴歸模型引數化的特點 Softmax 迴歸有一個不尋常的特點：它有一個“冗餘”的引數集。為了便於闡述這一特點，假設我們從引數向量中減去了向量，這時，每一個

【機器學習】softmax迴歸（一）

在 softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題），類標可以取個不同的值（而不是 2 個）。因此，對於訓練集，我們有。（注意此處的類別下標從 1 開始，而不是 0）。例如，在 M

【機器學習】線性迴歸演算法的過擬合比較

回顧過擬合與欠擬合主要介紹了什麼是欠擬合什麼是過擬合對抗過擬合主要介紹了線性迴歸中對抗過擬合的方法，主要包括：L1-norm的LASSO迴歸、L2-norm的Ridge迴歸，此外還有一個沒有提到，L1-norm和L2-norm結合的Elasitc Net(彈性網

【python學習】2-python基礎知識

的今天繼續學習python，在實現下列問題時遇到點小問題輸入半徑，輸出面積即周長我剛開始是這樣寫的 import math r = input('請輸入半徑：') print( '周長是：'+ 2 * math.pi * r) print('面積是：',+

【機器學習】線性迴歸模型分析

具體原理不講了，線性迴歸模型，代價損失函式 COST是均方誤差，梯度下降方法。屬性取值。模型的屬性取值設定需要根據每一個引數的取值範圍來確定，將所有的屬性的取值統一正則化normalization，統一規定在0~1的範圍，或者-1~1的範圍內，這樣在進行線性迴歸時不會造成

【機器學習】線性迴歸+程式碼實現

參考：《機器學習實戰》原始碼地址以及資料：https://github.com/JieruZhang/MachineLearninginAction_src 1. 標準線性迴歸(LR) y

【機器學習】演算法原理詳細推導與實現(一):線性迴歸

【機器學習】演算法原理詳細推導與實現(一):線性迴歸今天我們這裡要講第一個有監督學習演算法，他可以用於一個迴歸任務，這個演算法叫做線性迴歸房價預測假設存在如下 m 組房價資料：面積(m^2) 價格(萬元) 82.35 193 65.00 213 114.20 255 75.

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進一、LSSVM 1、LSSVM用於迴歸 2、LSSVM模型的缺點二、WLSSVM的數學原理三、WLSSVM的python實現參

Coursera機器學習 week3 邏輯迴歸程式設計作業程式碼

這是Coursera上 Week3 的 “邏輯迴歸” 的程式設計作業程式碼。經過測驗，全部通過。下面是 sigmoid.m 的程式碼： function g = sigmoid(z) %SIG

【機器學習】演算法原理詳細推導與實現(三):樸素貝葉斯

【機器學習】演算法原理詳細推導與實現(三):樸素貝葉斯在上一篇演算法中，邏輯迴歸作為一種二分類的分類器，一般的迴歸模型也是是判別模型，也就根據特徵值來求結果概率。形式化表示為 $p(y|x;\theta)$，在引數 $\theta$ 確定的情況下，求解條件概率 $p(y|x)$ 。通俗的解釋為：

【機器學習】演算法原理詳細推導與實現(四):支援向量機(上)

【機器學習】演算法原理詳細推導與實現(四):支援向量機(上) 在之前的文章中，包括線性迴歸和邏輯迴歸，都是以線性分界線進行分割劃分種類的。而本次介紹一種很強的分類器【支援向量機】，它適用於線性和非線性分界線的分類方法。函式間隔概念為了更好的理解非線性分界線，區別兩種分界線對於分類的直觀理解，第一種直觀理解

【機器學習】演算法原理詳細推導與實現(五):支援向量機(下)

【機器學習】演算法原理詳細推導與實現(五):支援向量機(下) 上一章節介紹了支援向量機的生成和求解方式，能夠根據訓練集依次得出$\omega$、$b$的計算方式，但是如何求解需要用到核函式，將在這一章詳細推導實現。核函式在講核函式之前，要對上一章節得到的結果列舉出來。之前需要優化的凸函式為： \[

【機器學習】演算法原理詳細推導與實現(六):k-means演算法

【機器學習】演算法原理詳細推導與實現(六):k-means演算法之前幾個章節都是介紹有監督學習，這個章節介紹無監督學習，這是一個被稱為k-means的聚類演算法，也叫做k均值聚類演算法。聚類演算法在講監督學習的時候，通常會畫這樣一張圖：這時候需要用logistic迴歸或者SVM將這些資料分成正負兩

【機器學習】邏輯迴歸基礎知識+程式碼實現

相關推薦