《機器學習實戰》學習筆記八：Logistics迴歸應用（預測病馬死亡率）

阿新 • • 發佈：2019-01-12

學習了Logistics迴歸的理論，並且改進了梯度上升演算法之後，這一節將演算法應用到例項中去，即使用Logistics迴歸從疝氣病症來預測病馬的死亡率的問題。

1 問題背景

現有一個數據集中包含368個樣本和28個特徵。該資料集中包含了醫院檢測馬疝病的一些指標，有的指標比較主觀，有的指標難以測量，例如馬的疼痛級別。另外需要說明的是，除了部分指標主觀和難以測量外，該資料還存在一個問題，資料集中有30%的值是缺失的。下面將首先介紹如何處理資料集中的資料缺失問題，然後再利用Logistic迴歸和隨機梯度上升演算法來預測病馬的生死。

2 準備資料

在給定的資料集中，有一些樣本存在資料缺失，但是剩下的資料還有一定的利用價值，下面給出了一些可以採用的處理資料的辦法：

使用可用特徵的均值來填補缺失值；
使用特殊值來填補缺失值，如-1；
忽略有缺失值的樣本；
使用相似樣本的均值添補缺失值；
使用另外的機器學習演算法預測缺失值。

對資料集進行預處理需要做兩件事：一，如果缺失值是特徵，用一個實數值來替換，在這裡我們選擇0來替換缺失值；二是如果缺失值是類標籤，那麼將這條資料丟棄，因為很難找到合適的值來替換。

3 演算法實現

def classifyVector(inX,weights): #對Sigmoid值的處理
    prob = sigmoid(sum(inX*weights))
    if prob >0.5: return 1.0
    else 
 :return 0.0

def colicTest():
    frTrain = open('horseColicTraining.txt')
    frTest = open('horseColicTest.txt')
    trainingSet = [];trainingLabels = []
    for line in frTrain.readlines(): #匯入訓練集
        currLine = line.strip().split('\t')
        lineArr = []
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21 
]))
    trainWeights = stocGradAscent1(array(trainingSet),trainingLabels,500) #計算迴歸係數
    errorCount = 0;numTestVec = 0.0
    for line in frTest.readlines():#匯入測試集
        numTestVec+=1.0
        currLine = line.strip().split('\t')
        lineArr = []
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr),trainWeights))!=int(currLine[21]):#分類並統計錯誤次數
            errorCount += 1
    errorRate =(float(errorCount)/numTestVec) #計算錯誤率
    print('the error rate of this test is :%f'%errorRate)
    return errorRate

def multiTest():#設定迭代次數，計算平均錯誤率
    numTests = 10;errorSum = 0.0
    for k in range(numTests):
        errorSum += colicTest()
    print("after %d iterations the avearge error rate is :%f"% (numTests,errorSum/float(numTests)))

這裡有三個函式，第一個是classifyVector( )，它的作用是計算Sigmoid值，如果Sigmoid值大於0.5則返回1，否則返回0。
第二個函式是colicTest( )，在這個函式中，首先匯入訓練集，計算迴歸係數向量，然後匯入測試集，分類並計算分類錯誤率。
第三個函式是multiTest( )，在這個函式中，給定迭代次數，然後計算迭代過程中的平均錯誤率。

總結

Logistic迴歸的目的是尋找一個非線性函式Sigmoid的最佳擬合引數，求解過程可以由最優化演算法來完成。在最優化演算法中，最常用的就是梯度上升演算法，而梯度上升演算法又可以簡化為隨機梯度上升演算法。
隨機梯度上升演算法與梯度上升演算法的效果相當，但佔用更少的計算資源。此外，隨機梯度上升是一個線上演算法，它可以在新資料到來時就完成引數更新，而不需要重新讀取整個資料集來進行批處理運算。
機器學習的一個重要問題就是如何處理缺失資料。這個問題沒有標準答案，取決於實際應用中的需求。

《機器學習實戰》學習筆記八：Logistics迴歸應用（預測病馬死亡率）

1 問題背景

2 準備資料

3 演算法實現

總結

《機器學習實戰》學習筆記八：Logistics迴歸應用（預測病馬死亡率）

《機器學習實戰》學習筆記七：Logistics迴歸（梯度上升法）

機器學習實戰—第9章：樹迴歸程式程式碼中的小錯誤

機器學習實戰—第5章：Logistic迴歸中程式清單5-1中的數學推導

《機器學習實戰》筆記之九——樹迴歸

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

《機器學習實戰》第二章：k-近鄰演算法（1）簡單KNN

《機器學習實戰》第二章：k-近鄰演算法（2）約會物件分類

《機器學習實戰》筆記之五——Logistic迴歸

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

Tensorflow深度學習之二十一：LeNet的實現（CIFAR-10資料集）

Tensorflow深度學習之二十二：AlexNet的實現（CIFAR-10資料集）

《機器學習實戰》筆記（三）：樸素貝葉斯

《機器學習實戰》筆記（一）：K-近鄰演算法

Python3《機器學習實戰》筆記：K-近鄰演算法

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

《機器學習實戰》筆記--第五章：Logistic迴歸

Shell 腳本學習筆記八：流程控制

Web安全學習筆記(八)：SQL-結構化查詢語言

《機器學習實戰》學習筆記八：Logistics迴歸應用（預測病馬死亡率）

1 問題背景

2 準備資料

3 演算法實現

總結

相關推薦