Python實現邏輯迴歸演算法（一）

阿新 • • 發佈：2018-12-30

本次用Python實現邏輯迴歸演算法，邏輯迴歸是應用非常廣泛的一個分類及其學習演算法，它將資料擬合到一個logit函式中，從而完成對事件發生的概率進行預測。

本次學習筆記主要參考了《Python進行資料分析與挖掘實踐》和作者@寒小陽的部落格，地址如下：http://blog.csdn.net/yaoqiang2011/article/details/49123419。

第一步，首先引入本次程式需要用的Python依賴庫：

import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

from scipy.optimize import minimize

from sklearn.preprocessing import PolynomialFeatures

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline

import seaborn as sns
sns.set_context('notebook')
sns.set_style('white')

接下來開始定義loaddata、plotdata兩個函式，功能分別是讀取並顯示前六行資料，然後對樣本資料進行標引，這裡設定了五個引數，分別傳入資料，x,y標籤，資料的正負分類。

def loaddata(file, delimeter):
    data = np.loadtxt(file, delimiter=delimeter)
    print('Dimensions: ',data.shape)
    print(data[1:6,:])
    return(data)

def plotData(data, label_x, label_y, label_pos, label_neg, axes=None):
    # 獲得正負樣本的下標(即哪些是正樣本，哪些是負樣本)
    neg = data[:,2] == 0
    pos = data[:,2] == 1
    
    if axes == None:
        axes = plt.gca()
    axes.scatter(data[pos][:,0], data[pos][:,1], marker='+', c='k', s=60, linewidth=2, label=label_pos)
    axes.scatter(data[neg][:,0], data[neg][:,1], c='y', s=60, label=label_neg)
    axes.set_xlabel(label_x)
    axes.set_ylabel(label_y)
    axes.legend(frameon= True, fancybox = True);

呼叫loaddata方法：

data = loaddata('data1.txt', ',')

('Dimensions: ', (100, 3))
[[ 30.28671077  43.89499752   0.        ]
 [ 35.84740877  72.90219803   0.        ]
 [ 60.18259939  86.3085521    1.        ]
 [ 79.03273605  75.34437644   1.        ]
 [ 45.08327748  56.31637178   0.        ]]

對兩類資料進行分類並定義形狀。

X = np.c_[np.ones((data.shape[0],1)), data[:,0:2]]
y = np.c_[data[:,2]]

呼叫plotdata方法並傳入引數

plotData(data, 'Exam 1 score', 'Exam 2 score', 'Pass', 'Fail')

#定義sigmoid函式
def sigmoid(z):
    return(1 / (1 + np.exp(-z)))

#定義損失函式
def costFunction(theta, X, y):
    m = y.size
    h = sigmoid(X.dot(theta))
    
    J = -1.0*(1.0/m)*(np.log(h).T.dot(y)+np.log(1-h).T.dot(1-y))
               
    if np.isnan(J[0]):
        return(np.inf)
    return J[0]

#求解梯度
def gradient(theta, X, y):
    m = y.size
    h = sigmoid(X.dot(theta.reshape(-1,1)))
    grad =(1.0/m)*X.T.dot(h-y)
    return(grad.flatten())

initial_theta = np.zeros(X.shape[1])
cost = costFunction(initial_theta, X, y)
grad = gradient(initial_theta, X, y)
print('Cost: \n', cost)
print('Grad: \n', grad)

('Cost: \n', 0.69314718055994518)
('Grad: \n', array([ -0.1       , -12.00921659, -11.26284221]))

#最小化損失函式

res = minimize(costFunction, initial_theta, args=(X,y), jac=gradient, options={'maxiter':400})

res

   status: 0
  success: True
     njev: 28
     nfev: 28
 hess_inv: array([[  3.24739469e+03,  -2.59380769e+01,  -2.63469561e+01],
       [ -2.59380769e+01,   2.21449124e-01,   1.97772068e-01],
       [ -2.63469561e+01,   1.97772068e-01,   2.29018831e-01]])
      fun: 0.20349770158944075
        x: array([-25.16133401,   0.20623172,   0.2014716 ])
  message: 'Optimization terminated successfully.'
      jac: array([ -2.73305312e-10,   1.43144026e-07,  -1.58965802e-07])

#進行預測

def predict(theta, X, threshold=0.5):
    p = sigmoid(X.dot(theta.T)) >= threshold
    return(p.astype('int'))

畫決策邊界

plt.scatter(45, 85, s=60, c='r', marker='v', label='(45, 85)')
plotData(data, 'Exam 1 score', 'Exam 2 score', 'Admitted', 'Not admitted')
x1_min, x1_max = X[:,1].min(), X[:,1].max(),
x2_min, x2_max = X[:,2].min(), X[:,2].max(),
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
h = sigmoid(np.c_[np.ones((xx1.ravel().shape[0],1)), xx1.ravel(), xx2.ravel()].dot(res.x))
h = h.reshape(xx1.shape)
plt.contour(xx1, xx2, h, [0.5], linewidths=1, colors='b');

加正則化的邏輯迴歸

data2 = loaddata('data2.txt', ',')

('Dimensions: ', (118, 3))
[[-0.092742  0.68494   1.      ]
 [-0.21371   0.69225   1.      ]
 [-0.375     0.50219   1.      ]
 [-0.51325   0.46564   1.      ]
 [-0.52477   0.2098    1.      ]]

# 拿到X和y
y = np.c_[data2[:,2]]
X = data2[:,0:2]

# 畫個圖
plotData(data2, 'Microchip Test 1', 'Microchip Test 2', 'y = 1', 'y = 0')

# 定義損失函式
def costFunctionReg(theta, reg, *args):
    m = y.size
    h = sigmoid(XX.dot(theta))
    
    J = -1.0*(1.0/m)*(np.log(h).T.dot(y)+np.log(1-h).T.dot(1-y)) + (reg/(2.0*m))*np.sum(np.square(theta[1:]))
    
    if np.isnan(J[0]):
        return(np.inf)
    return(J[0])

def gradientReg(theta, reg, *args):
    m = y.size
    h = sigmoid(XX.dot(theta.reshape(-1,1)))
      
    grad = (1.0/m)*XX.T.dot(h-y) + (reg/m)*np.r_[[[0]],theta[1:].reshape(-1,1)]
        
    return(grad.flatten())

initial_theta = np.zeros(XX.shape[1])
costFunctionReg(initial_theta, 1, XX, y)

fig, axes = plt.subplots(1,3, sharey = True, figsize=(17,5))

# 決策邊界，咱們分別來看看正則化係數lambda太大太小分別會出現什麼情況
# Lambda = 0 : 就是沒有正則化，這樣的話，就過擬合咯
# Lambda = 1 : 這才是正確的開啟方式
# Lambda = 100 : 臥槽，正則化項太激進，導致基本就沒擬合出決策邊界

for i, C in enumerate([0.0, 1.0, 100.0]):
    # 最優化 costFunctionReg
    res2 = minimize(costFunctionReg, initial_theta, args=(C, XX, y), jac=gradientReg, options={'maxiter':3000})
    
    # 準確率
    accuracy = 100.0*sum(predict(res2.x, XX) == y.ravel())/y.size    

    # 對X,y的雜湊繪圖
    plotData(data2, 'Microchip Test 1', 'Microchip Test 2', 'y = 1', 'y = 0', axes.flatten()[i])
    
    # 畫出決策邊界
    x1_min, x1_max = X[:,0].min(), X[:,0].max(),
    x2_min, x2_max = X[:,1].min(), X[:,1].max(),
    xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
    h = sigmoid(poly.fit_transform(np.c_[xx1.ravel(), xx2.ravel()]).dot(res2.x))
    h = h.reshape(xx1.shape)
    axes.flatten()[i].contour(xx1, xx2, h, [0.5], linewidths=1, colors='g');       
    axes.flatten()[i].set_title('Train accuracy {}% with Lambda = {}'.format(np.round(accuracy, decimals=2), C))

以上是用Python實現邏輯迴歸的全部過程，明天再補筆記。

('Cost: \n', 0.69314718055994518)('Grad: \n', array([ -0.1 , -12.00921659, -11.26284221]))

Python實現邏輯迴歸演算法（一）

本次用Python實現邏輯迴歸演算法，邏輯迴歸是應用非常廣泛的一個分類及其學習演算法，它將資料擬合到一個logit函式中，從而完成對事件發生的概率進行預測。本次學習筆記主要參考了《Python進行資料分析與挖掘實踐》和作者@寒小陽的部落格，地址如下：http://blog.c

python實現線性回歸（一）原理

函數乘法學習偏移量 python實現機器線性計算梯度線性回歸是機器學習的基礎，用處非常廣泛，在日常工作中有很大作用。 1.什麽是線性回歸通過多次取點，找出符合函數的曲線，那麽就可以完成一維線性回歸。 2.數學表示是截距值，為偏移量。因為單純計算多項

深入理解線性迴歸演算法（一）

前言線性迴歸演算法是公眾號介紹的第一個機器學習演算法，原理比較簡單，相信大部分人對線性迴歸演算法的理解多於其他演算法。本文介紹的線性迴歸演算法包括最小二乘法和最大似然法，進而討論這兩種演算法蘊含的一些小知識，然後分析演算法的偏差和方差問題，最後總結全文。

Python實現八大排序演算法（轉載）+ 桶排序（原創）

插入排序核心思想程式碼實現希爾排序核心思想程式碼實現氣泡排序核心思想程式碼實現快速排序核心思想程式碼實現堆排序核心思想程式碼實現歸併排序核心思想程式碼實現基數排序核心思想程式碼實現桶排

通俗得說線性迴歸演算法（一）線性迴歸初步介紹

一.從線性迴歸的故事說起相信大家都聽過著名的博物學家，達爾文的大名，而今天這個故事的主人公就是他的表弟高爾頓。高爾頓是一名生理學家，在1995年的時候，他研究了1078堆父子的身高，發現他們大致滿足一條公式，那就是 Y=0.8567+0.516*x 這條式子中的x指的是父親的身高，Y指的是兒子的身高。

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

機器學習演算法（一）：邏輯迴歸模型（Logistic Regression, LR）

轉自：https://blog.csdn.net/weixin_39910711/article/details/81607386 線性分類器：模型是引數的線性函式，分類平面是（超）平面；非線性分類器：模型分介面可以是曲面或者超平面的組合。典型的線性分類器有感知機，LDA，邏輯斯特迴歸，SVM

幾種常用的排序演算法（一）--python實現

1. 選擇排序，時間複雜度O（n^2），演算法不穩定。思路：（1）迴圈整個陣列 arr，選出最大的數，將它放在空陣列 new_arr 的第一個位置。（2）將剛

通俗地說邏輯迴歸【Logistic regression】演算法（一）

在說邏輯迴歸前，還是得提一提他的兄弟，線性迴歸。在某些地方，邏輯迴歸演算法和線性迴歸演算法是類似的。但它和線性迴歸最大的不同在於，邏輯迴歸是作用是分類的。還記得之前說的嗎，線性迴歸其實就是求出一條擬合空間中所有點的線。邏輯迴歸的本質其實也和線性迴歸一樣，但它加了一個步驟，邏輯迴歸使用sigmoid函式轉換線

邏輯迴歸演算法的一種實現

"""邏輯迴歸演算法的一種實現__1""" import numpy as np import matplotlib.pyplot as plt """載入資料集,將資料集中兩列資料分別儲存到datamat和labelmat""" def loadDataSet():

Logistic迴歸之梯度上升優化演算法（一）

Logistic迴歸之梯度上升優化演算法一、Logistic迴歸首先我們需要了解什麼是Logistic迴歸。Logistic迴歸是一種分類演算法，一般用於二分類問題，例如預測明天是否下雨，當然也可以用於多分類問題。本文主要是討論二分類問題。二分類問題即輸出結果一般只有兩個情況，我們可以理

Python用列表實現棧，佇列（一）

用列表實現棧棧方法列表實現 S.push() L.append() S.pop() L.pop() S.top()

Python C/S 網路程式設計（一）之三種方法實現天氣預報小程式

1. 首先明白下協議棧和庫的概念：協議棧（Protocol Stack）: 是指網路中各層協議的總和，其形象的反映了一個網路中檔案傳輸的過程：由上層協議到底層協議，再由底層協議到上層協議。庫（Library）:主要用來解析要使用的網路通訊協議，包含Python內建標準庫

python開發電影查詢系統（一）—python實現後臺資料

爬蟲也學了很長一段時間了，雖然有些東西還不是很熟悉，但使用python和Django自己做了一個專案，即爬取http://www.bd-film.com/的電影資訊，並將資料儲存到本地，再通過Django做一個查詢入口進行查詢。我將程式碼實現大致分為三部

優化演算法（一）SGD演算法實現

SGD隨機梯度下降演算法，和最常用的GD相比，GD每一次迭代都是所有樣本都一起進行計算，而SGD是每一次迭代中每個樣本分別進行計算，梯度演算法的最終目標是減少cost值，訓練出最優的引數值，GD每一次迭代都讓所有樣本去優化引數，一次迭代進行一次優化，而SGD一次只讓一個樣本去

教你實現SVM演算法（一）

什麼是機器學習（Machine Learning）機器學習是研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使計算機具有智慧的根本途徑，其應用遍及人工智慧的各個領域。機器學習的大致

手把手教你實現SVM演算法（一）

什麼是機器學習（Machine Learning）機器學習是研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使計算機具有智慧的根本途徑，其應用遍及人工智慧的各個領域。機器學習

機器學習演算法（一）——關聯規則Apriori演算法及R語言實現方法

關聯規則演算法算是一種十分常用的機器學習演算法，無論是面試還是日後工作中都會經常出現，那麼本篇小博就記錄一下自己學習關聯規則經典演算法Apriori的筆記。 1、概述 Apriori演算法是用一種稱為逐層搜尋的迭代方法，從項集長度k=1開始，選出頻繁的k=1項集，根據先驗性

【原始碼】C++實現嚴蔚敏資料結構所有演算法（一）線性表-順序表

日常說明：首先博主也是菜鳥一枚，有錯誤歡迎大家指正。另外本部落格所有的程式碼博主編寫後均除錯通過。重要提醒！！！！博主使用的是VS2017，如果有低版本的小夥伴最好新建空專案將此程式碼複製上去。附加說明：最初的程式碼我沒有嚴格的按照專案規範來分離，希望

全排列及相關擴充套件演算法（一）——基礎的回溯遞迴實現全排列演算法

1.全排列的定義和公式：從n個數中選取m（m<=n）個數按照一定的順序進行排成一個列，叫作從n個元素中取m個元素的一個排列。由排列的定義，顯然不同的順序是一個不同的排列。從n個元素中取m個元素的所有排列的個數，稱為排列數。從n個元素取出n個元素的一個排列，稱為一個全

Python實現邏輯迴歸演算法（一）

相關推薦