利用python實現梯度下降和邏輯迴歸原理(Python詳細原始碼：預測學生是否被錄取)

阿新 • • 發佈：2018-11-28

本案例主要是：建立邏輯迴歸模型預測一個學生是否被大學錄取，沒有詳細介紹演算法推到，

讀者可查閱其他部落格理解梯度下降演算法的實現：https://blog.csdn.net/wangliang0633/article/details/79082901

資料格式如下：第三列表示錄取狀態，0---未錄取，1---已錄取，前兩列是成績

原始碼：

#!/usr/bin/env python
# encoding: utf-8
"""
@Company：華中科技大學電氣學院聚變與等離子研究所
@version: V1.0
@author: Victor
@contact: [email protected] 
 or [email protected] 2018--2020
@software: PyCharm
@file: LogisticsRegression.py
@time: 2018/11/12 15:10
@Desc：建立邏輯迴歸模型預測一個學生是否被大學錄取
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import os
path="E:\PycharmWorks\Files"+os.sep+"LogiReg_data.txt"
pdData = pd.read_csv(path,header=None,names=['Exam1','Exam2','Admitted'])
#pdData.head(3)

##畫出錄取和未錄取的散點分佈圖
positive = pdData[pdData['Admitted'] == 1]
negative = pdData[pdData['Admitted'] == 0]

#plt.scatter(positive['Exam1'],positive['Exam2'],s=30,c='b',marker='o',label='Admitted')
#plt.scatter(negative['Exam1'],negative['Exam2'],s=30,c='r',marker='x',label='UNAdmitted')

#plt.legend()
#plt.xlabel("Exam1 Score")
#plt.ylabel("Exam2 Score")
#plt.show()

'''目標：建立分類器
   設定閾值：根據閾值判斷錄取結果
   要完成的模組：
      sigmodi:對映到概率的函式
      model:返回預測結果值
      cost：根據引數計算損失
      gradient：計算每個引數的梯度方向
      descent：進行引數更新
      accuracy：計算精度'''


def sigmoid(z):
    return 1/(1+np.exp(-z))

def model(X,theta):
    return sigmoid(np.dot(X,theta.T))

pdData.insert(0,'Ones',1)
#print(pdData)

orig_data = pdData.as_matrix() ##變為矩陣
##print(orig_data)
cols = orig_data.shape[1]
X = orig_data[:,0:cols-1]
#print(X[:5]) ##前5行
y = orig_data[:,cols-1:cols]
#print(y[:4])
##構建引數矩陣
theta = np.zeros([1,3])
#print(theta)

####損失函式（實現似然函式）,
def cost(X,y,theta):
    left = np.multiply(-y,np.log(model(X,theta)))
    right = np.multiply(1 - y,np.log(1 - model(X,theta)))
    return np.sum(left-right)/(len(X))/n

#print(cost(X,y,theta))

####計算梯度,計算每個引數的梯度
def gradient(X,y,theta):
    grad = np.zeros(theta.shape) ##佔位
    error = (model(X,theta)-y)[:,1]
    for j in range(len(theta.ravel())):
        term = np.multiply(error,X[:,j])###X的行表示樣本，列表示特徵
        grad[0,j] = np.sum(term) / len(X)
    return grad


#print(gradient(X,y,theta))

###比較三種不同的梯度下降方法
STOP_ITER = 0
STOP_COST = 1
STOP_GRAD = 2

def stopCriterion(type,value,threshod):
    if type == STOP_ITER: return value > threshod
    elif type == STOP_COST: return abs(value[-1]-value[-2] < threshod)
    elif type == STOP_GRAD: return np.linalg.norm(value) < threshod


###洗牌,避免資料收集過程中有規律，打亂資料，可以得到更好的模型
import numpy.random
def shuffleData(data):
    np.random.shuffle(data)
    cols = data.shape[1]
    X = data[:,0:cols-1]
    y = data[:,cols-1]
    return X,y

####梯度下降求解
import time
def descent(data,theta,batchSize,stopType,thresh,alpha):
    init_time = time.time()
    i = 0 #迭代次數
    k = 0 #batch
    X,y = shuffleData(data)
    grad = np.zeros(theta.shape)
    costs = [cost(X,y,theta)]

    while True:
        grad = gradient(X[k:k+batchSize],y[k:k+batchSize],theta)
        k += batchSize
        if k >= 100:
           k = 0
           X,y = shuffleData(data)
        theta = theta -alpha*grad ##引數更新
        costs.append(cost(X,y,theta)) ##計算新的損失
        i += 1

        if stopType == STOP_ITER: value = i
        elif stopType == STOP_COST: value = costs
        elif stopType == STOP_GRAD: value = grad
        if stopCriterion(stopType,value,thresh):break

    return theta,i-1,costs,grad,time.time()-init_time


def RunExp(data,theta,batchSize,stopType,thresh,alpha):
    theta,iter,costs,grad,dur = descent(data,theta,batchSize,stopType,thresh,alpha)
    name = "Original" if (data[:,1]>2).sum() > 1 else "Scaled"
    name += "data- learning rate:{}-".format(alpha)

    print("***{}\nTheta:{}-Iter:{}-Last cost:{:03.2f} - Duration:{:03.2f}s".format(name,theta,iter,costs[-1],dur))

    plt.plot(np.arange(len(costs)),costs,'r')
    plt.xlabel("Iterations")
    plt.ylabel("Cost")
    plt.title("Error vs Itetarion")
    plt.show()
    return theta

n=100
RunExp(orig_data,theta,n,STOP_ITER,thresh=12000,alpha=0.00000012)

###計算模型精度


##設定閾值
def predict(X,theta):
    return [1 if x >= 0.5 else  0 for x in model(X,theta)]

scaled_X = orig_data[:,:3]
y = orig_data[:,3]
predicts = predict(scaled_X,theta)

correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a,b) in zip(predicts,y)]
accuracy = (correct.count(1) % len(correct))
print("accuracy = {0}%".format(accuracy))

結果顯示：

結果預測：

可見準確率不高，還需調整引數，增加樣本。

利用python實現梯度下降和邏輯迴歸原理(Python詳細原始碼：預測學生是否被錄取)

本案例主要是：建立邏輯迴歸模型預測一個學生是否被大學錄取，沒有詳細介紹演算法推到，讀者可查閱其他部落格理解梯度下降演算法的實現：https://blog.csdn.net/wangliang0633/article/details/79082901 資料格式如下：第三列表示錄取狀態，0--

梯度下降和邏輯迴歸例子(Python程式碼實現)

import numpy as np import pandas as pd import os data = pd.read_csv("iris.csv") # 這裡的iris資料已做過處理 m, n = data.shape dataMatIn = np.ones((m, n)) dataM

python實現梯度下降

1、Rosenbrock函式 #！／user/bin/env python #-*- coding:utf-8 -*- #梯度下降Rosenbrock函式 def rb(x,y): #定義rosenbrock函式 return (1-x)**2+100*(y-x**

python實現梯度下降法

# coding:utf-8 import numpy as np import matplotlib.pyplot as plt x = np.arange(-5/2,5/2,0.01) y = -x**3+x**2+np.e+x**4 dy = lambda x:-3*x**2+2*

機器學習案例——梯度下降與邏輯迴歸簡單例項

梯度下降例項下圖是f(x) = x2+3x+4 的函式影象，這是初中的一元二次函式，它的導數為g(x) = f’(x) = 2x+3。我們很明確的知道，當x = -1.5時，函式取得最小值。下面就通過梯度下降法來計算函式取最小值時x的

利用批量梯度下降和正規方程求解線性迴歸引數(Python實現)

說明：本文使用的工具為Python3+Jupyter Notebook。利用批量梯度下降先匯入要用到的各種包： %matplotlib notebook import numpy as np import pandas as pd import matplotlib.pyplot a

利用批量梯度下降和正規方程求解線性迴歸引數的理論推導

有一組房子的面積和價格資料，如下表所示： x(size)

Python實現線性迴歸和邏輯迴歸演算法

本文使用python實現了線性迴歸和邏輯迴歸演算法，並使用邏輯迴歸在實際的資料集上預測疝氣病症病馬的死亡率（當然這裡我們的線性迴歸和邏輯迴歸實現是原生的演算法，並沒有考慮正則化係數問題，後期會將其補充完整）。一、線性迴歸 1.模型表示 2.損失函式

tensorflow實現線性迴歸和邏輯迴歸

關於線性迴歸和邏輯迴歸的原理和python實現，請左轉：邏輯迴歸、線性迴歸。這裡就直接貼程式碼了。線性迴歸： # -*- coding: utf-8 -*- """ Created on Thu Aug 30 09:40:50 2018 @author: 96jie """ im

實戰：利用Python sklearn庫裡的邏輯迴歸模型訓練資料---建立模型

本案例主要是通過對不均衡的28萬組資料建立模型，分析預測欺詐使用者，採用sigmod函式作為損失函式，採用交叉驗證的方法和l1正交法則，比對了不同懲罰函式下的模型的召回率，也通過預測值和實際值做出混淆矩陣更加直觀看到各種預測結果。也比較了sigmod函式下的不同閾值下的模型預測的精度和召

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

ati int ces 平滑讀取 inf dict http tor 實現本文的文本數據可以在THUCTC下載也可以自己手動爬蟲生成，本文主要參考：https://blog.csdn.net/hao5335156/article/details/82716923 nb表

機器學習----線性迴歸原理---最下二乘法和梯度下降怎麼來的-----專案預測大學生是否被錄取程式碼案例

這節課說明了最下二乘法是怎麼來的。接下來是面試需要問的誤差，（機器學習是建立在獨立同分布的基礎上，事實上，根本無法證明獨立同分布而且是正態分佈，我們假設的，只要模型可用，就可以）獨立：每個人的

邏輯迴歸的python實現

#coding=utf-8 import math import numpy as np import pandas as pd from sklearn import preprocessing from sklearn import metrics

NG機器學習總結-（四）邏輯迴歸以及python實現

在第一篇部落格NG機器學習總結一中，我們提到了監督學習通常一般可以分為兩類：迴歸和分類。線性迴歸屬於迴歸問題，例如房價的預測問題。而判斷一封郵件是否是垃圾郵件、腫瘤的判斷（良性還是惡性）、線上交易是否欺詐都是分類問題，當然這些都是二分類的問題。 Email：Spam /

機器學習演算法之邏輯迴歸以及python實現

下面分為兩個部分： 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程邏輯迴歸(Logistic Regression) 首先需要說明，邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於，分類問題的輸出是離散

對極大似然估計、梯度下降、線性迴歸、邏輯迴歸的理解

極大似然我對極大似然估計條件概率（後驗概率）和先驗概率的的理解：假設一次實驗，可能出現兩種結果，A或者B 總共進行了50次實驗，A出現了20次，B出現了30次，那麼求A的概率p。問題來了，怎麼求一個合理的p值呢 L表示A出現的概率為p的情況下，進行50次實驗，各種

python實現信用卡欺詐檢測 logistic迴歸邏輯迴歸演算法

1.資料集下載：連結: https://pan.baidu.com/s/1zUxSxwiProvfmAAWjyYb4w 密碼: 6eai 程式碼下載：連結: https://pan.baidu.com/s/1KyVOEU3p-sfCQIauCXGWIA 密碼:

邏輯迴歸及其python實現

邏輯迴歸原理 sigmod函式下圖給出了sigmod 函式在不同座標尺度下的兩條曲線圖。當 x 為 0 日牝 Sigmoid 函式值為 0.5 。隨著 1 的增大，對應的sigmod值將逼近於 1; 而隨著 x 的減小， Sigmoid 值將逼近於

二，機器學習演算法之邏輯迴歸（python實現）

邏輯迴歸（Logistic Regression）是目前流行最廣泛的演算法之一。 1. 何為邏輯迴歸：邏輯迴歸主要思想是根據現有的訓練集(資料)進行分類，判斷這些資料屬於哪一個類別，通

機器學習：邏輯迴歸與Python程式碼實現

前言：本篇博文主要介紹邏輯迴歸（logistic regression），首先介紹相關的基礎概念和原理，然後通過Python程式碼實現邏輯迴歸的二分類問題。特別強調，其中大多理論知識來源於《統計學習方法_李航》和斯坦福課程翻譯筆記以及Coursera機器學習課程。本篇博

利用python實現梯度下降和邏輯迴歸原理(Python詳細原始碼：預測學生是否被錄取)

相關推薦