邏輯迴歸分類鳶尾花和紅酒等級

阿新 • • 發佈：2018-11-30

邏輯迴歸分類鳶尾花和紅酒等級

原始碼以及訓練資料和測試資料已上傳：https://download.csdn.net/download/j__max/10816259

一、實驗準備

1、實驗內容和目的

使用邏輯迴歸演算法來對鳶尾花進行分類；同時，OJ上還給出了另外一組較強的測試資料，要求對紅酒進行等級的分類
資料集包括訓練資料train.txt和測試資料test.txt；測試資料中，每個樣本包括特定的幾個特徵引數，最後是一個類別標籤，而測試資料中的樣本則只包括了特徵引數

2、實驗原理

邏輯迴歸是一個分類演算法，它可以處理二元分類以及多元分類。雖然它的名字裡面有“迴歸”兩個字，卻不是一個迴歸演算法。個人認為，如此命名的原因在於，雖然邏輯迴歸是分類模型，但是它的原理殘留著迴歸模型的影子
之前學習了線性迴歸，我們知道，線性迴歸的模型是求出輸出特徵向量 $Y$ 和輸入樣本矩陣 $X$ 之間的線性關係係數 $θ$

\theta $θ$ ，其滿足 $Y = \theta X$ 。此時我們的 $Y$ 是連續的，所以它是一個迴歸模型。那如果我們想要 $Y$ 是離散的，該怎麼辦呢？一個辦法就是，我們對於這個 $Y$ 再做一次函式轉換，變為 $g(Y)$ 。如果我們另 $g(Y)$ 的值在某個實數區間的時候為類別A，在另一個實數區間的時候為類別B，以此類推，就得到了一個分類模型

2.1 基於Logistic迴歸和Sigmoid函式的分類

根據上面對邏輯迴歸的綜述，我們需要一個函式，它能夠接受所有的輸入然後預測出類別。例如，在兩個類的情況下，上述函式輸出0或者1。有一個函式剛好滿足這個性質，它就是Sigmoid函式。Sigmoid函式具體的計算公式如下：

$\sigma(z) = \frac{1}{1 + \mathrm{e}^{(-z)}}$
圖5-1給出了Sigmoid函式在不同座標尺度下的兩條曲線圖。當 $x$ 為0時，Sigmoid函式值為0.5。隨著 $x$ 的增大，對應的Sigmoid值將逼近於1；而隨著 $x$ 的減小，Sigmoid值將逼近於0。如果橫座標刻度足夠大（圖5-1下圖），Sigmoid函式看起來很像一個階躍函式
因此，為了實現Logistic迴歸分類器，我們可以在每個特徵上都乘以一個迴歸係數，然後把所有的結果值相加，將這個總和代入Sigmoid函式中，進而得到一個範圍在0～1之間的數值。任何大於0.5的資料被分為1類，小於0.5即被分為0類。
確定了分類器的函式形式之後，還剩下一個問題要解決：最佳迴歸係數是多少？如何確定它們的大小？

2.2 基於最優化方法的最佳迴歸係數確定

Sigmoid函式的輸入記為 $z$ ，由下面公式得出：

$z=w_0x_0+w_1x_1+w_2x_2+...+w_nx_n$
如果採用向量的寫法，上述公式可以寫成 $z=w^Tx$ ，它表示將這兩個數值向量對應元素相乘然後全部加起來即得到 $z$ 值。其中的向量 $x$ 是分類器的輸入資料，向量 $w$ 也就是我們要找到的最佳引數（係數），從而使得分類器儘可能的精確。為了尋找該最佳引數，就需要用到最優化理論的一些知識
梯度上升法是最優化演算法的一種，它的基本思想是：要找到某函式的最大值，最好的方法是沿著該函式的梯度方向探尋。如下圖所示，梯度上升演算法到達每個點後都會重新估計移動的方向。從 $P0$ 開始，計算完該點的梯度，函式就根據梯度移動到下一個點 $P1$ 。在 $P1$ 點，梯度再次被重新計算，並沿新的梯度方向移動到 $P2$ 。如此迴圈迭代，直到滿足停止條件

二、進行實驗

OJ上給出了兩組測試資料，測試結果如下：

1、演算法思路

整體的演算法思路就是使用隨機梯度上升演算法來計算樣本特徵的權重值，然後在該權重值的基礎上使用Sigmoid函式來對測試樣本進行分類
不過有一點特殊的地方，鳶尾花有三個類別，也就是需要進行三分類。這就需要在二分類的基礎上有所修改，我想到的方法就是：針對三種鳶尾花類別，分三次處理訓練資料，之後得到三組權重值，最後用這三組權重值結合測試樣本的特徵值進行計算，通過比較函式值來分類

2、演算法步驟

(1) 處理訓練資料，得到特徵引數集和類別標籤集
(2) 使用訓練資料進行訓練，得到三組權重值
(3) 處理測試資料，取出樣本的特徵值
(4) 使用Sigmoid函式，在權重值的基礎上計算測試樣本的函式值
(5) 通過比較函式值進行分類

3、程式碼實現

具體的功能實現在程式碼中的註釋均進行了詳細說明

#!/usr/bin/python
# -*- coding utf-8 -*-
# Project: Logistic
# Author: jiangnan
# Mail: [email protected]
# Date: 2018/11/14

import numpy as np

def loadTrainDataSet(feature_count, type):
    """
    函式說明：
        載入和處理訓練資料，分離出每個樣本的特徵引數和類別標籤
    :param
        feature_count: 樣本的特徵個數
    :param
        type: 指定本次處理訓練資料所針對的鳶尾花類別
              0、1、2分別對應Iris-setosa、Iris-versicolor、Iris-virginica
    :return:
    """
    dataMat = []
    labelMat = []
    fr = open("data/train.txt")
    for line in fr.readlines():    # 逐行處理資料
        lineArr = line.strip().split(',')
        currentArr = []

        [currentArr.append(float(x)) for x in lineArr[ :feature_count]]    # 取出每個樣本的特徵引數
        currentArr.append(1.0)  # 將X0的值設定為1.0
        dataMat += [currentArr]   # 將每個樣本的特徵引數加入結果矩陣

        # 接下來結合樣本的所屬類別和type引數的值進行判斷
        # 將所針對的鳶尾花類別標籤置為1
        # 其餘不滿足條件的置為0
        if (lineArr[4] == 'Iris-setosa' and type == 0):
            labelMat.append(1)
        elif (lineArr[4] == 'Iris-versicolor' and type == 1):
            labelMat.append(1)
        if (lineArr[4] == 'Iris-virginica' and type == 2):
            labelMat.append(1)
        else:
            labelMat.append(0)

    # 返回特徵引數集和類別標籤集
    return dataMat, labelMat


def sigmoid(inX):
    """
    函式說明：
        Sigmoid函式，用來進行類別判斷
    :param
        inX: 特徵引數
    :return:
        返回該特徵引數下所對應的函式值
    """
    return 1.0 / (1 + np.exp(-inX))


def LogisticRegression(dataMat, labelMat, numIter = 1000):
    """
    函式說明：
        使用隨機梯度上升演算法來計算樣本特徵的權重
    :param
        dataMat: 訓練資料的特徵引數集
    :param
        labelMat: 訓練資料的類別標籤集
    :param
        numIter: 迭代次數
    :return:
        返回樣本特徵的權重值
    """
    dataMat = np.array(dataMat)
    m, n = np.shape(dataMat)
    weights = np.ones(n)    # 權重矩陣初始化為1
    for i in range(numIter):
        dataIndex = list(range(m))
        alpha = 0.001
        for j in range(m):
            # 隨機取得一個下標值
            # 然後更新對應的迴歸係數值
            randIndex = int(np.random.uniform(0, len(dataIndex)))
            h = sigmoid(sum(dataMat[dataIndex[randIndex]] * weights))
            error = labelMat[dataIndex[randIndex]] - h
            weights = weights + alpha * error * dataMat[dataIndex[randIndex]]
            del(dataIndex[randIndex])

    return weights  # 返回最後的權重值


def classify(inX, weights):
    """
    函式說明：
        呼叫Sigmoid函式，計算樣本在該權重值下的函式值
    :param
        inX: 樣本的特徵引數
    :param
        weights: 權重值
    :return:
        返回Sigmoid函式值
    """
    inX = np.array(inX)
    prob = sigmoid(sum(inX * weights))
    return prob


def solve():
    """
    函式說明：
        綜合呼叫上述函式進行分類
    """

    # 第一次處理訓練資料
    # 針對屬於Iris-setosa類別的鳶尾花
    # 計算並輸出樣本特徵的權重值
    dataMat_0, labelMat_0 = loadTrainDataSet(4, 0)
    weights_0 = LogisticRegression(dataMat_0, labelMat_0)
    print(weights_0)

    # 第二次處理訓練資料
    # 針對屬於Iris-versicolor類別的鳶尾花
    # 計算並輸出樣本特徵的權重值
    dataMat_1, labelMat_1 = loadTrainDataSet(4, 1)
    weights_1 = LogisticRegression(dataMat_1, labelMat_1)
    print(weights_1)

    # 第三次處理訓練資料
    # 針對屬於Iris-virginica類別的鳶尾花
    # 計算並輸出樣本特徵的權重值
    dataMat_2, labelMat_2 = loadTrainDataSet(4, 2)
    weights_2 = LogisticRegression(dataMat_2, labelMat_2)
    print(weights_2)

    # 對測試資料中的樣本進行分類
    fr = open("data/test.txt")
    for line in fr.readlines():
        # 提取測試樣本的特徵引數
        lineArr = line.strip().split(',')
        currentArr = []
        [currentArr.append(float(x)) for x in lineArr[:4]]
        currentArr.append(1.0)

        # 分別使用三組權重值進行計算
        # 得到對應的的三個函式值
        prob_0 = classify(currentArr, weights_0)
        prob_1 = classify(currentArr, weights_1)
        prob_2 = classify(currentArr, weights_2)

        # 比較三個函式值
        # 找到使得函式值最大的那組權重值
        # 將樣本分類為該組權重值對應的類別
        if(prob_0 > prob_1 and prob_0 > prob_2):
            print('Iris-setosa')
        elif(prob_1 > prob_0 and prob_1 > prob_2):
            print('Iris-versicolor')
        else:
            print('Iris-virginica')
    fr.close()


if __name__ == '__main__':
    solve()

4、總結

邏輯迴歸的優缺點
- 優點：計算代價不高，易於理解和實現
- 缺點：容易欠擬合，分類精度可能不高

附錄

OJ上多給出了一組測試資料，要求對紅酒的等級進行分類，和鳶尾花相比，只是樣本的特徵個數不同，因此只需要在上述程式碼的基礎上進行小修改即可

#!/usr/bin/python
# -*- coding utf-8 -*-
# Project: Logistic
# Author: jiangnan
# Mail: [email protected]
# Date: 2018/11/14

import numpy as np

def loadTrainDataSet(feature_count, type):
    dataMat = []
    labelMat = []
    fr = open("train.txt")
    for line in fr.readlines():
        lineArr = line.strip().split(',')
        currentArr = []

        [currentArr.append(float(x)) for x in lineArr[ :feature_count]]
        currentArr.append(1.0)
        dataMat += [currentArr]

        if (lineArr[13] == '1' and type == 0):
            labelMat.append(1)
        elif (lineArr[13] == '2' and type == 1):
            labelMat.append(1)
        if (lineArr[13] == '3' and type == 2):
            labelMat.append(1)
        else:
            labelMat.append(0)

    return dataMat, labelMat


def sigmoid(inX):
    return 1.0 / (1 + np.exp(-inX))


def LogisticRegression(dataMat, labelMat, numIter = 2000):
    dataMat = np.array(dataMat)
    m, n = np.shape(dataMat)
    weights = np.ones(n)
    for i in range(numIter):
        dataIndex = list(range(m))
        alpha = 0.001
        for j in range(m):
            randIndex = int(np.random.uniform(0, len(dataIndex)))
            h = sigmoid(sum(dataMat[dataIndex[randIndex]] * weights))
            error = labelMat[dataIndex[randIndex]] - h
            weights = weights + alpha * error * dataMat[dataIndex[randIndex]]
            del(dataIndex[randIndex])

    return weights


def classify(inX, weights):
    inX = np.array(inX)
    prob = sigmoid(sum(inX * weights))
    return prob


def solve():
    dataMat_0, labelMat_0 = loadTrainDataSet(13, 0) # 修改了特徵引數的個數
    weights_0 = LogisticRegression(dataMat_0, labelMat_0)
    print(weights_0)

    dataMat_1, labelMat_1 = loadTrainDataSet(13, 1)
    weights_1 = LogisticRegression(dataMat_1, labelMat_1)
    print(weights_1)

    dataMat_2, labelMat_2 = lo

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    邏輯迴歸分類鳶尾花和紅酒等級
       
 
  
  
 
  
   邏輯迴歸分類鳶尾花和紅酒等級
   
  
  原始碼以及訓練資料和測試資料已上傳：https://download.csdn.net/download/j__max/10816259 
  
 一、實驗準備 
 1、實驗內容和目的 
  
   使用邏輯迴歸演算法來對鳶尾 

  
 

    

    
    [PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類
       
  
  
 [PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類 
  
  程式碼 使用均方根誤差 
  
 import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch as t
fr 

  
 

    

    
    【Iris】【Keras】神經網路分類器和【scikit-learn】邏輯迴歸分類器的構建
      
                
原文連結：https://github.com/fastforwardlabs/keras-hello-world/blob/master/kerashelloworld.ipynb
原文標題：“Hello world” in Keras
本文全部程式碼基於python2， 

  
 

    

    
    Logistics迴歸分類鳶尾花資料集
       
 
 import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
fr 

  
 

    

    
    邏輯迴歸的講解和程式碼
      
                邏輯迴歸模型是由以下條件概率分佈表示的分類模型。

邏輯迴歸模型源自邏輯分佈，其分佈函式使S形函式；

邏輯迴歸：用於分類問題中，預測值為離散值；演算法的性質是輸出值永遠在0和1之間；

邏輯迴歸的模型假設：，



h(x)的作用：對於給定的輸入變數，根據選擇的引數計算輸出 

  
 

    

    
    葡萄酒邏輯迴歸分類（scala實現）
       
 
 葡萄酒分類（scala實現） 
 分類方法：邏輯迴歸 
   
 其中 
 
        0代表壞葡萄酒 
        1代表好葡萄酒 
 
 訓練集中質量評分7.0以上被視為好葡萄酒 
 
	import org.apa 

  
 

    

    
    【07】邏輯迴歸（鳶尾花）
      
                # Softmax example in TF using the classical Iris dataset
# Download iris.data from https://archive.ics.uci.edu/ml/datasets/Iris
# Be sure  

  
 

    

    
    用Python開始機器學習（7：邏輯迴歸分類）
      
                在本系列文章中提到過用Python開始機器學習（3：資料擬合與廣義線性迴歸）中提到過迴歸演算法來進行數值預測。邏輯迴歸演算法本質還是迴歸，只是其引入了邏輯函式來幫助其分類。實踐發現，邏輯迴歸在文字分類領域表現的也很優秀。現在讓我們來一探究竟。1、邏輯函式假設資料集有n個獨立的 

  
 

    

    
    機器學習之SVM與邏輯迴歸的聯絡和區別
      　　通常說的SVM與邏輯迴歸的聯絡一般指的是軟間隔的SVM與邏輯迴歸之間的關係，硬間隔的SVM應該是與感知機模型的區別和聯絡。而且工程中也不能要求所有的點都正確分類，訓練資料中噪聲的存在使得完全正確分類很可能造成過擬合。
　　軟間隔SVM與邏輯迴歸的聯絡
　　要說軟間隔SVM與聯絡就要看軟間隔SVM的緣由。
 

  
 

    

    
    sklearn機器學習之邏輯迴歸分類器
       
 
 物以類聚，人以群分。 
 是非黑白，金木水火。 
 乾坤陰陽，寒暑燥溼。 
   
  
   
 import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model


#訓練資 

  
 

    

    
    入門機器學習演算法交易：邏輯迴歸的理論和交易
      
                目前股市的量化交易已經成為了人工智慧研究的一個熱門領域，很多計算機人員都想利用自己的程式設計技術去量化交易，也有很多的金融人員想要學習程式設計技術。如果你想知道一些方法論上面的知識，可以檢視我上一個文章。本次 Chat，文章會一步一步向你介如何用最簡單的邏輯迴歸在股票資料上面 

  
 

    

    
    邏輯迴歸模型介紹和程式實現
      
                

 　　雖然叫做“迴歸”，但是這個演算法是用來解決分類問題的。迴歸與分類的區別在於：迴歸所預測的目標量的取值是連續的（例如房屋的價格）；而分類所預測的目標變數的取值是離散的（例如判斷郵件是否為垃圾郵件）。當然，為了便於理解，我們從二值分類（binary classifica 

  
 

    

    
    【原】Andrew Ng斯坦福機器學習 Coursera—Programming Exercise 3 邏輯迴歸多分類和神經網路
      作業說明 
Exercise 3，Week 4，使用Octave實現手寫數字0-9的識別，採用兩種方式（1）邏輯迴歸多分類（2）三層神經網路多分類。對比結果。 
每張圖片20px * 20px，也就是一共400個特徵（因為Octave裡從1開始。所以將0對映為10） 
（1）邏輯迴歸多分類：實現 lrCost 

  
 

    

    
    分類和邏輯迴歸（Classification and logistic regression）
       
 
  
  
 看了一下斯坦福大學公開課：機器學習教程（吳恩達教授），記錄了一些筆記，寫出來以便以後有用到。筆記如有誤，還望告知。 本系列其它筆記： 線性迴歸（Linear Regression） 分類和邏輯迴歸（Classification and logistic regression） 廣義線性模 

  
 

    

    
    [TensorFlow深度學習入門]實戰四·邏輯迴歸鳶尾花進行分類（對比均方根誤差與softmax交叉熵誤差區別）
       
  
  
 [TensorFlow深度學習入門]實戰四·邏輯迴歸鳶尾花進行分類 
  
  問題描述 資料集 鳶尾花資料集下載地址 鳶尾花資料集包含四個特徵和一個標籤。這四個特徵確定了單株鳶尾花的下列植物學特徵： 1、花萼長度 2、花萼寬度 3、花瓣長度 4、花瓣寬度 
  
 該標籤確定了鳶尾花品種， 

  
 

    

    
    吳恩達機器學習——邏輯迴歸和分類演算法
      
                

高效使用軟體

如下所示，是一個函式，這是一個求theta和x的積的和的公式，這個問題我們可以輕鬆地通過矩陣的方式解決。



將theta和x以如下形式表示，theta和x的矩陣的積就是這個函式的結果。







求解theta的值





進行邏輯分解：

Th 

  
 

    

    
    Machine Learning--week3 邏輯迴歸函式(分類)、決策邊界、邏輯迴歸代價函式、多分類與(邏輯迴歸和線性迴歸的)正則化
      Classification 
It's not a good idea to use linear regression for classification problem. 
We can use logistic regression algorism, which is a classificati 

  
 

    

    
    【機器學習入門】Andrew NG《Machine Learning》課程筆記之四：分類、邏輯迴歸和過擬合
      
							
							
							分類和邏輯迴歸

在實際的生活中，會遇到很多二元分類問題(Binary Classification Problem),比如判斷一封郵件是否是垃圾郵件，攝像頭判斷使用者是男是女和一張圖片裡包含的是貓還是狗等等。

在有監督的分類問題中，通常使用帶標記(Label 

  
 

    

    
    邏輯迴歸和樸素貝葉斯演算法實現二值分類（matlab程式碼）
      
								
								            
						
                


資料簡介：共有306組資料，每組資料有三個屬性(x1,x2,x2)，屬於0類或者1類。

資料序號末尾為1的是測試集，有31組；其他的作為訓練集，有275組。


clear
clc
load(' 

  
 

    

    
    多分類實現方式介紹和在Spark上實現多分類邏輯迴歸（Multinomial Logistic Regression）