機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

阿新 • • 發佈：2018-12-12

這裡，讓我手把手教你如何用邏輯迴歸分析資料

根據學生分數預測是否錄取：

#必備3個庫
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

讓我們讀入資料：

import os
path = "data" + os.sep + "LogiReg_data.txt";   # os.sep 表示的是檔案分割符 “ / ” 因為win和linux分隔符不同所以 為了跨平臺就不直接寫

pdData = pd.read_csv(path,header=None,names=['Exam1','Exam2','Admitted']);  #header預設使用第一行做標題行，這裡改為自己設定
pdData.shape;    #資料的緯度  (100 , 3)  
pdData.head()    #不加引數表示預設顯示5行

前兩列資料表示分數，最後一列表示是否錄取：

在這裡插入圖片描述

讓我們簡單看一下，錄取和沒錄取在不同分數上的顯示情況

positive = pdData[pdData['Admitted' ] == 1]        #  錄取的集合
nagative = pdData[pdData['Admitted' ] == 0]      #  沒錄取集合

fig, ax=plt.subplots(figsize=(10,5))   # ax前面必須有fig  figsize設定子圖的寬和高

#分1 做x  分2做y 
ax.scatter(positive['Exam1'],positive['Exam2'],s=30,c='blue',marker='o',label='Admitted') #s=點大小  c='顏色' marker=標記
ax.scatter(nagative['Exam1'],nagative['Exam2'],s=30,c='r',marker='x',label='Not Admitted')
ax.legend()

ax.set_xlabel('Exam1 score')
ax.set_ylabel('Exam2 score'
plt.show()

可以看到有明顯的分界線：在這裡插入圖片描述

接下來就是正式的分析了我們的目標是：建立分類器，求出3個引數（分數1的引數，分數2的引數，誤差）設定閾值，根據閾值判斷是否錄取（這裡>=0.5就當作錄取）

要完成的模組： #1.sigmoid：對映到概率（0-1）的函式 g(z) = 1/(1+e^-z) #2.model: 返回預測結果值 #3.cost: 根據引數計算損失 #4.gradient: 計算每個引數的梯度方向 #5.descent: 進行引數更新 #6.accuracy: 計算精度

1.sigmoid 函式

值域（0-1） g(-∞) = 0 g(+∞) = 1 g(0)=0.5

def sigmoid(z):
    return 1/(1+np.exp(-z))

2.model

就是用資料作為sigmoid的輸入，從而構造出預測函資料 (1,x1,x2) * (θ0 , θ1 , θ2)的轉置 = θ0+θ1X1+θ2X2 然後傳到 sigmoid中得到結果

def model(X,theta):
    return sigmoid( np.dot(X,theta.T) )

#結果中 θ0需要和1相乘，資料中缺少1這1列，所以要補進
pdData.insert(0,'Ones',1); #在第0列（第一列之前，索引之後 插入列名為‘ones’，所有資料為1的一列
data = pdData.as_matrix()  #將pdData從DataFrame 轉為矩陣，方便進行矩陣乘法
cols = data.shape[1] 	#資料有幾列  4   ones  exam1  exam2  admitte
X = data[:,0:cols-1]  #資料矩陣X  1，分數1，分數2
y = data[:,cols-1:cols];  # 結果（是否選上
theta=np.zeros([1,3]) # 3個引數   引數個數=資料個數+1

3.損失函式

這裡就是對數似然函式 * -1/m [加-是因為要把梯度上什轉為梯度下降，1/m是為了求平均] 似然函式 = 每個 x 對應的 P(y|x;θ) 的連乘，然後取對數得到對數似然函式

損失函式（loss function）是用來衡量模型的預測值f(x)與真實值Y的不一致程度，它是一個非負實值函式，損失函式越小，模型越優（還需考慮過擬合等問題）

這裡選擇用似然函式*-1/m 作為損失函式，是不是因為似然函式越大越好，加一個負號就越小越好，所以只要平均似然函式的值越來越小了，就說明越來越好了?

損失函式用： J(θ) = -1/m * sum( (y*log(hθ(X)) + (1-y)log(1-hθ(x)) ) )

def cost(X,y,theta):
    tt = y-model(X,theta)
    left = np.multiply(tt,tt)
    return np.sum(left)/(len(X))

用 1/m * sum( (y - hθ(X) )^2 ) 做損失函式效果相同

def cost(X,y,theta):
     left = np.multiply(y,np.log(model(X,theta)    
     right = np.multiply(1-y,np.log(1-model(X,theta)))
     return np.sum(left+right)/(-len(X)

4.求梯度

多維影象的梯度，也就是多維影象在某點各個方向的斜率中斜率最大的那個

演算法就是對J(θ) 求偏導 dJ(θ)/dθ = -1/m * sum( (yi - hθ(xi))xij )

def gradient(X,y,theta):
    grad = np.zeros(theta.shape) #有幾個θ，就找幾個梯度
    
     # dJ(θ)/dθ = -1/m * sum( (yi - hθ(xi))xij )
    error = (model(X,theta) - y).ravel();  #  yi - hθ(xi) 將-號提取進來   ravel將多維降為一維矩陣 ,因為原error是列向量，所以作用和專T類似 
    #求每個θi的梯度
    for j in range (theta.shape[1]):
        term = np.multiply(error,X[:,j])  #Xij   表示的是 X的每一個樣本，針對每一個引數θj 都只取和θj有關的那一列即X（ ， j）行不限
        grad[0,j] = np.sum(term) / len(X)
    return grad

4 （附屬）停止策略

梯度更新需要有個頭，有個結束點

#設計了3種不同的停止策略
STOP_ITER = 0 #按照迭代次數停止 (一次迭代即更新一次梯度值)
STOP_COST = 1 #目標函式兩次迭代之間的損失（差異）很小   
STOP_GRAD = 2 #兩次迭代之間梯度沒什麼變化


def stopCriterion(type,value,threshold):  
    #設定3種不同的停止策略
    if type == STOP_ITER: return  value > threshold   
    elif type == STOP_COST: return  abs(value[-1]-value[-2]) < threshold
    elif type == STOP_GRAD: return  np.linalg.norm(value) < threshold;   #求2範數  sqrt(x1^2+x2^2+.....)

4 （附屬）對資料進行洗牌

打亂（防止自己收集資料的時候按照某種規律收集）

def shuffleData(data):
    np.random.shuffle(data)  #洗牌資料
    #重新獲取資料
    cols = data.shape[1] #資料有幾列  4   ones  exam1  exam2  admitted
    X = data[:,0:cols-1]  #資料矩陣X  1，分數1，分數2
    y = data[:,cols-1:cols];  # 結果（是否選上）
    return X,y

5，6重點！

檢視不同梯度下降策略對時間的影響

import time
def descent(data, theta, batchSize, stopType ,thresh, alpha):  #batchSize  =  1 隨機梯度下降    =樣本個數 梯度下降   =1-樣本個數  小批量樣本夏婧
    init_time = time.time();#開始時候的時間                 #thresh  閾值   alpha學習率
    i = 0;#迭代次數   
    k = 0;#batch ，即當前已經消耗的樣本數量
    X,y = shuffleData(data)
    grad = np.zeros(theta.shape) #梯度
    costs = [cost(X,y,theta)] #損失值
    
    #***5.descent: 進行引數更新***
    while True:
        grad = gradient(X[k:k+batchSize],y[k:k+batchSize],theta)
        #更新引數 ， 讓θ 不停的靠近梯度為0的點
        theta = theta - alpha*grad;
        
        costs.append(cost(X,y,theta))  #用新的 θ 計算出新的損失值
        i += 1; #迭代次數 +1
    
        k+=batchSize 
        if k >= len(X):    
            k=0;
            X,y = shuffleData(data);  #重新洗牌
        
        value = 0;
        if stopType == STOP_ITER:  value = i;
        elif stopType == STOP_COST: value = costs;
        elif stopType == STOP_GRAD: value = grad;
        if stopCriterion(stopType,value,thresh):break;  #是否跳出
        

    return theta,i-1,costs,grad,time.time()-init_time

功能函式，畫圖

#功能函式，畫圖
def runExpe(data, theta, batchSize, stopType, thresh, alpha):
    #import pdb; pdb.set_trace();
    theta, iter, costs, grad, dur = descent(data, theta, batchSize, stopType, thresh, alpha)
    name = "Original" if (data[:,1]>2).sum() > 1 else "Scaled"
    name += " data - learning rate: {} - ".format(alpha)
    if batchSize==n: strDescType = "Gradient"
    elif batchSize==1:  strDescType = "Stochastic"
    else: strDescType = "Mini-batch ({})".format(batchSize)
    name += strDescType + " descent - Stop: "
    if stopType == STOP_ITER: strStop = "{} iterations".format(thresh)
    elif stopType == STOP_COST: strStop = "costs change < {}".format(thresh)
    else: strStop = "gradient norm < {}".format(thresh)
    name += strStop
    print ("***{}\nTheta: {} - Iter: {} - Last cost: {:03.2f} - Duration: {:03.2f}s".format(
        name, theta, iter, costs[-1], dur))
    fig, ax = plt.subplots(figsize=(12,8))
    ax.plot(np.arange(len(costs)), costs, 'r')
    ax.set_xlabel('Iterations')
    ax.set_ylabel('Cost')
    ax.set_title(name.upper() + ' - Error vs. Iteration')
    plt.show()
    return theta

資料標準化

（（a-均值）/方差）

from sklearn import preprocessing as pp
scaled_data = data.copy()
scaled_data[:, 1:3] = pp.scale(data[:, 1:3])
n=100   
#損失值 < 0.000001時停
theta = runExpe(scaled_data, theta, n, STOP_COST, thresh=0.000001, alpha=0.001)

6.accuracy: 計算精度


def predict(X,theda):  #設定閾值   預測 大於0.5就是可以
    return [1 if x>=0.5 else 0 for x in model(X,theta)]

scaled_X = scaled_data[:, :3]
y = scaled_data[:, 3]
predictions = predict(scaled_X, theta)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y)]

accuracy = (sum(map(int, correct)) % len(correct))
print ('accuracy = {0}%'.format(accuracy))

在這裡插入圖片描述

機器學習筆記（三）：線性迴歸大解剖（原理部分）

進入機器學習，線性迴歸自然就是一道開胃菜。雖說簡單，但對於入門來說還是有些難度的。程式碼部分見下一篇，程式碼對於程式設計師還是能能夠幫助理解那些公式的。（本文用的一些課件來自唐宇迪的機器學習，大家可以取網易雲課堂看他的視訊，很棒） 1.線性迴歸的一些要點先說

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

這裡，讓我手把手教你如何用邏輯迴歸分析資料根據學生分數預測是否錄取： #必備3個庫 import numpy as np import pandas as pd import matplotlib.pyplot as plt 讓我們讀入資料： import

機器學習筆記第5課：線性迴歸演算法

線性迴歸可能是統計學和機器學習中最知名且易於理解的演算法之一。它不就是一項起源於統計學的技術嗎？預測建模主要關注的是讓模型的誤差最小化，或者說，在可以解釋的前提下，儘可能作出最準確的預測。我們會借用，重用，甚至是竊取許多不同領域（包括統計學）的演算法，並將其用於上述的目標。線性迴歸

機器學習筆記《四》：線性迴歸，邏輯迴歸案例與重點細節問題分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt import os path = "data"+os.sep+"creditcard.csv"; pdData =

Bobo老師機器學習筆記第五課-多元線性迴歸

思維導圖學習筆記自己參考BoBo老師課程講解實現： # -*- coding: utf-8 -*- import numpy as np from metrics import r2_score class LinearRegression(object): def __

Bobo老師機器學習筆記第五課-簡單線性迴歸

課程地址：https://coding.imooc.com/class/169.html 最小二乘法的推導部落格點選此處程式碼實現（參考Bobo實現，如果要看BoBo老師原始碼，請點選此處）： # -*- encoding: utf-8 -*- """ 實現簡單的線性迴歸, 自己

機器學習筆記第6課：邏輯迴歸演算法

邏輯迴歸是機器學習從統計領域借用的又一項技術。它是二元分類問題（即只有兩種型別的分類問題）的首選方法。邏輯迴歸和線性迴歸的類似之處在於，其目標是找到每個輸入變數的權重係數。與線性迴歸的不同點是，邏輯函式是非線性函式，邏輯迴歸使用非線性的邏輯函式對輸出結果進行轉換。

吳恩達機器學習作業Python實現(一)：線性迴歸

單變數線性迴歸在本部分的練習中，您將使用一個變數實現線性迴歸，以預測食品卡車的利潤。假設你是一家餐館的執行長，正在考慮不同的城市開設一個新的分店。該連鎖店已經在各個城市擁有卡車，而且你有來自城市的利潤和人口資料。您希望使用這些資料來幫助您選擇將哪個城市擴充

Python3《機器學習實戰》學習筆記（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩

《機器學習》學習筆記（一）：線性迴歸、邏輯迴歸

本筆記主要記錄學習《機器學習》的總結體會。如有理解不到位的地方，歡迎大家指出，我會努力改正。在學習《機器學習》時，我主要是通過Andrew Ng教授在mooc上提供的《Machine Learning》課程，不得不說Andrew Ng老師在講授這門課程時，

機器學習筆記 -吳恩達（第六章：線性迴歸，tensorflow實現附原始碼）

（1）資料概覽 import pandas as pd import seaborn as sns sns.set(context="notebook", style="whitegrid", palette="dark") import matplotlib.pyplot

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

參考 https ocr 噪聲也說字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一

用python來實現機器學習（一）：線性迴歸（linear regression）

需要下載一個data：auto-mpg.data 第一步：顯示資料集圖 import pandas as pd import matplotlib.pyplot as plt columns = ["mpg","cylinders","displacement","horsepowe

機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩陣，非

槓精的機器學習（一）：線性迴歸

主要參考資料為《小象學院-機器學習IV》打個廣告，這套視訊真的非常贊，建議大家看三遍以上，每一遍都有新的收穫，BiliBili上有免費資源，感謝鄒博！！！前言：在實際應用中，迴歸是非常常見的一類問題，當然用於解決迴歸問題的方法也有很多，例如線性迴歸(

【吳恩達機器學習筆記】第三章：線性迴歸回顧

本章是對線性代數的一些簡單回顧，由於之前學過，所以這裡只是簡單的將課程中的一些例子粘過來矩陣表示矩陣加法和標量乘法矩陣向量乘法用矩陣向量乘法來同時計算多個預測值矩陣乘法用矩陣乘法同時計算多個迴歸

機器學習方法：迴歸（一）：線性迴歸Linear regression

開一個機器學習方法科普系列：做基礎回顧之用，學而時習之；也拿出來與大家分享。數學水平有限，只求易懂，學習與工作夠用。週期會比較長，因為我還想寫一些其他的，呵呵。 content: linear regression, Ridge, Lasso Logi

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字元識別）

本章講述的是一個複雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一個複雜的流水線系統如何定位瓶頸與分配資源。 OCR的問題就是根據圖片識別圖片中的文字：這種OCR識別的問題可以理解成三個步驟：文字檢測字元切分字元識別文字檢測文字的檢測可以用行人的檢測來做

Andrew NG 機器學習筆記-week11-應用例項：圖片文字識別（Application Example：Photo OCR）

1、問題描述和流程圖（Problem Description and Pipeline） photo OCR：photo Optical Character Recognition 影象文字識別，要求從一張給定的圖片中識別文字。為了完成這樣的工作，需

吳恩達機器學習筆記59-向量化：低秩矩陣分解與均值歸一化（Vectorization: Low Rank Matrix Factorization & Mean Normalization）

接受 span amp 14. 實現新的 mean 情況 rank 一、向量化：低秩矩陣分解　　　　之前我們介紹了協同過濾算法，本節介紹該算法的向量化實現，以及說說有關該算法可以做的其他事情。　　舉例：1.當給出一件產品時，你能否找到與之相關的其它產品。2.一位用

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

1.sigmoid 函式

2.model

3.損失函式

4.求梯度

4 （附屬） 停止策略

4 （附屬） 對資料進行洗牌

5，6重點！

功能函式，畫圖

資料標準化

6.accuracy: 計算精度

相關推薦

4 （附屬）停止策略

4 （附屬）對資料進行洗牌