線性迴歸和梯度下降講解與程式碼

阿新 • • 發佈：2018-11-01

本文也是根據吳恩達機器學習課程作業的答案。

迴歸：預測值是連續的；分類：預測值是離散的；

建模誤差：預測值與實際值之間的差距；

目標：選擇模型引數，使得建模誤差的平方和能夠最小，即代價函式最小；

代價函式：選擇平方誤差函式，是解決迴歸問題最常用的手段；代價函式是幫助我們選擇最優的引數的方法，即設定標準為引數使得建模誤差最小；

梯度下降：用來求函式最小值的演算法，它背後的思想是，開始時隨機選擇一個引數的組合，計算代價函式，然後尋找下一個能讓代價函式值下降最多的引數組合。持續知道得到一個區域性最小值。實現梯度下降演算法的微妙之處是，同時更新引數；

梯度下降的直觀理解：微分部分是那個點的斜率，右邊部分的曲線的斜率是不斷減小的，區域性最優點的斜率為0（假設代價函式為拋物線）；

批量梯度下降：在梯度下降的每一步中，我們都用到了所有的訓練樣本；

在多變數線性迴歸中

為了將特徵向量化，引入x0=1，故該式實際變數為n。特徵矩陣X的維度是m*(n+1)

特徵縮放：保證特徵都具有相似的尺度（-1,1），將幫助梯度下降演算法更快的收斂。

正規方程：求解正規方程找出使得代價函式最小的引數。

線性迴歸程式碼實現最主要的部分就是代價函式的計算和梯度下降(對損失函式進行極小化)，即對以下兩個公式的實現。在程式碼最後面專門定義了函式

import matplotlib.pyplot as plt #繪圖框架
import numpy as np
from matplotlib.colors import LogNorm #將顏色規範化在log級別的0-1內
from mpl_toolkits.mplot3d import axes3d, Axes3D
from computeCost import *
from gradientDescent import *
from plotData import * #有一個plotData.py的檔案需要把程式碼補齊

# ===================== Part 1: Plotting =====================視覺化為了理解資料
print('Plotting Data...')
data = np.loadtxt('ex1data1.txt', delimiter=',', usecols=(0, 1)) #讀取檔案，分隔值的字元，確定讀取的列
X = data[:, 0] #冒號左邊是行範圍，右邊列範圍。取二維陣列中第一列的所有資料
y = data[:, 1] #取二維陣列中第二列的所有資料
m = y.size

plt.ion() #開啟互動模式，plt.plot()直接出影象，不需要show()。沒有ioff()關閉的話，影象一閃而過，不會常留
plt.figure(0)
plot_data(X, y) #在plotdata.py中定義了一個plot_data的函式

input('Program paused. Press ENTER to continue')

# ===================== Part 2: Gradient descent =====================
print('Running Gradient Descent...')

X = np.c_[np.ones(m), X]  # Add a column of ones to X。np_c按行連線兩個矩陣（矩陣左右相加），行數相等
theta = np.zeros(2)  # initialize fitting parameters。 theta = array([0, 0])

# Some gradient descent settings 迭代次數，學習速率（步長）
iterations = 1500 
alpha = 0.01

# Compute and display initial cost
print('Initial cost : ' + str(compute_cost(X, y, theta)) + ' (This value should be about 32.07)') #需要對computerCost.py補全，代價函式=1/2m * sum(f(x)-y)**2)，pdf第五頁的公式

theta, J_history = gradient_descent(X, y, theta, alpha, iterations) #在gradientDescent.py處對程式碼補全

print('Theta found by gradient descent: ' + str(theta.reshape(2)))

# Plot the linear fit
plt.figure(0)
line1, = plt.plot(X[:, 1], np.dot(X, theta), label='Linear Regression')
plt.legend(handles=[line1])

input('Program paused. Press ENTER to continue')

# Predict values for population sizes of 35,000 and 70,000
predict1 = np.dot(np.array([1, 3.5]), theta)
print('For population = 35,000, we predict a profit of {:0.3f} (This value should be about 4519.77)'.format(predict1*10000))
predict2 = np.dot(np.array([1, 7]), theta)
print('For population = 70,000, we predict a profit of {:0.3f} (This value should be about 45342.45)'.format(predict2*10000))

input('Program paused. Press ENTER to continue')

# ===================== Part 3: Visualizing J(theta0, theta1) =====================
print('Visualizing J(theta0, theta1) ...')

theta0_vals = np.linspace(-10, 10, 100) #建立等差數列。起始，終止，樣本數
theta1_vals = np.linspace(-1, 4, 100)

xs, ys = np.meshgrid(theta0_vals, theta1_vals) #生成一個座標矩陣
J_vals = np.zeros(xs.shape)

# Fill out J_vals
for i in range(0, theta0_vals.size):
    for j in range(0, theta1_vals.size):
        t = np.array([theta0_vals[i], theta1_vals[j]])
        J_vals[i][j] = compute_cost(X, y, t)

J_vals = np.transpose(J_vals)

fig1 = plt.figure(1)
ax = fig1.gca(projection='3d')
ax.plot_surface(xs, ys, J_vals)
plt.xlabel(r'$\theta_0$')
plt.ylabel(r'$\theta_1$')

plt.figure(2)
lvls = np.logspace(-2, 3, 20)
plt.contour(xs, ys, J_vals, levels=lvls, norm=LogNorm())
plt.plot(theta[0], theta[1], c='r', marker="x")

input('ex1 Finished. Press ENTER to exit')

def plot_data(x, y):
    plt.scatter(x, y, c = 'r', marker = 'o')
    plt.xlabel('population')
    plt.ylabel('revenue')
    plt.show()

def compute_cost(X, y, theta):
    # Initialize some useful values
    m = y.size
    cost = 0 
    cost = np.sum((np.dot(X, theta) - y)**2) / (2*m)
    return cost

def gradient_descent(X, y, theta, alpha, num_iters):
    # Initialize some useful values
    m = y.size
    J_history = np.zeros(num_iters)

    for i in range(0, num_iters):      
        error = np.dot(X, theta).flatten() - y
        theta -= (alpha/m)*np.sum(X*error[:, np.newaxis], 0)
        
        J_history[i] = compute_cost(X, y, theta)

    return theta, J_history


def gradient_descent_multi(X, y, theta, alpha, num_iters):
    # Initialize some useful values
    m = y.size
    J_history = np.zeros(num_iters)

    for i in range(0, num_iters):
        error = np.dot(X, theta).flatten() - y
        theta -= (alpha / m) * np.sum(X * error[:, np.newaxis], 0)
        J_history[i] = compute_cost(X, y, theta)

    return theta, J_history

線性迴歸和梯度下降講解與程式碼

本文也是根據吳恩達機器學習課程作業的答案。迴歸：預測值是連續的；分類：預測值是離散的；建模誤差：預測值與實際值之間的差距；目標：選擇模型引數，使得建模誤差的平方和能夠最小，即代價函式最小；代價函式：選擇平方誤差函式，是解決迴歸問題最常用的手段；代價函式是幫助我們選擇最優

線性迴歸、梯度下降演算法與 tensorflow

舉個栗子考慮一個二手房交易記錄資料集. 已知房屋面積，臥室數量和交易價格: 根據這個資料集，要求我們估算當前某個給定房屋價格. 我們應該怎麼做？線性迴歸迴歸就是根據已知資料來預測另一個數值型資料的目標值. 假設特徵和結果滿足線性關係： h(x

機器學習入門：線性迴歸及梯度下降（附matlab程式碼）

本文會講到： (1)線性迴歸的定義 (2)單變數線性迴歸 (3)cost function：評價線性迴歸是否擬合訓練集的方法 (4)梯度下降：解決線性迴歸的方法之一 (5)feature scaling：加快梯度下降執行速度的方法 (6)多變數線性迴歸 Linea

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

在前面部落格中介紹了單變數線性迴歸的實現過程，本文將介紹多變數線性迴歸演算法。兩者的對比如下： 1.資料方面的差異：單變數線性迴歸資料：多變數線性迴歸資料：對於單變數線性迴歸來說，只有一個特徵（房子的大小），而對於多變數線性特徵迴歸特徵

【機器學習詳解】線性迴歸、梯度下降、最小二乘的幾何和概率解釋

線性迴歸即線性擬合，給定N個樣本資料（x1,y1）,(x2,y2)....(xN,yN)其中xi為輸入向量，yi表示目標值，即想要預測的值。採用曲線擬合方式，找到最佳的函式曲線來逼近原始資料。通過使得代價函式最小來決定函式引數值。採用斯坦福大學公開課的

深度學習——線性單元和梯度下降

每次總結只知道指向預測模型 pre 叠代 $$ 機器學習的一些基本概念，模型、目標函數、優化算法等等，這些概念對於機器學習算法來說都是通用的套路。線性單元　　當我們面對的數據不是線性可分的時候，感知器規則就無法收斂，為了解決這個問題，我們使用一個可導的線性

深度學習筆記——線性單元和梯度下降

程式碼參考了零基礎入門深度學習(2) - 線性單元和梯度下降這篇文章，我只對程式碼裡可能存在的一些小錯誤進行了更改。至於線性單元的原理以及程式碼裡不清楚的地方可以結合該文章理解，十分淺顯易懂。 from DL.perceptron import Perceptron # 定義啟用函式f f =

機器學習入門線性迴歸及梯度下降

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

（轉載）深度學習（2）——線性單元和梯度下降

原文地址：https://www.zybuluo.com/hanbingtao/note/448086 轉載在此的目的是自己做個筆記，日後好複習，如侵權請聯絡我！！　　在上一篇文章中，我們已經學會了編寫一個簡單的感知器，並用它來實現一個線性分類器。你應該還記得用來訓練感知器的『感知器規則』。然而，我們並沒有

Tensorflow環境下線性迴歸（梯度下降）的練手例項（完整原始碼+說明）

Tensorflow 入門篇-最小二乘法的線性迴歸演算法本文將藉助Tensorflow來實現最小二乘法的線性迴歸演算法。大體的思路：首先生成隨機紊亂的資料集，然後構建線性迴歸的Graph，最後在Session中迭代train器，得到擬合的引數w和b，最後畫出擬

深度學習筆記（基礎篇）——（二）線性單元和梯度下降

在上一篇文章中，我們已經學會了編寫一個簡單的感知器，並用它來實現一個線性分類器。你應該還記得用來訓練感知器的『感知器規則』。然而，我們並沒有關心這個規則是怎麼得到的。本文通過介紹另外一種『感知器』，也就是『線性單元

線性迴歸及梯度下降演算法詳解

一、線性迴歸問題迴歸最簡單的定義是，給出一個點集D，用一個函式去擬合這個點集，並且使得點集與擬合函式間的誤差最小，如果這個函式曲線是一條直線，那就被稱為線性迴歸，如果曲線是一條二次曲線，就被稱為二次迴歸。總的來說，迴歸的目的就是建立一個迴歸方程用

邏輯迴歸和梯度下降

1. 概率 1.1 定義 1.2 範圍 1.3 計算方法 1.3.1 根據個人置信 1.3.2 根據歷史資料 1.3.3 根據模擬資料 1.4 條件概率 2. 2.1 &

機器學習--吳恩達（線性迴歸，梯度下降，正規方程法）

本節課是對監督學習的講解，ng以自動駕駛為例，告訴我們汽車對方向的預測是連續值，故而是迴歸問題。什麼是迴歸問題？（regression）確定兩種或兩種以上變數相互依賴的定量關係的一種統計分析方法迴歸與分類問題的不同迴歸與分類都屬於預測問題，而回歸預測的結果是連續的值

機器學習：單變數線性迴歸及梯度下降

***************************************** 注：本系列部落格是博主學習Stanford大學 Andrew Ng 教授的《機器學習》課程筆記。博主深感學過課程後，不進行總結很容易遺忘，根據課程加上自己對不明白問題的補充遂有此係列部落格。

《機器學習實戰》學習筆記（四）之Logistic（上）基礎理論及演算法推導、線性迴歸，梯度下降演算法

轉載請註明作者和出處：http://blog.csdn.net/john_bh/ 執行平臺： Windows Python版本： Python3.6 IDE： Sublime text3 一、概述 Logistic迴歸是統計學習中的經典

Logistic迴歸和梯度下降總結

原文：http://blog.csdn.net/dongtingzhizi/article/details/15962797 Logistic迴歸總結 1.引言看了Stanford的Andrew Ng老師的機器學習公開課中關於Logistic Reg

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

一.Multivariate Linear regression(多元線性迴歸) 現在起將開始介紹一種新的更為有效的線性迴歸形式。這種形式適用於多個變數或者多特徵量的情況。在之前學習過的線性迴歸中

【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)

1.梯度下降演算法梯度下降演算法的核心思路和公式推導，可以詳見前面的文章：梯度下降演算法的核心思路和公式推導如果代價函式是凸函式，用梯度下降演算法一定可以求得最優解。2.梯度下降的三種方式在ML中，梯度下降有三種方式：1）批量梯度下降(Batch Gradient Desc

1.2.2 Logistic迴歸和梯度下降計算的數學流程

計算圖可以說，一個神經網路的計算都是按照前向或者反向傳播過程來實現的，首先計算出神經網路的輸出，緊接著一個反向傳播的操作。後者，我們用來計算出對應的梯度或者導數。這個流程圖解釋了為什麼用這樣的方式來實現。我們舉一個更為簡單的函式為例，如何計算該函式。具體

線性迴歸和梯度下降講解與程式碼

相關推薦