機器學習筆記（一）線性迴歸模型

阿新 • • 發佈：2018-11-09

一、線性迴歸模型

（一）引入—梯度下降演算法

1. 線性假設：

2. 方差代價函式：

3. 梯度下降：

4. : learning rate

（用來控制我們在梯度下降時邁出多大的步子，值較大，梯度下降就很迅速）

值過大易造成無法收斂到minimum（每一步邁更大）

值較小且適宜的情況下，步子越來越小直到收斂（導數項為零）不再改變。

（注：每一次梯度下降，需完成多個的同步更新）

右側計算後立即更新是不正確的，在計算時使用了新的，未實現同步。

（二）結合——一元線性迴歸模型

分別對求偏導：

將導數項代回得梯度下降：

課堂註解：

（二）多元線性迴歸模型

1. 多元線性迴歸假設函式形式：

2. 多元線性迴歸梯度下降演算法表示式：

課程註解：

3. 特徵縮放：使梯度下降的速度更快，收斂所需的迭代次數更少。

假設我們有兩個特徵，在梯度下降的過程中，畫出的引數等值線如下圖。

由圖中紅線可以看出，當值的scale（取值範圍）相差很大時，梯度下降的的道路是曲折的，而當對數值進行處理後，梯度下降的過程變得很高效。所以我們在實際操作時，經常將特徵的取值約束到-1到+1的範圍內。（-1、+1兩個數值並不重要，只是作為輔助作用將特徵取值調整到合適範圍）

有時我們需要將特徵值“標準化”使其均值為0，其中是訓練集中特徵值的平均值，是該特徵值的取值範圍（最大值-最小值）

4. 是否收斂（觀察影象及收斂測試）

（推薦通過左側影象觀察梯度下降演算法是否正常工作，而不是依靠自動收斂測試。）

5. 關於學習率

左側兩種情況出現的原因可能是過大，然而如果過小，收斂將極其緩慢。

（通常會嘗試一些值，如0.01、0.001，十倍取一個值，對於這些不同的值，繪製隨迭代步數變化的曲線，選擇使快速下降的值，實際中常取三倍來找合適的值）

在訓練模型對資料進行擬合時，我們可以自由選擇使用什麼特徵

，並且通過設計不同的特徵，我們可以使用更復雜的函式去擬合數據，而不是隻用一條直線去擬合。

（三）正規方程法

1. 正規方程法一步求出最小（不需要特徵縮放）

將矩陣X、向量y帶入如下公式，（X：將第i條訓練資料特徵值轉置，作為設計矩陣X的第i行。y：把所有標籤，如訓練集中的所有房價資料，放在一起構成。）即可求出目標引數值。

2. 正規方程法和梯度下降法優缺點比較

（n<10000選用正規方程法）

小結：我們可以看到，對於線性迴歸這個特定的模型，正規方程法能夠成為一個比梯度下降法更快的替代演算法，而在Logistics迴歸模型等一些其他更復雜的模型當中，正規方程法不適用。所以，我們應該掌握這兩種方法，根據具體的演算法、根據具體的問題，以及特徵的數量，對這兩種方法進行更好的應用。

機器學習筆記（一）線性迴歸模型

一、線性迴歸模型（一）引入—梯度下降演算法 1. 線性假設： 2. 方差代價函式： 3. 梯度下降： 4. : learning rate （用來控制我們在梯度下降時邁出多大的步子，值較大，梯度下降就很迅速）值過大易造成無法收斂到minimum（每一步邁更大）

機器學習筆記（二）線性迴歸實現

一、向量化對於大量的求和運算，向量化思想往往能提高計算效率（利用線性代數運算庫），無論我們在使用MATLAB、Java等任何高階語言來編寫程式碼。運算思想及程式碼對比的同步更新過程向量化向量化後的式子表示成為：其中是一個向量，是一個實數，是一個向量，

機器學習筆記（一）邏輯迴歸與多項邏輯迴歸

1.邏輯迴歸與多項邏輯迴歸 1.1什麼是邏輯迴歸？邏輯迴歸，可以說是線上性迴歸的基礎上加上一個sigmoid函式，將線性迴歸產生的值歸一化到[0-1]區間內。sigmoid函式如下：

TensorFlow學習筆記（一）-- Softmax迴歸模型識別MNIST

最近學習Tensorflow，特此筆記，學習資料為21個專案玩轉深度學習基於TensorFlow的實踐詳解 Softmax迴歸是一個線性的多分類模型，它是從Logistic迴歸模型轉化而來的，不同的是Logistic迴歸模型是一個二分類模型，而Softmax迴歸模型是一個多分類模型

機器學習筆記（三）Logistic迴歸模型

Logistic迴歸模型 1. 模型簡介：線性迴歸往往並不能很好地解決分類問題，所以我們引出Logistic迴歸演算法，演算法的輸出值或者說預測值一直介於0和1，雖然演算法的名字有“迴歸”二字，但實際上Logistic迴歸是一種分類演算法（classification y = 0 or 1）。 Log

深入理解JAVA虛擬機器學習筆記（一）JVM記憶體模型

一、JVM記憶體模型概述 JVM記憶體模型其實也挺簡單的，這裡先提2個知識點： 1、組成：java堆，java棧（即虛擬機器棧），本地方法棧，方法區和程式計數器。 2、是否共享：其中方法區和堆區是執行緒共享的，虛擬機器棧，本地方法棧和程式計數器是執行緒私有的，也稱執行緒

公開課機器學習筆記（7）Softmax迴歸模型

在本節中，我們介紹Softmax迴歸模型，該模型是logistic迴歸模型在多分類問題上的推廣，在多分類問題中，類標籤可以取兩個以上的值。 Softmax迴歸模型對於諸如MNIST手寫數字分類等問題是很有用的，該問題的目的是辨識10個不同的單個數字。Softmax迴歸

機器學習筆記（一）邏輯斯蒂迴歸LR

本文是在學習完李航老師的《統計學習方法》後，在網上又學習了幾篇關於LR的部落格，算是對LR各個基礎方面的一個回顧和總結。一簡述邏輯斯蒂迴歸是一種對數線性模型。經典的邏輯斯蒂迴歸模型（LR

機器學習理論（一）——線性回歸

隨機 .cn 過程小寫找到想想每次回歸所在（一）單變量線性回歸。舉個例子來說，假如你要在北京的五環路租房，要預測房子的價格，其中一個比較顯著的特征就是房子的面積，根據不同的房間的面積來預測租金是多少。於是你就可以構建一個模型橫軸是房間面積，縱軸是租金

機器學習筆記（一）

get 實現 mach 理論怎樣算法分類 AI 結構 1、基礎概念　　什麽是機器學習? 　　機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的

機器學習實戰（七）線性迴歸（Linear Regression）

目錄 0. 前言 1. 假設函式（Hypothesis） 2. 標準線性迴歸 2.1. 代價函式（Cost Function） 2.2. 梯度下降（Gradient Descent） 2.3. 特徵縮放（Feat

模式識別與機器學習筆記（一）

本系列博文是對研一課程《模式識別與機器學習》的隨堂筆記，希望將老師所講的與自己的見解記錄下來，方便加深自己的理解以及以後複習檢視，筆記完全按照老師所講順序，歡迎交流。一、模式識別與機器學習的基本問題機器學習主要解決以下四類問題： 1.監督學習：指的是訓練的資料既包括特徵（feat

機器學習筆記（一）：最小二乘法和梯度下降

一、最小二乘法 1.一元線性擬合的最小二乘法先選取最為簡單的一元線性函式擬合助於我們理解最小二乘法的原理。要讓一條直接最好的擬合紅色的資料點，那麼我們希望每個點到直線的殘差都最小。設擬合直線為

吳恩達機器學習筆記（一），含作業及附加題答案連結

吳恩達機器學習筆記（一）標籤（空格分隔）：機器學習吳恩達機器學習筆記一一機器學習簡介機器學習的定義監督學習非監督學習

機器學習筆記（四）Logistic迴歸實現及正則化

一、Logistic迴歸實現（一）特徵值較少的情況 1. 實驗資料吳恩達《機器學習》第二課時作業提供資料1。判斷一個學生能否被一個大學錄取，給出的資料集為學生兩門課的成績和是否被錄取，通過這些資料來預測一個學生能否被錄取。 2. 分類結果評估橫縱軸（特徵）為學生兩門課成績，可以在圖

深入理解java虛擬機器學習筆記（一）

Java記憶體區域模型 Java虛擬機器在執行Java程式的過程中，會把它所管理的記憶體區域劃分為若干個不同的資料區域，這些區域一般被稱為執行時資料區（Runtime Data Area），也就是我們常說的JVM記憶體。執行時資料區通常包括以下這幾個部分：程式計數器(Program Counte

深度學習&PyTorch筆記（1）線性迴歸模型

首先建立模型 class LinearRegression(nn.Module): def __init__(self): super(LinearRegression, self).__init__() # nn.Module 的初

Java虛擬機器學習筆記（一）：記憶體區域與HotSpot虛擬機器物件探祕

執行時資料區域 Java虛擬機器在執行Java程式的過程中會把它所管理的記憶體劃分為若干個不同的資料區域。這些區域都有各自的用途，以及建立和銷燬的時間，有的區域隨著虛擬機器程序的啟動而存在，有些區域則依賴使用者執行緒的啟動和結束而建立和銷燬。根據《Java虛擬機

pytorch自我學習基礎（一）線性迴歸

pytorch 版本 0.2.0 #coding=utf-8 from matplotlib import pylab as plt import numpy as np import random import torch.nn as nn import torch fr

機器學習筆記（一）：極大似然估計與貝葉斯估計的區別

似然函式：樣本資料的分佈和在引數為下的概率分佈的相似程度極大似然估計：只要求出符合樣本資料分佈的最優引數即可，不需要考慮先驗。貝葉斯估計 MAP（最大後驗估計）