《Python 深度學習》——第二章神經網路的數學基礎

阿新 • • 發佈：2018-12-20

內容：

第一個神經網路示例
張量與張量運算
神經網路如何通過反向傳播與梯度下降進行學習

張量，張量運算，微分，梯度下降

2.1 初識神經網路

類別（class），樣本（sample），標籤（label）

1.載入Keras中的MNIST資料集

from keras.datasets import mnist

(train_images,train_labels),(test_images,test_labels)=mnist.load_data()

訓練集，測試集

2.網路框架

from keras import models

from keras import layers

network=models.Sequential()

network.add(layers.Dense(512,activation='relu',input_shape=(28*28,)))

network.add(layers.Dense(10,activation='softmax'))

Dense層：密集連線（全接連）

softmax層：返回概率值

3.編譯步驟

network.compile(loss='categorical_crossentropy',optimizer='rmsprop',metrics=['accuracy'])

三個引數：

損失函式（loss function）
優化器（optimizer）
在訓練和測試過程中需要監控的指標（metric）

4.預處理

train_images=train_images.reshape((60000,28*28))

train_images=train_images.astype('float32')/255

test_images=test_images.reshape((10000,28*28))

test_images=test_images.astype('float32')/255

所有值在[0,1]區間

形狀變成：樣本數*特徵數

5.標籤處理

from keras.utils import to_categorical

train_labels=to_categorical(train_labels)

test_labels=to_categorical(test_labels)

6.擬合

network.fit(train_images,train_labels,epochs=5,batch_size=128)

batch_size指每個小批量有128樣本

epochs：迭代次數，所有資料迭代一次叫做一輪（epoch）

所以梯度要更新次數=60000/128*5=469*5=2345

訓練時顯示：損失(loss)和精度(acc)。

2.2 神經網路的資料表示

張量（tensor）:基本資料結構

張量的維度（dimension）叫做軸（axis）

2.2.1 標量（0D張量）（scalar）

標量張量，零維張量，0D張量

x.ndim#檢視軸的個數，即階（rank）

2.2.2 向量（1D張量）(vector)

x=np.array([12,3,6,7,14,7])

5D向量≠5D張量=5階張量

維度（dimensionality）:既表示沿某個軸的元素個數，也表示軸的個數。

2.2.3 矩陣（2D張量）(matrix)

軸1：行（row）

軸2：列（column）

2.2.4 3D張量與更高維張量

x=np.array([[[5,78,2,34,0],[6,2,4,5,1]],[[2,4,5,2,5],[3,4,5,,6,7]]]

2.2.5 關鍵屬性

軸的個數（階）：ndim
形狀:shape
資料型別:dtype

2.2.6 在Numpy中操作張量

張量切片(tensor slicing)

2.2.7 資料批量的概念

第一個軸：樣本軸(samples axis,樣本維度)

深度學習模型將資料拆分成小批量

批量軸（batch axis）或批量維度（batch dimension）

2.2.8 現實世界中的資料張量

向量資料：2D張量，形狀（samples,feature）
時間序列資料或序列資料：3D張量，形狀（sample,timesteps,feature）
影象：4D張量，形狀（samples,height,width,channels）或（samples,channels,height,width）
視訊：5D張量，形狀（samples,frames,height,width,channels）或（samples,frames，channels,height,width）

2.2.9 向量資料

樣本軸，特徵軸

2.2.10 時間序列資料或序列資料

慣例：時間軸為第二個軸

2.2.11 影象資料

通道在後：（samples,height,width,channels）：google

通道在前：（samples,channels,height,width）：Theano

2.2.12 視訊資料

壓縮技術，例MPEG格式

2.3 神經網路的“齒輪”：張量運算（tensor operation）

keras.layers.Dense(512,activation='relu')

output=relu(dot(W,input)+b)

relu(x)=max(x,0)

2.3.1 逐元素運算

relu和加法是逐元素（element-wise）計算的

2.3.2 廣播（broadcast）

廣播軸

2.3.3 張量點積（tensor product）

np.dot(x,y)

2.3.4 張量變形

x.reshape((6,1))

np.transpose(x)#轉置（transposition）

2.3.5 張量運算的幾何解釋

加法幾何解釋

旋轉：與2*2矩陣R做點積，R=[u,v],u=[cos(theta),sin(theta)].T,v=[-sin(theta),cos(theta)].T

2.3.6 深度學習的幾何解釋

將兩張紙放在一起揉成一團，後分開。

2.4 神經網路的“引擎”：基於梯度的

output=relu(dot(W,input)+b)

w,b分別是kernel和bias

隨機初始化（random initialization）

迴圈訓練(training loop)

抽取訓練樣本x和對應目標y組成的資料批量
在x上執行網路（前向傳播（forward pass）），得到預測值y_pred
計算網路在這批資料上的損失，用於衡量y_pred和y之間的距離
計算損失相對於網路的梯度(反向傳播(back pass))
沿梯度反方向移動，W-=step*gradient

可微（differentiable）,

梯度（gradient）

2.4.1 什麼是導數

2.4.2 張量運算的導數：梯度(grandien)

2.4.3 隨機梯度下降

直接通過解多個求偏導=0，來求最小值，因引數較多，不具有可行性

小批量隨機梯度下降(min-batch stochatic grandient descent)(小批量SGD)

低維表示中形成的直覺在實踐中不一定總是準確的。

SGD變體，例帶動量的SGD,Adagrad,RMSProp。

這些變體稱為優化方法(optimization method)或優化器(optimizer)

2.4.4 鏈式求導：反向傳播演算法

鏈式法則（chain rule）：(f(g(x))'=f'(g(x))*g'(x)

反向傳播(backpropagation)：將鏈式法則用於神經網路梯度值的計算。

2.5 回顧第一個例子

本章小結

學習：找到一組引數，使損失函式最小化

學習的過程：每一個批量，更新一次梯度。在乘以學習率

可微，才可使用求導的鏈式法則

損失：需要最小化的量

優化器：使用梯度更新的具體方式

《Python 深度學習》——第二章神經網路的數學基礎

內容：第一個神經網路示例張量與張量運算神經網路如何通過反向傳播與梯度下降進行學習張量，張量運算，微分，梯度下降 2.1 初識神經網路類別（class），樣本（sample），標籤（label） 1.載入Keras中的MNIST資料集 from ke

《Python 深度學習》——第二章神經網路的數學基礎

內容：第一個神經網路示例張量與張量運算神經網路如何通過反向傳播與梯度下降進行學習張量，張量運算，微分，梯度下降 2.1 初識神經網路類別（class），樣本（sample），標籤（label） 1.載入Keras中的MNIST資料集

《神經網路和深度學習》之神經網路基礎（第二週）課後作業——Python與Numpy基礎知識

1 用numpy 建立基本函式 1.1 s型函式，np.exp() # GRADED FUNCTION: basic_sigmoid import math def basic_sigmoid(x): """ Compute

《神經網路和深度學習》之神經網路基礎（第二週）課後作業——神經網路思維的邏輯迴歸

歡迎來到你的第一個程式設計作業，在這次作業中你將會用邏輯迴歸去識別一個貓。並且在這次作業中你將會用神經網路的思維去一步一步的去解決這個問題和磨練你的深度學習的直覺。說明：在你的程式碼中不能使用for或while迴圈，除非說明明確要你這麼做。你將會

第五章（1.5）深度學習——卷積神經網路簡介

卷積神經網路(Convolutional Neural Network, CNN)是一種前饋神經網路, 在計算機視覺等領域被廣泛應用. 本文將簡單介紹其原理並分析Tensorflow官方提供的示例. 一、工作原理卷積是影象處理中一種基本方法. 卷積核是一個

使用深度學習的CNN神經網路破解Captcha驗證碼

樣本資料的生成與處理：我們先來看看mnist（一個手寫體數字圖片的資料集，有55000張0-9的手寫體數字的圖片）中圖片和圖片標籤的資料形式：已知mnist資料集中的每張圖片是28x28畫素的灰度影象。每張圖片上是一個單獨的手寫體數字。程式碼如下： from tensorf

深度學習 --- 徑向基神經網路RBF詳解

上一節我們基本上打開了深度學習的大門，其實下一步應該是卷積神經網路即CNN了，但是呢卷積神經網路的最後一層採用的是徑向基神經網路，為了以後到CNN不用再費力氣將RBF和保持CNN的整體性和連貫性，因此這裡我們系統的學習一下，講解之前我們還是先好好回顧我們的總體學習思路，首先我們從BP神經網路開始

吳恩達深度學習筆記(21)-神經網路的權重初始化為什麼要隨機初始化？

隨機初始化（Random+Initialization）當你訓練神經網路時，權重隨機初始化是很重要的。對於邏輯迴歸，把權重初始化為0當然也是可以的。但是對於一個神經網路，如果你把權重或者引數都初始化為0，那麼梯度下降將不會起作用。讓我們看看這是為什麼？有兩個輸入

深度學習入門系列-神經網路

機器學習　　　　定義:機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。　分

從零開始學深度學習二：神經網路

本課程筆記來源於深享網課程《深度學習理論與實戰TensorFlow》 2.1學習的種類學習的種類主要分成以下三類：監督學習、非監督學習和強化學習三種。接下來，將分別對這三種學習進行介紹。監督學習：對已經標記的訓練樣本進行學習，然後對樣本外的資料進行標記

深度學習 --- 卷積神經網路CNN（LeNet-5網路學習演算法詳解）

上一節我們詳細探討了LeNet-5網路的架構，但是還沒有解釋該網路是如何進行學習的，如何更新權值的，本節將接著上一節進一步CNN的學習機制和權值更新過程，這裡請大家一定要對CNN網路有一個清晰的認識，知道每一層是做什麼的，為什麼這樣設定。原因在哪等。大家在學習的過程中需要多問自己幾個為什麼，這樣

深度學習 --- 卷積神經網路CNN（LeNet-5網路詳解）

卷積神經網路（Convolutional Neural Network，CNN）是一種前饋型的神經網路，其在大型影象處理方面有出色的表現，目前已經被大範圍使用到影象分類、定位等領域中。相比於其他神經網路結構，卷積神經網路需要的引數相對較少，使的其能夠廣泛應用。本節打算先介紹背景和簡單的基本

深度學習之人工神經網路學習

人工神經網路就是把這樣的人工神經元互聯成一個網路：一個神經元的輸出作為另一個神經元的輸入。神經網路可以有多種多樣的拓撲結構。其中最簡單的就是「多層全連線前向神經網路」。它的輸入連線到網路第一層的每個神經元。前一層的每個神經元的輸出連線到下一層每個神經元的輸入。最後一層神經元的

21個專案玩轉深度學習第二章 CIFAR10

首先介紹第一個檔案infar10_input.py，用途：在tensorflow中讀取人CIFAR-10訓練圖片。這個IMAGE_SIZE=24並不是原始圖片的大小，而是接下來要裁剪成的大小 IMAGE_SIZE = 24 NUM_CLASSES = 10 NU

TensorFlow入門-07.深度學習與深層神經網路

0.深度學習的定義（維基百科）：一類通過多層非線性變換對高複雜性資料建模演算法的合集。 1.深度學習與深層神經網路的關係：因為深層神經網路時實現“多層非線性變換”最常用的一種方法，所以在實際中基本上可以認為深度學習就是深層神經網路的代名詞。 2.深度學習的兩個重要

吳恩達深度學習筆記(29)-神經網路訓練的方差和偏差分析

這一節我們學習在神經網路學習訓練時出現的結果進行分析，偏差和方差的表現和優化，仔細看好咯~ 偏差，方差（Bias /Variance）幾乎所有機器學習從業人員都期望深刻理解偏差和方差，這兩個概念易學難精，即使你自己認為已經理解了偏差和方差的基本概念，卻總有一些意想不到的新東西出現。

吳恩達《深度學習-改善深層神經網路》3--超引數除錯、正則化以及優化

1. 系統組織超參除錯Tuning process1）深度神經網路的超參有學習速率、層數、隱藏層單元數、mini-batch大小、學習速率衰減、β（優化演算法）等。其重要性各不相同，按重要性分類的話：第一類：最重要的引數就是學習速率α 第二類：隱藏層單元數、min

吳恩達《深度學習-卷積神經網路》2--深度卷積神經網路

1. Why look at case studies本節展示幾個神經網路的例項分析為什麼要講例項？近些年CNN的主要任務就是研究如何將基本構件（CONV、POOL、CF）組合起來形成有效的CNN，而學習瞭解前人的做法可以激發創造2. Classic Networks1）Le

深度學習--卷積神經網路工作原理

萬能的知乎從知乎上看一篇文章，問題是卷積神經網路工作原理直觀的解釋，知乎大神用各種動圖對卷積神經網路的訓練做了介紹。YJango的回答最為精彩。奉上鍊接，希望你也能從這個回答中對卷積神經網路有更為確切的認識。https://www.zhihu.com/question/

[人工智慧]深度學習卷積神經網路的秒懂各種操作

作者:深度學習思考者來給大家總結一下卷積神經網路的各種操作 ,大家能夠秒懂! 先來幾個靜態圖: 卷積演算法的一些神奇GIF動畫，包括不同的padding和strides。上述是四種不同的卷積方式，大家都知道是哪種卷積吧

《Python 深度學習》——第二章 神經網路的數學基礎

相關推薦

《Python 深度學習》——第二章神經網路的數學基礎