優達學城-深度學習筆記（一）

標籤：機器學習

優達學城-深度學習筆記一

一. 神經網路簡介

1.最大似然概率

將可能分類正確的概率相乘，將全部分類正確的概率做比較，最大的即為最優的
最大似然概率

2.交叉熵（Cross entropy）

由於很多數相乘值會非常小，於是採用-ln進行相加，更小的交叉熵更優
【交叉熵】

2.1交叉熵程式碼實現

def cross_entropy(Y, P):
    Y=np.float_(Y)
    P=np.float_(P)
    ans=-np.sum(Y*np.log(P)+(1-Y)*np.log(1-P))
    return ans

2.2多類別交叉熵

Cross−Entropy=−∑i=1n∑j=1myijln(Pij) $Cross-Entropy=-\sum^n_{i=1}\sum^m_{j=1}y_{ij}ln(P_{ij})$

3.對數機率迴歸的誤差函式（cost function）

Costfunction=−1m∑i=1n∑j=1myijln(Pij) $Cost function=- \frac{1}{m}\sum^n_{i=1}\sum^m_{j=1}y_{ij}ln(P_{ij})$

goal:最小化誤差函式

4.梯度下降程式碼

隨機初始化一個權重
$w_1...,w_n,b$
對於每一個分類點（ $x_1,...x_n$ )
2.1 For i=1…n
2.1.1. 更新 $w_i=w_i-\alpha(y-y^{'})x_i$
2.1.2 更新 $b=b-\alpha(y-y^{'})$
重複步驟2直到誤差最小

梯度下降程式碼

# Implement the following functions
# Activation (sigmoid) function
def sigmoid(x):
    return 1/(1+np.exp(-x))

# Output (prediction) formula
def output_formula(features, weights, bias):
    return sigmoid(np.dot(features, weights) + bias)

# Error (log-loss) formula
def error_formula(y, output):
    return - y*np.log(output) - (1 - y) * np.log(1-output)

# Gradient descent step
def update_weights(x, y, weights, bias, learnrate):
    output = output_formula(x, weights, bias)
    d_error = -(y - output)
    weights -= learnrate * d_error * x
    bias -= learnrate * d_error
    return weights, bias

5.神經網路

當存在非線性資料時，例如需要用曲線進行劃分，則用神經網路
5.1 前向傳播

5.2 反向傳播

反向傳播包括：
2.1 進行前向反饋運算。
2.2 將模型的輸出與期望的輸出進行比較。
2.3 計算誤差。
2.4 向後執行前向反饋運算（反向傳播），將誤差分散到每個權重上。
2.5 更新權重，並獲得更好的模型。
2.6 繼續此流程，直到獲得很好的模型。

二.梯度下降的神經網路

1.梯度下降程式碼實現

# Defining the sigmoid function for activations 
# 定義 sigmoid 啟用函式
def sigmoid(x):
    return 1/(1+np.exp(-x))

# Derivative of the sigmoid function
# 啟用函式的導數
def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Input data
# 輸入資料
x = np.array([0.1, 0.3])
# Target
# 目標
y = 0.2
# Input to output weights
# 輸入到輸出的權重
weights = np.array([-0.8, 0.5])

# The learning rate, eta in the weight step equation
# 權重更新的學習率
learnrate = 0.5

# the linear combination performed by the node (h in f(h) and f'(h))
# 輸入和權重的線性組合
h = x[0]*weights[0] + x[1]*weights[1]
# or h = np.dot(x, weights)

# The neural network output (y-hat)
# 神經網路輸出
nn_output = sigmoid(h)

# output error (y - y-hat)
# 輸出誤差
error = y - nn_output

# output gradient (f'(h))
# 輸出梯度
output_grad = sigmoid_prime(h)

# error term (lowercase delta)
error_term = error * output_grad

# Gradient descent step 
# 梯度下降一步
del_w = [ learnrate * error_term * x[0],
          learnrate * error_term * x[1]]
# or del_w = learnrate * error_term * x

2.反向傳播示例

dddddddddddddddd

先使用正向傳播計算輸入層到隱藏層節點：
$h=\sum_iw_ix_i=0.1*0.4-0.2*0.3=-0.02$
計算隱藏節點的輸出
$a=f(h)=sigmoid(-0.02)=0.495$
將其作為輸出節點的輸入，該神經網路的輸出可表示為
$\hat{y}=f(W*a)=sigmoid(0.1*0.495)=0.512$
根據神經網路的輸出，用反向傳播更新各層的權重，sigmoid函式的倒數為 $f'(W*a)=f(W*a)(1-f(W*a))$ ,輸出節點的誤差項可表示為
$δ^o=(y-\hat{y})f'(W*a)=(1-0.512)*0.512*(1-0.512)=0.122$
計算隱藏節點的誤差項
$δ_j^h=\sum_kW_{jk}δ^o_kf'(h_j)$
因為只有一個隱藏節點
$δ^h=Wδ^of'(h)=0.1*0.122*0.495*(1-0.495)=0.003$
計算梯度下降步長了。隱藏層-輸出層權重更新步長是學習速率乘以輸出節點誤差再乘以隱藏節點啟用值。
$ΔW=\alphaδ^oa=0.5*0.122*0.495=0.0302$
輸入-隱藏層權重 $w_i$ 是學習速率乘以隱藏節點誤差再乘以輸入值。
$Δw_i=\alphaδ^hx_i=(0.5*0.003*0.1,0.5*0.003*0.3)=(0.00015,0.00045)$

3.反向傳播程式碼實現

import numpy as np
from data_prep import features, targets, features_test, targets_test

np.random.seed(21)

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))


# Hyperparameters
n_hidden = 2  # number of hidden units
epochs = 900
learnrate = 0.005

n_records, n_features = features.shape
last_loss = None
# Initialize weights
weights_input_hidden = np.random.normal(scale=1 / n_features ** .5,
                                        size=(n_features, n_hidden))
weights_hidden_output = np.random.normal(scale=1 / n_features ** .5,
                                         size=n_hidden)

for e in range(epochs):
    del_w_input_hidden = np.zeros(weights_input_hidden.shape)
    del_w_hidden_output = np.zeros(weights_hidden_output.shape)
    for x, y in zip(features.values, targets):
        ## Forward pass ##
        # TODO: Calculate the output
        hidden_input = np.dot(x, weights_input_hidden)
        hidden_output = sigmoid(hidden_input)

        output = sigmoid(np.dot(hidden_output,
                                weights_hidden_output))

        ## Backward pass ##
        # TODO: Calculate the network's prediction error
        error = y - output

        # TODO: Calculate error term for the output unit
        output_error_term = error * output * (1 - output)

        ## propagate errors to hidden layer

        # TODO: Calculate the hidden layer's contribution to the error
        hidden_error = np.dot(output_error_term, weights_hidden_output)

        # TODO: Calculate the error term for the hidden layer
        hidden_error_term = hidden_error * hidden_output * (1 - hidden_output)

        # TODO: Update the change in weights
        del_w_hidden_output += output_error_term * hidden_output
        del_w_input_hidden += hidden_error_term * x[:, None]

    # TODO: Update weights
    weights_input_hidden += learnrate * del_w_input_hidden / n_records
    weights_hidden_output += learnrate * del_w_hidden_output / n_records

    # Printing out the mean square error on the training set
    if e % (epochs / 10) == 0:
        hidden_output = sigmoid(np.dot(x, weights_input_hidden))
        out = sigmoid(np.dot(hidden_output,
                             weights_hidden_output))
        loss = np.mean((out - targets) ** 2)

        if last_loss and last_loss < loss:
            print("Train loss: ", loss, "  WARNING - Loss Increasing")
        else:
            print("Train loss: ", loss)
        last_loss = loss

# Calculate accuracy on test data
hidden = sigmoid(np.dot(features_test, weights_input_hidden))
out = sigmoid(np.dot(hidden, weights_hidden_output))
predictions = out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))

三.訓練神經網路

1.正則化

1.傾向於獲得稀疏向量

J=−1m∑i

優達學城-深度學習筆記（一）

優達學城-深度學習筆記（一）標籤：機器學習優達學城-深度學習筆記一一神經網路簡介最大似然概率交叉熵Cross entropy

# 深度學習筆記（一）

從感知機到神經網路感知機中：作為神經網路的起源演算法，感知機有若干輸入，而只有一個輸出這裡以最簡單的一層感知機舉例： W1W2x1yx2 此時，x1對應的權重為W1,x2對應的權重為W2,而W1和W2權重的大小對應著x1與x2各自重要程度，而他們的乘積和共同

深度學習筆記（一）：影象理解的三個層次

deep learning 簡稱DL,小編剛接觸計算機視覺利用深度學習進行影象處理，先普及一下對影象進行處理的三個層次。一是分類（classification）即是將影象結構化為某一類別的資訊，用事先確定好的類別（string）或例項ID來描述圖片。其中ImageNe

吳恩達深度學習筆記（七） —— Batch Normalization

學習 bat 中括號和平一個內容 batch 可能加權主要內容：一.Batch Norm簡介二.歸一化網絡的激活函數三.Batch Norm擬合進神經網絡四.測試時的Batch Norm 一.Batch Norm簡介 1.在機器學習中，我們一般

吳恩達深度學習筆記（八） —— ResNets殘差網絡

con 一個學習 ets str 帶來圖片梯度就是（好累……，明日在寫……）主要內容：一.殘差網絡簡介二.identity block 和 convolutional block 一.殘差網絡簡介 1.深度神經網絡很大的一個優點就是能夠表示一個

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類，考慮到它們的使用效果，有些使用起來恰到好處，但事實表明，到目前幾乎所有由神經網路創造的經濟價值，本質上都離不開一種叫做監督學習的機器學習類別，讓我們舉例看看。

吳恩達深度學習筆記（4）-為什麼深度學習會興起？

為什麼深度學習會興起？(Why is Deep Learning taking off?) 本節視訊主要講了推動深度學習變得如此熱門的主要因素。包括資料規模、計算量及演算法的創新。(3個重點概念！請背書！）深度學習和神經網路之前的基礎技術理念已經存在大概幾十年了，為什麼它們現在才突

吳恩達深度學習筆記（9）-導數的簡單推導介紹

導數（Derivatives）這個筆記我主要是想幫你獲得對微積分和導數直觀的理解。或許你認為自從大學畢以後你再也沒有接觸微積分。為了高效應用神經網路和深度學習，你並不需要非常深入理解微積分（這個哦，並不需要深入瞭解）。因此如果你觀看這個視訊或者以後的視訊時心想：“哇哦，這些知

吳恩達深度學習筆記（7）--邏輯迴歸的代價函式（Cost Function）

邏輯迴歸的代價函式（Logistic Regression Cost Function）在上一篇文章中，我們講了邏輯迴歸模型，這裡，我們講邏輯迴歸的代價函式（也翻譯作成本函式）。吳恩達讓我轉達大家：這一篇有很多公式，做好準備，睜大眼睛！代價函式很重要！為什麼需要代價函式：為

吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

梯度下降法（Gradient Descent）（重點）梯度下降法可以做什麼？在你測試集上，通過最小化代價函式（成本函式） J(w,b) 來訓練的引數w和b ，如圖，在第二行給出和之前一樣的邏輯迴歸演算法的代價函式（成本函式）(上一篇文章已講過）梯度下降法的形象化

吳恩達深度學習筆記（2）-什麼是神經網路（Neural Network）

什麼是神經網路？(What is a Neural Network) 我們常常用深度學習這個術語來指訓練神經網路的過程。有時它指的是特別大規模的神經網路訓練。那麼神經網路究竟是什麼呢？在這個視訊中，會講解一些直觀的基礎知識。首先，讓我們從一個房價預測的例子開

吳恩達【深度學習工程師】學習筆記（一）

吳恩達【深度學習工程師】專項課程包含以下五門課程： 1、神經網路和深度學習； 2、改善深層神經網路：超引數除錯、正則化以及優化； 3、結構化機器學習專案； 4、卷積神經網路； 5、序列模型。今天介紹《神經網路與深度學習》系列第一講：深度學習概述。主要內容：

《從零開始學Swift》學習筆記（Day67）——Cocoa Touch設計模式及應用之MVC模式

table control sdn rate term targe rac uitabbar bsp 原創文章，歡迎轉載。轉載請註明：關東升的博客 MVC（Model-View-Controller，模型-視圖-控制器）模式是相當古老的設計模式之中的一個，它最早出如今

《從零開始學Swift》學習筆記（Day60）——Core Foundation框架

類型轉換字符 sso grid blog spa www water 轉載創文章，歡迎轉載。轉載請註明：關東升的博客 Core Foundation框架是蘋果公司提供一套概念來源於Foundation框架，編程接口面向C語言風格的API。盡管在Swift中調用這樣

深度學習筆記（九）感受野計算

lds 時有輸入計算 ret name %d have imsi 1 感受野的概念　　在卷積神經網絡中，感受野的定義是卷積神經網絡每一層輸出的特征圖（feature map）上的像素點在原始圖像上映射的區域大小。一般感受野大小是目標大小的兩倍左右最合適！　　　　

深度學習筆記（03）- 啟動器

可能啟動 ima 應用無法導航程序 png 啟動器 ??啟動器，你一定不要錯過，因為你也無法錯過。對於一個小白來說，啟動器即陌生又熟悉，因為windows叫開始菜單。當你聽到開始菜單，基本上這一節不用學習了，如果你接觸過電腦一定不會陌生。不過老陌還是要整理一下筆記，

深度學習學習筆記（一）：logistic regression與Gradient descent 2018.9.16

寫在開頭：這是本人學習吳恩達在網易雲課堂上的深度學習系列課程的學習筆記，僅供參考，歡迎交流學習！一，先介紹了logistic regression，邏輯迴歸就是根據輸入預測一個值，這個值可能是0或者1,其影象是一條s形曲線，由預測值與真實值的差距計算出loss function損失函式和cos

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

1.神經網路概覽神經網路的結構與邏輯迴歸類似，只是神經網路的層數比邏輯迴歸多一層，多出來的中間那層稱為隱藏層或中間層。從計算上來說，神經網路的正向傳播和反向傳播過程只是比邏輯迴歸多了一次重複的計算。正向傳播過程分成兩層，第一層是輸入層到隱藏層，用上標[1]來表示；第二層是隱藏層到輸出層，用上標

吳恩達機器學習筆記（一），含作業及附加題答案連結

吳恩達機器學習筆記（一）標籤（空格分隔）：機器學習吳恩達機器學習筆記一一機器學習簡介機器學習的定義監督學習非監督學習

吳恩達機器學習公開課學習筆記（一）

吳恩達機器學習公開課學習筆記（一）一些規範表達形式線性迴歸／單變數線性迴歸代價函式公開課連結： https://study.163.com/course/courseLearn.htm?courseId=1004570029#/lea

優達學城-深度學習筆記（一）

優達學城-深度學習筆記（一）

一. 神經網路簡介

1.最大似然概率

2.交叉熵（Cross entropy）

2.1交叉熵程式碼實現

2.2多類別交叉熵

3.對數機率迴歸的誤差函式（cost function）

4.梯度下降程式碼

5.神經網路

5.2 反向傳播

二.梯度下降的神經網路

1.梯度下降程式碼實現

2.反向傳播示例

3.反向傳播程式碼實現

三.訓練神經網路

1.正則化

相關推薦