2018/12/14 Deep Neural Network Training(1)

阿新 • • 發佈：2018-12-24

Loss Function and Optimization

損失函式
如何優化

線性分類器
損失函式是量化的評估線性分類器的標準。損失函式是優化的目標。
損失函式的定義：
當初始化W很小的時候，S–>0,此時L–>c-1（其中c代表類的個數）
線性代數
有限字長
當我們在訓練集上訓練出來的分類器訓練的很好的時候，這時候會出現一個過擬合效應，原因是我們的訓練集並沒有很好的表現現實中的狀況。接下來就需要避免過擬合問題。

加入約束項（懲罰函式）
lambda 屬於一個超引數。
奧卡姆剃刀
複雜性帶來的多樣式是一些系統適應環境的一種方式，比如人、人類社會

SoftMax 分類器：評分–>概率問題
這個score有了一個資訊學意義，即概率分佈
一個單樣本問題轉化為
整合起來如何找到最好的W？

最優化方法

隨機搜尋（random search），就是暴力搜尋
超級非凸不一定是不連續的–>2
梯度下降
超引數 step-size 步長
隨機梯度下降
為了縮減計算量，我們認為樣本空間足夠的大，我們在其中隨機的抽取一個小的BATCH。N is a minibatch

BP

鏈式法則
upstream gradient & local gradient(這個是要會算的)
分支處的梯度可以直接加起來，因為其是線性的
雅克比

problem

KL散度的定義
accurate 是如何算出來的以及loss是如何算出來的？？？？
一些計算概念

訓練過程

一次性準備：啟用函式，資料預處理，權重初始化，正則化，梯度
訓練過程：引數更新，超引數（網路引數選項）
驗證評估：模型整合

啟用函式

all kinds of activation functions
sigmoid and tanh 有啥區別呢？？？？

sigmoid 很容易飽和，殺死梯度；只能往一個方向走（this is also why you want zero-mean data）;計算量稍大
數值

計算是一個很重要的問題
TANH
relu ：simple 但是存在無法更新的區域
leaky relu :keep properties ; Prelu；這兩個的表現很好
Elu :不會選
Maxout 計算量太大，不會選

資料預處理

preprocess the data
零均值（隨機取樣，一個很重要的思路；統計意義上，一幅影象的均值和很多張影象的均值相差不大）和歸一化為了更快地收斂
PCA and Whitening(影象一般不會再做了)

假定小的隨機數：值不停地在衰減，所以每一層衰減的很快。求和抵消不了指數衰減（？）。bp傳不回去
比較大的隨機數：產生震盪，所有的層都幾近飽和，所以梯度也會為0
xavier初始化(啟用函式是tanh)，每個數除以根號下N ,求方差，後面還會有平方項
用relu的話/根號下2n

batch normalization

訓練過程

double check that the loss is reasonable
learning rate 選擇要使loss減小
accurate 是如何算出來的以及loss是如何算出來的？？？
1e-3—1e-5之間學習率經驗值

random search vs. grid search

大量的依賴於經驗
update and values的比值約為0.01經驗值

掌握它的思路是發現新問題的一個重要因素

滿足自私的唯一的辦法就是利他

2018/12/14 Deep Neural Network Training(1)

Loss Function and Optimization 損失函式如何優化線性分類器損失函式是量化的評估線性分類器的標準。損失函式是優化的目標。損失函式的定義：當初始化W很小的時候，S–>0,此時L–>c-1（其中c代表類的個數）

DL-1: Tips for Training Deep Neural Network

Different approaches for different problems. e.g. dropout for good results on testing data. Choosing proper loss Square Error

吳恩達深度學習1-4課後作業1 Building your Deep Neural Network: Step by Step

2 - Outline of the Assignment To build your neural network, you will be implementing several "helper functions". These helper functions will be used i

Building your Deep Neural Network: Step by Step¶

pan auto plot chan arr src computing zeros rect Welcome to your week 4 assignment (part 1 of 2)! You have previously trained a 2-layer N

Deep Neural Network for Image Classification: Application

cal pack 分享圖片 his exp params next min super When you finish this, you will have finished the last programming assignment of Week 4, and a

A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition

機器學習屬於瓶頸特征 oid ack enter 變換表示基於貝葉斯的深度神經網絡自適應及其在魯棒自動語音識別中的應用直接貝葉斯DNN自適應使用高斯先驗對DNN進行MAP自適應為何貝葉斯在模型自適應中很有用？因為自適應問題可以視為後驗估計

1804.03235-Large scale distributed neural network training through online distillation.md

sin parameter rec before space sgd memory 同步 change 現有分布式模型訓練的模式分布式SGD 並行SGD：大規模訓練中，一次的最長時間取決於最慢的機器異步SGD：不同步的數據，有可能導致權重更新向著未知方向並行

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

每一個內核基於 proc vgg 包含 rep 重要偏差論文源址：https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要

01神經網路和深度學習-Deep Neural Network for Image Classification: Application-第四周程式設計作業2

一、兩層神經網路模型：LINEAR->RELU->LINEAR->SIGMOID #coding=utf-8 import time import numpy as np import h5py import matplotlib.pyplot as

2018.12.14 區塊鏈論文翻譯

A Survey on Blockchain Technology and Its Potential Applications in Distributed Control and Cooperative Robots (Hong Kong Polytechnic University) 區塊鏈技術及它

day177-2018-12-14-英語流利閱讀-待學習

艾滋病的治癒方法是否觸手可及？ Daniel 2018-12-14 1.今日導讀幾十年來，艾滋病一直是世界上最難對付的“超級絕症”之一，從人類歷史上第一次診斷出艾滋病病例的 20 世紀 80 年代早期到 2017 年，艾滋病奪走了全球大約 3500

2018/12/14日：兩數之和

（1）給出兩個非空的連結串列用來表示兩個非負的整數。其中，它們各自的位數是按照逆序的方式儲存的，並且它們的每個節點只能儲存一位數字。如果，我們將這兩個數相加起來，則會返回一個新的連結串列來表示它們的和。您可以假設除了數字 0 之外，這兩個數都不會以 0 開頭。示例：輸入：(2 ->

2018/12/14-DES解密

DES解密的話有時候指令碼會更方便些。需要下Crypto庫。指令碼中需注意的是，key要為8位元組，如果不夠的話用'\x00'填充，其他的根據指令碼容易理解和運用。 from Crypto.Cipher import DES import base64 key = '1234\x00\x00

001、寫在最前面（2018-12-14 星期五）

參考 https://www.cnblogs.com/CloudMan6/p/6693772.html 為什麼要寫這個？昨天和同事約定，一起系統的學習一下Docker。教程選定的是CloudM

2018-12-14全球區塊鏈今日熱點

全球區塊鏈熱點@2018-12-14 Yoav Vilner談區塊鏈：Yoav是連續創業導師和豐富經驗的區塊鏈顧問，在這篇文章中，他觀察到目前人們對區塊鏈的認識的誤區。沒有真正思考區塊鏈本質的人容易將區塊鏈與比特幣畫上等號，認為比特幣的低迷直接預示著區塊鏈的止步。但是，對於區塊鏈從業者，應

2018-2019賽季多校聯合新生訓練賽第五場(2018/12/14)補題題解

A 【字串】ISBN號碼（字串基礎）字串基礎題，注意一下x的特判即可程式碼 #include <bits/stdc++.h> using namespace std; int main() { ios::sync_with_stdio(0); cin.tie(0); cout

訓練日記 2018.12.14

哎，這幾天被樹形揹包搞懵了，一開始感覺沒學到啥，做一個題看一個題解，每個題單個來看都能看懂，但是遇到一個新題就不會了，而且你用上一個題的做法做，依舊不對，網上的題解有事五花八門，感覺還是每學透，有的時候二維的for需要到過來，有的時候就不用，不明白為什麼，不想

2018-12-14作業

2018-12-14作業 1、1、編寫一個程式，實現從命令列引數輸入兩個字串型別的數值，並計算輸出兩個數值的和。 int a = Integer.parseInt(args[0]); int b = Integer.parseInt(args[1]); int sum

2018/12/14.15.16作業

2018/12/14.15.16作業 1.編寫一個程式，實現從命令列引數輸入兩個字串型別的數值，並計算輸出兩個數值的和。 [必做題] Scanner s = new Scanner(System.in); String str = s.next(); String str2

2018.12.14 今日所學

關於函式的裝飾器 1 .裝飾器,(難點,重點) 開閉原則: 　　對功能的擴充套件開放　　對程式碼的修改是封閉通用裝飾器語法: def wrapper(fn): 　　def inner(*args,**kwargs): 　　　　在目標函式之前加功能　　

2018/12/14 Deep Neural Network Training(1)

Loss Function and Optimization

最優化方法

BP

problem

訓練過程

啟用函式

資料預處理

batch normalization

訓練過程

random search vs. grid search

相關推薦