機器學習總結（十一）：深度學習演算法（CNN,SAE,等）及常見問題總結

阿新 • • 發佈：2019-02-14

（1）CNN

層級結構：輸入層->卷積層->激勵層->卷積層->激勵層。。。

資料輸入層（資料預處理）：三種方法：去均值（即0均值化，CNN常用，訓練集所有畫素值減去均值，把輸入資料各個維度中心化到0，測試集也減相同的均值）；歸一化（幅度歸一化到同樣的範圍）；PCA/白化（降維，白化是對資料每個特徵軸上的幅度歸一化）。

去均值的目的：（1）資料有過大的均值可能導致引數的梯度過大，在梯度回傳時會有一些影響；（2）如果有後續的處理，可能要求資料0均值，比如PCA。

歸一化的目的：為了讓不同維度的資料具有相同的分佈規模，方便操作，影象一般不需要。

白化的目的：相當於在零均值化和歸一化操作之間插入一個旋轉操作，將資料投影在主軸上。影象一般不需要，因為影象的資訊本來就是依靠畫素之間的相對差異來體現的。

引數初始化：隨機初始化，給每個引數隨機賦予一個接近0的值（不可0初始化）。

卷積計算層/CONV layer:引數共享機制。(跟過濾好像)；作用：提取特徵，通過BP誤差的傳播，可以得到對於這個任務最好的卷積核。

激勵層（把卷積層輸出結果做非線性對映）：

Sigmoid，tanh，ReLU

Leaky ReLU:f(x)=max(0.01x,x)，Maxout。

池化層/Pooling layer：夾在連續的卷積層中間。作用：1.具有壓縮資料和引數的量，減小過擬合的作用。包括Max pooling 和average pooling；2.引入不變性，包括平移、旋轉、尺度不變性。

全連線層/FC layer：通常在卷積神經網路尾部

訓練演算法：

（1）     先定義Loss function，衡量和實際結果之間的差距；交叉熵

（2）     找到最小化損失函式的w和b，CNN中用的演算法是隨機梯度下降SGD；

（3）     BP演算法利用鏈式求導法則，逐級相乘直到求解出dW和db.

為什麼用SGD：（1）資料量龐大，直接梯度很慢；（2）代價函式非凸，容易陷入區域性極值。

CNN為什麼這麼好用？區域性連接獲得區域性資訊，權值共享減少了引數，保證高效。

與DNN的區別？全連線DNN上下層神經元都形成連結，帶來引數數量的膨脹，而卷積核在所有影象是共享的。

RNN的特點？DNN無法對時間序列上的變化進行建模，RNN中，神經元的輸出可以在下一個時間戳直接作用到自身。

RNN的梯度消失？原理和DNN一樣，採用長短時記憶單元LSTM，通過門的開關實現時間上的幾億功能，門關閉，當前資訊不需要，只有歷史依賴；門開啟，歷史和當前加權平均。

（2）AutoEncoder自動編碼器

基本思想：一種儘可能復現輸入訊號的神經網路。由編碼器Encoder和解碼器Decoder兩部分組成，本質上都是對輸入訊號做某種變換。學習處理x→h→x的能力。

兩種情況：假設資料維度為n,隱層維度為p。

1.n>p,相當於一種降維操作。與PCA的關係：當每兩層之間的變換均為線性，且監督訓練的誤差是二次型誤差時，該網路等價於PCA！

2.n<p,同時約束好h的表達儘量稀疏（有大量維度為0，未被啟用），此時就為“稀疏自編碼器”。為什麼稀疏的表達就是好的？稀疏的表達意味著系統在嘗試取特徵選擇，找出大量維度中真正重要的若干維。

堆疊自編碼器訓練過程：1.逐層訓練：先訓練網路n→m→n，得到n→m的變換，然後在訓練m→k→m,得到m→k的變換，最終堆疊成SAE，即為n→m→k的結果。2.微調：可以只調整分類層的引數（此時相當於把整個SAE當作一個特徵提取），也可以調整整個網路的引數（適合訓練資料量較大的情況）。

稀疏自編碼器訓練過程：核心思想：高維而稀疏的表達是好的。1.指定一個稀疏性引數p，代表隱藏神經元的平均活躍程度（在訓練集上取平均）；2.引入一個度量，來衡量神經元的實際啟用度與期望啟用度p之間的差異即可，然後把此度量新增到目標函式作為正則（相對熵，也就是KL散度，交叉熵），訓練整個網路。

降噪自編碼器訓練過程：核心思想：一個能夠從中恢復原始訊號的表達未必是最好的，能夠對“被汙染/破壞”的原始資料編碼解碼，然後還能恢復真正的原始資料，這樣的特徵才是好的，關注的是魯棒性。訓練過程：1.在原始資料中加入噪聲或部分資料缺失；2.計算誤差時用原始完好資料。

（3）調參優化方法

1.訓練資料預處理：移除不良資料（噪聲，空值等），去均值等。自動編碼器要對資料進行歸一化，因為啟用函式如果sigmoid的話要用輸出0~1與輸出比較；

2.權值初始化（很重要，初始化好的話可以不需要調參）：多次隨機生成初始化，但不能全為0，根據目前最新的實驗結果，權重的均勻初始化是一個不錯的選擇。高斯分佈。

3.學習率的選取：一般從0.1開始，逐漸減小，如果在驗證集上效能不再增加就讓學習率除以2或者5，然後繼續。所以要使用驗證集，可以知道什麼時候開始降低學習率，什麼時候停止訓練。

4.網路結構的構建（逐層訓練）：a.儘量選擇更多的隱層單元和隱層數量，因為可以通過正則化的方法避免過擬合;b.合適的啟用函式；c.正則優化：正則項L1,L2,Dropout,初始預設的是0.5，如果模型不是很複雜，可以設定為0.2.

5.Batchnormalization：大大加快訓練速度和模型效能。本質原理就是在網路的每一層輸入的時候，又插入了一個可學習，有引數的歸一化層，並且為每一層的神經元引入了變換重構，可以恢復出原始網路所學習的特徵分佈。在神經網路訓練時遇到收斂速度慢或爆炸時可以嘗試BN解決。

6.優化方法：不僅有BP，還有adagrad優化方法，Bp學習速率都一樣，但是同一個更新速率並不一定適合所有引數，因此ada就是對於每個引數分配不同的學習率，但是隨著更新距離的增多，學習速率也會變慢。

（4）神經網路歸一化的目的

神經網路學習過程的本質就是為了學習資料分佈，一旦訓練資料與測試資料的分佈不同，那麼網路的泛化能力也大大降低；另一方面，一旦每批訓練資料的分佈各不相同，那麼網路就要在每次迭代都去學習適應不同的分佈，這樣會大大降低網路的訓練速度。

（5）深度學習如何過擬合？

資料集擴充：在源資料上做些改動，比如說圖片資料集，可以將原始圖片旋轉一個小角度、新增隨機噪聲、加入一些有彈性的畸變、擷取原始圖片的一小部分等；

Dropout：相當於訓練了很多個只有半數隱層單元的神經網路，每一個這樣的半數網路都可以給出一個分類結果，這些結果有的是正確的，有的是錯誤的，隨著訓練的進行，大部分網路都可以給出正確的分類結果，少數的錯誤不會造成太大影響。

正則化！！

機器學習總結（十一）：深度學習演算法（CNN,SAE,等）及常見問題總結

（1）CNN 層級結構：輸入層->卷積層->激勵層->卷積層->激勵層。。。資料輸入層（資料預處理）：三種方法：去均值（即0均值化，CNN常用，訓練集所有畫素值減去均值，把

第十一篇：一點一滴學ibatis（一）

一、常見ORM框架1、原生的JDBC。自己寫的JDBC，基本上就只夠程式跑起來，缺陷和漏洞一堆堆。回顧下jdbc的幾個操作，載入驅動，建立連線，預處理語句，執行，結果集遍歷。這個過程中，因為連線Connection要不斷關閉和開啟，頻繁操作，於是有了連線池ConnectionPool。預處理語句的sql要重複

演算法導論第十一章：散列表筆記（直接定址表、散列表、通過連結法解決碰撞、雜湊函式、開放定址法、完全雜湊）

前面討論的各種資料結構中，記錄在各種結構中的相對位置是隨機的，和在記錄的關鍵字之間不存在有確定的關係，因此在查詢記錄是需要進行一系列和關鍵字的比較。而理想的情況是不希望進行任何的比較，一次存取便能得到所查記錄。那就必須在記錄的儲存位置和它的關鍵字之間建立一種確定的關係f，使每個關鍵字和結構中有一

【譯】你不知道的 Chrome 除錯工具技巧第十一天：style editors continued（樣式編輯器後續）

特別宣告本文是作者 Tomek Sułkowski 釋出在 medium 上的一個系列。據作者透露一共有 24 篇，一直更新到 12 月 24 日版權歸原作者所有。作者在Twitter上推薦我們的中文翻譯啦,截圖在最後譯者在翻譯前已經和作者溝通得到了翻譯整個系列的許可。為了不影響大家閱讀，許可

工具教程第三十一講：電報的使用（二）

這裡是王團長區塊鏈學院，與最優秀的區塊鏈人一起成長！今天給大家講講電報Telegram的使用。第三步、註冊使用Telegram 1、點開telegram，點選開始 2、在選擇國家處選擇中國China，填寫手機號碼，最後點“√”進入下一步

機器學習——聚類（clustering）：K-means演算法（非監督學習）

1、歸類聚類（clustering）：屬於非監督學習（unsupervised learning）,是無類別標記（class label） 2、舉例 3、K-means演算法（1）K-means演算法是聚類（clustering）中的經典演算法，資料探勘的十大經典演算

機器學習回顧篇（7）：決策樹演算法（ID3、C4.5）

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案。 1 演算法概述¶

python學習第七十一天：django2與1的差別和視圖

端口 ddd put res 127.0.0.1 正則 pass 什麽服務 django1與2路由的差別在django1中的url在django2中為re_path django2中新增了path 1.from django.urls import path

TensorFlow系列專題（三）：深度學習簡介

一.深度學習的發展歷程深度學習的起源階段深度學習的發展階段深度學習的爆發階段二.深度學習的應用自然語言處理語音識別與合成影象領域三．參考文獻一.深度學習的發展歷程作為機器學習

揭祕人工智慧（系列）：深度學習是否過分誇大？

2012年左右，多倫多大學的研究人員首次使用深度學習來贏下了ImageNet，它是一項非常受歡迎的計算機影象識別競賽。對於那些參與AI行業的人來說，這是一個大問題，因為計算機視覺是使計算機能夠理解影象背景的學科，也是人工智慧中最具挑戰性的領域之一。當然，與任何其他產生巨大影響的技術一樣，深度學習成為

強化學習系列（六）：時間差分演算法（Temporal-Difference Learning)

一、前言在強化學習系列（五）：蒙特卡羅方法（Monte Carlo)中，我們提到了求解環境模型未知MDP的方法——Monte Carlo，但該方法是每個episode 更新一次（episode-by-episode)。本章介紹一種單步更新的求解環境模型未知M

Deep Learning with Python 系列筆記（六）：深度學習實踐進階

Keras functional API keras中常用的Sequential 模型，通常假設網路只有一個輸入和一個輸出，並且這些網路層之間是一種線性的堆疊。如下：事實上，這種結構太過普通，我們需要把許多內容和實際操作都通過一個Sequential模型實現

第十一週專案1-驗證演算法（2）二叉樹構造演算法的驗證

斯坦福AI實驗室又一力作：深度學習還能進一步擴充套件 | CVPR2016最佳學生論文詳解

結構遞迴神經網路: 時空領域影象中的深度學習聯合編譯：陳圳、章敏、Blake 摘要雖然相當適合用來進行序列建模，但深度遞迴神經網路體系結構缺乏直觀的高階時空架構。計算機視覺領域的許多問題都固有存在高階架構，所以我們思考從這方面進行提高。在解決現實世界中的高階直覺

吳恩達課程學習筆記--第一週第二課：深度學習的實踐層面

訓練，驗證，測試在機器學習的小資料時代，70%驗證集，30%測試集，或者60%訓練，20%驗證和20%測試。大資料時代，如果有百萬條資料，我們可以訓練集佔98%，驗證測試各佔1%。深度學習的一個趨勢是越來越多的訓練集和測試集分佈不匹配，根據經驗，我們要確保兩個資料集來自同一分佈。測

java基礎學習總結（十一）：自動裝箱和自動拆箱

自動拆箱和自動裝箱 Java為每種基本資料型別都提供了對應的包裝器型別。舉個例子： public class TestMain { public static void main(String[] args) { Integer i = 10; } }

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN？原因是：一個神經元無法看到整張圖片能夠聯絡到小的區域，並且引數更少圖片壓縮畫素不改變圖片內容 1. CNN 的特點卷積：一些卷積核遠遠小於圖片大小；同樣的pat

機器學習筆記（十一）： TensorFlow實戰三（MNIST數字識別問題）

1 - MNIST數字識別問題前面介紹了這樣用TensorFlow訓練一個神經網路模型和主要考慮的問題及解決這些問題的常用方法。下面我們用一個實際的問題來驗證之前的解決方法。我們使用的是MNIST手寫數字識別資料集。在很多深度學習教程中，這個資料集都會被當做一個案例。 1.1

機器學習筆記（二十一）：TensorFlow實戰十三（遷移學習）

1 - 引言越複雜的神經網路，需要的訓練集越大，ImageNet影象分類資料集有120萬標註圖片，所以才能將152層的ResNet的模型訓練到大約96.%的正確率。但是在真正的應用中，很難收集到如此多的標註資料。即使收集到也需要花費大量人力物力來標註。並且即使有了大量的資料集，要訓練一

機器學習與深度學習系列連載：第一部分機器學習（十一）決策樹2（Decision Tree）

決策樹2 決策樹很容易出現過擬合問題，針對過擬合問題，我們採用以下幾種方法劃分選擇 vs 剪枝剪枝 (pruning) 是決策樹對付“過擬合”的主要手段！基本策略：預剪枝 (pre-pruning): 提前終止某些分支的生長後剪枝 (post-pr

機器學習總結（十一）：深度學習演算法（CNN,SAE,等）及常見問題總結

相關推薦