深度學習面試題解（1-5）

阿新 • • 發佈：2019-01-19

開篇

今天面試了一下阿里高德，面試問題記錄一波，面試的時候問得還是超級細的，深度學習演算法和傳統的學習演算法都有問到，視訊面的時候我也是一塌糊塗，不過居然莫名其妙的過了。
1、梯度爆炸和梯度消失的問題，這裡面還順帶問了一下sigmoid函式梯度的最大值（0.25）
這部分我答的好像還不是很糟糕，放上我以前寫的部落格，作為大家的參考
https://blog.csdn.net/ding_xiaofei/article/details/81198850

2、BN（Batchnorm）
除了解決梯度消失和梯度爆炸還有那些優點
沒有它之前，需要小心的調整學習率和權重初始化，但是有了BN可以放心的使用大學習率，但是使用了BN，就不用小心的調參了，較大的學習率極大的提高了學習速度；
Batchnorm本身上也是一種正則的方式，可以代替其他正則方式如dropout等；
另外，個人認為，batchnorm降低了資料之間的絕對差異，有一個去相關的性質，更多的考慮相對差異性，因此在分類任務上具有更好的效果。（比賽中也經常使用到這個，保證分類的效果）

3、LSTM的結構
這個我是真的有點忘記了，這邊使用巨集毅大神的圖複習一下基本的LSTM概念。
具體的概念可以參考我的部落格
https://blog.csdn.net/ding_xiaofei/article/details/81214396
這邊主要說一下它的幾個門，門機制是LSTM的核心所在，首先是forget gate和input gate，都是sigmoid函式，決定了c要忘記什麼，要記住新來的什麼內容。output gate就是決定tanh（ct）裡面有什麼內容要輸出啦。輸出就是ht，ht會最終決定yt的輸出。

4、LSTM的引數個數，這個問題一上來就把我問懵了，本來lstm的結構我就記不太清了，猛得來一個這個問題
讓我們舉一個簡單的例子，先就計算一個cell裡面的引數個數，我們接受的xt是1000維的詞向量，我們的ht也是1000維的向量，這樣我們的輸入就是2000維，為了保證我們中間傳遞的維度也是1000維，我們的w應該是10002000維的，我們使用到引數的其實就是3個門和一個z，這裡是（1000

2000+1000）*4，後面加的1000代表的是引數b的個數。
詳細的解釋如下圖
在這裡插入圖片描述

來源於知乎
https://www.zhihu.com/question/263700757
經過這麼一折騰，我相信你應該無法忘記lstm的結構了。

5、說說GRU和LSTM的區別
GRU裡面只有兩個門，重置門rt和更新門zt
在這裡插入圖片描述

LSTM的結構是一定要會畫的，GRU最好也是要能會畫。

深度學習面試題解（1-5）

開篇

深度學習面試題解（1-5）

第五章（1.5）深度學習——卷積神經網路簡介

深度學習分割：（1）資料彙總

深度學習&PyTorch筆記（1）線性迴歸模型

深度學習實戰教程（1）--手機上跑目標檢測模型（YOLO，從DarkNet到Caffe再到NCNN完整打通）

學習Linux-4.12核心網路協議棧（1.5）——協議棧的初始化(inet_init主要資料結構)

吳恩達Coursera深度學習課程筆記（1-1）神經網路和深度學習-深度學習概論

深度學習——入門筆記（1）

hadoop學習（六）WordCount示例深度學習MapReduce過程（1）

吳裕雄 python深度學習與實踐（1）

spring-oauth-server實踐（1-5）為客戶mobile-client開通授權碼模式申請access_token，並使用access_token訪問需要鑒權的業務

GITHUB（1.5）GitHub提供的主要功能

Win10深度學習環境配置（上篇）：python3 + curl + pip + Jupyter notebook

基於深度學習的VQA（視覺問答）技術

使用安卓手機開發深度學習簡易教程（Python3+Keras）

github上值得關注的機器學習深度學習大牛（持續更新）

深度學習基礎系列（十一）| Keras中影象增強技術詳解

靜態匯入（1.5）

圖文筆記，帶你走進《未來簡史》（1-5）

吳恩達深度學習程式設計作業（4-4）- Face Recognition for the Happy House & Art: Neural Style Transfer

深度學習面試題解（1-5）

開篇

相關推薦