蒸餾神經網路(Distill the Knowledge in a Neural Network)

阿新 • • 發佈：2019-01-26

本文是閱讀Hinton 大神在2014年NIPS上一篇論文：蒸餾神經網路的筆記，特此說明。此文讀起來很抽象，大篇的論述，鮮有公式和圖表。但是鑑於和我的研究方向：神經網路的壓縮十分相關，因此決定花氣力好好理解一下。

1、Introduction

文章開篇用一個比喻來引入網路蒸餾：

昆蟲作為幼蟲時擅於從環境中汲取能量，但是成長為成蟲後確是擅於其他方面，比如遷徙和繁殖等。

同理神經網路訓練階段從大量資料中獲取網路模型，訓練階段可以利用大量的計算資源且不需要實時響應。然而到達使用階段，神經網路需要面臨更加嚴格的要求包括計算資源限制，計算速度要求等等。

由昆蟲的例子我們可以這樣理解神經網路：一個複雜的網路結構模型是若干個單獨模型組成的集合，或者是一些很強的約束條件下（比如dropout率很高）訓練得到的一個很大的網路模型。一旦複雜網路模型訓練完成，我們便可以用另一種訓練方法：“蒸餾”，把我們需要配置在應用端的縮小模型從複雜模型中提取出來。

“蒸餾”的難點在於如何縮減網路結構但是把網路中的知識保留下來。知識就是一幅將輸入向量導引至輸出向量的地圖。做複雜網路的訓練時，目標是將正確答案的概率最大化，但這引入了一個副作用：這種網路為所有錯誤答案分配了概率，即使這些概率非常小。

我們將複雜模型轉化為小模型時需要注意保留模型的泛化能力，一種方法是利用由複雜模型產生的分類概率作為“軟目標”來訓練小模型。在轉化階段，我們可以用同樣的訓練集或者是另外的“轉化”訓練集。當複雜模型是由簡單模型複合而成時，我們可以用各自的概率分佈的代數或者幾何平均數作為“軟目標”。當“軟目標的”熵值較高時，相對“硬目標”，它每次訓練可以提供更多的資訊和更小的梯度方差，因此小模型可以用更少的資料和更高的學習率進行訓練。

像MNIST這種任務，複雜模型可以給出很完美的結果，大部分資訊分佈在小概率的軟目標中。比如一張2的圖片被認為是3的概率為0.000001，被認為是7的概率是0.000000001。Caruana用logits（softmax層的輸入）而不是softmax層的輸出作為“軟目標”。他們目標是是的複雜模型和小模型分別得到的logits的平方差最小。而我們的“蒸餾法”：第一步，提升softmax表示式中的調節引數T，使得複雜模型產生一個合適的“軟目標” 第二步，採用同樣的T來訓練小模型，使得它產生相匹配的“軟目標”

“轉化”訓練集可以由未打標籤的資料組成，也可以用原訓練集。我們發現使用原訓練集效果很好，特別是我們在目標函式中加了一項之後。這一項的目的是是的小模型在預測實際目標的同時儘量匹配“軟目標”。要注意的是，小模型並不能完全無誤的匹配“軟目標”，而正確結果的犯錯方向是有幫助的。

2、Distillation

softmax層的公式如下：

，

T就是調節引數，一般設為1。T越大，分類的概率分佈越“軟”

“蒸餾”最簡單的形式就是：以從複雜模型得到的“軟目標”為目標（這時T比較大），用“轉化”訓練集訓練小模型。訓練小模型時T不變仍然較大，訓練完之後T改為1。

當“轉化”訓練集中部分或者所有資料都有標籤時，這種方式可以通過一起訓練模型使得模型得到正確的標籤來大大提升效果。一種實現方法是用正確標籤來修正“軟目標”，但是我們發現一種更好的方法是：對兩個目標函式設定權重係數。第一個目標函式是“軟目標”的交叉熵，這個交叉熵用開始的那個比較大的T來計算。第二個目標函式是正確標籤的交叉熵，這個交叉熵用小模型softmax層的logits來計算且T等於1。我們發現當第二個目標函式權重較低時可以得到最好的結果

3、Preliminary experiments on MNIST

我的理解：將遷移資料集中的3或者7、8去掉是為了證明小模型也能夠從soft target中學得知識。

4、Experiments on Speech Recognition

5、Training ensembles of specialists on very big datasets

蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記

轉蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記 2017年08月06日 16:19:48 haoji00

蒸餾神經網路(Distill the Knowledge in a Neural Network)

本文是閱讀Hinton 大神在2014年NIPS上一篇論文：蒸餾神經網路的筆記，特此說明。此文讀起來很抽象，大篇的論述，鮮有公式和圖表。但是鑑於和我的研究方向：神經網路的壓縮十分相關，因此決定花氣力好好理解一下。 1、Introduction 文章開篇用一個比喻來引

在神經網路中提取知識 [Distilling the Knowledge in a Neural Network]

論文題目：Distilling the Knowledge in a Neural Network 思想總結：深度神經網路對資訊的提取有著很強的能力，可以從大量的資料中學習到有用的知識，比如學習如何將手寫數字圖片進行0~9的分類。層數越多（越深），神經單元個數越多的網路，可以在大

知識蒸餾（Distillation）相關論文閱讀（1）——Distilling the Knowledge in a Neural Network（以及程式碼復現）

———————————————————————————————《Distilling the Knowledge in a Neural Network》Geoffrey Hintion以往為了提高模型表現所採取的方法是對同一個資料集訓練出多個模型，再對預測結果進行平均；但通

1503.02531-Distilling the Knowledge in a Neural Network.md

gets 任務其中不一致 ans softmax special abi use 原來交叉熵還有一個tempature，這個tempature有如下的定義： $$ q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}} $$ 其中T就是temp

神經網路視覺化（Visualization of Neural Network ）

神經網路視覺化和可解釋性（Visualization and Explanation of Neural Network ）相對於傳統的ML模型，Deep NN由於其自身所特有的多層非線性的結構而導致難以對其工作原理進行透徹的理解。比如，我們很難理解網路將一個

【乾貨】卷積神經網路Alex-Net、VGG-Nets、Network-In-Network案例分析

目錄 Alex-Net 網路模型 VGG-Nets 網路模型 Network-In-Network 本文將以 Alex-Net、VGG-Nets、Network-In-Network 為例，分析幾類經典的卷積神經網路案例。在此請讀者注意，此處的分析比較並不是不同網路模型精度

[PWA] Access the Camera in a PWA built with React

It's possible to access some, but not all, of the native device features from a PWA. One that we canaccess, is the camera and camera roll. We'll use t

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM） RNN處理時間序列資料的時候，不僅可以正序，也可以正序+逆序（雙向）。下面顯示的RNN模型，不僅僅是simple RNN，可以是LSTM，或者GRU 1 B

讀書筆記26：adding attentiveness to the neurons in recurrent neural networks

摘要首先介紹RNN可以模擬複雜的序列資訊的temporal dynamics，但是當前的RNN神經元的結構主要是控制當前資訊和歷史資訊的貢獻，但是沒有考慮探索input vector中不同元素的重要性（這個指的是某一個時刻的vector的不同dimension的重要性），

Let’s code a Neural Network in plain NumPy

Let’s code a Neural Network in plain NumPyMysteries of Neural Networks Part IIIUsing high-level frameworks like Keras, TensorFlow or PyTorch allows us to b

Let's code a Neural Network in plain NumPy

Using high-level frameworks like Keras, TensorFlow or PyTorch allows us to build very complex models quickly. However, it is worth taking the time to look

為什麼深度神經網路難以訓練Why are deep neural networks hard to train?

Imagine you're an engineer who has been asked to design a computer from scratch. One day you're working away in your office, designing

計算機視覺學習記錄 - Implementing a Neural Network from Scratch - An Introduction

dict 實踐 {} ann gen lua tps rst 損失函數 0 - 學習目標　　我們將實現一個簡單的3層神經網絡，我們不會仔細推到所需要的數學公式，但我們會給出我們這樣做的直觀解釋。註意，此次代碼並不能達到非常好的效果，可以自己進一步調整或者完成課後練習來進行

week2_Part1&2_LR with a Neural Network mindset_yhd

目前的學習心得： 1、每週的視訊課程看一到兩遍 2、做筆記 3、做每週的作業練習，這個裡面的含金量非常高。掌握後一定要自己敲一遍，這樣以後用起來才能得心應手。有需要全套作業練習notebook及全套資料的可以留言或者加我微信yuhaidong112 二分類

1.2 Logistic Regression with a Neural Network mindset

關於為何開始在部落格上做筆記，一是為了強迫自己多進行總結，不能學過，就放過，得過且過；二是為了鍛鍊自己的文筆，好讓自己以後在寫論文的時候不至於寫出語法不暢的糟糕文章。這一專欄主要是記錄我在做作業過程中的一些感想，或者是總結。希望通過藉助部落格的形式，能讓我不斷地掃清知識點

Poker rule induction by a neural network

My first ML project is a neural network that would say Hello to everyone coming to our office and make coffee in the mornings. Though since I havenâ€™t don

DL4J: How to create a neural network that draws images

Neural networks, machine learning, artificial intelligence – I get the impression that these slogans attack us from everywhere. They are mainly associated

Model can more naturally detect depression in conversations: Neural network learns speech patterns that predict depression in cl

In recent years, machine learning has been championed as a useful aid for diagnostics. Machine-learning models, for instance, have been developed that can

吳恩達deeplearning作業-Logistic Regression with a Neural Network

Logistic Regression with a Neural Network作業需要用到的資料資料 Logistic Regression with a Neural Network mindset Welcome to your first (r

蒸餾神經網路(Distill the Knowledge in a Neural Network)

相關推薦