1. 程式人生 > >[deep learning] 最近看過的部分論文

[deep learning] 最近看過的部分論文

託deep learning的福,這個自學之餘的簡單總結一直是我豆瓣上瀏覽和推薦數最多的日誌,在這裡感謝大家的肯定。然而,deep learning是一個高速發展的領域,自那時起已經更新了許多(錯誤的)認識,以下內容某種意義上早已過時了。
很遺憾,我脫離deep learning的學習和研究已經整整兩年了,所以對它最新的發展只是略知皮毛。有志於學習和應用deep learning的豆友,不妨參考最近兩年的ICML和NIPS會議的相關論文,以及一個以deep learning為中心的新的國際會議International Conference on Learning Representations (ICLR);入門材料不妨參考這些會議上有關deep learning的tutorial video/slides,或者近年
Machine Learning Summer School
的相關內容。

希望以上資訊對你有所幫助,祝學習順利 :-)
======================================================
A Fast Learning Algorithm for Deep Belief Nets (2006)
- 首次提出layerwise greedy pretraining的方法,開創deep learning方向。layerwise pretraining的Restricted Boltzmann Machine (RBM)堆疊起來構成Deep Belief Network (DBN),其中訓練最高層的RBM時加入了label。之後對整個DBN進行fine-tuning。在MNIST資料集上測試沒有嚴重過擬合,得到了比Neural Network (NN)更低的test error。

Reducing the Dimensionality of Data with Neural Networks (2006)
- 提出deep autoencoder,作為資料降維方法發在Science上。Autoencoder是一類通過最小化函式集對訓練集資料的重構誤差,自適應地編解碼訓練資料的演算法。Deep autoencoder模型用Contrastive Divergence (CD)演算法逐層訓練重構輸入資料的RBM,堆疊在一起fine-tuning最小化重構誤差。作為非線性降維方法在影象和文字降維實驗中明顯優於傳統方法。

Learning Deep Architectures for AI (2009)
- Bengio關於deep learning的tutorial,從研究背景到RBM和CD再到數種deep learning演算法都有詳細介紹。還有豐富的reference。於是也有個缺點就是太長了。

A Practical Guide to Training Restricted Boltzmann Machines (2010)
- 如果想要自己實現deep learning演算法,這篇是不得不看的。我曾經試過自己寫但是效果很不好,後來看到它才知道演算法實現中還有很多重要的細節。對照網上的程式碼看也能更好地理解程式碼。

Greedy Layer-Wise Training of Deep Networks (2007)
- 對DBN的一些擴充套件,比如應用於實值輸入等。根據實驗提出了對deep learning的performance的一種解釋。

Why Does Unsupervised Pre-training Help Deep Learning? (2010)
- 總結了對deep learning的pretraining作用的兩種解釋:regularization和help optimization。設計實驗驗證兩種因素的作用。

Autoencoders, Unsupervised Learning, and Deep Architectures (2011)
- 從理論角度對不同的Autoencoders作了統一分析的嘗試。

On the Quantitative Analysis of Deep Belief Networks (2008)
- 用annealed importance sampling (AIS)給出一種估計RBM的partition function的方法,從而能夠估算p(x)以及比較不同的DBN。

Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient (2008)
- 提出用persistent contrastive divergence (PCD)演算法逼近maximum likelihood estimation的目標,從而可以得到更好的generative model。傳統CD演算法並不是以最大化p(x)為目標的,另有paper證明CD演算法不對應任何優化目標函式。