深度學習為何要“deep”下

深層學習開啟了人工智慧的新時代。不論任何行業都害怕錯過這一時代浪潮，因而大批資金和人才爭相湧入。但深層學習卻以“黑箱”而聞名，不僅調參難，訓練難，“新型”網路結構的論文又如雨後春筍般地湧現，使得對所有結構的掌握變成了不現實。我們缺少一個對深層學習合理的認識。

神經網路並不缺少新結構，但缺少一個該領域的E=mc2

很多人在做神經網路的實驗時會發現調節某些方式和結構會產生意想不到的結果。但就我個人而言，這些發現並不會讓我感到滿足。我更關心這些新發現到底告訴我們了什麼，造成這些現象的背後原因是什麼。我會更想要將新的網路結構歸納到已有的體系當中。這也是我更多思考“為何深層學習有效”的原因。下面便是目前YJango關於這方面的見解。

深層神經網路相比一般的統計學習擁有從數學的嚴謹中不會得出的關於物理世界的先驗知識（非貝葉斯先驗）。該內容也在Bengio大神的論文和演講中多次強調。大神也在Bay Area Deep Learning School 2016的Founda’ons and Challenges of Deep Learning pdf（這裡也有視訊，需翻牆）中提到的distributed representations和compositionality兩點就是神經網路和深層神經網路高效的原因（若有時間，強烈建議看完演講再看該文）。雖然與大神的思考起點可能不同，但結論完全一致（看到Bengio大神的視訊時特別興奮）。下面就是結合例子分析：
1. 為什麼神經網路高效
2. 學習的本質是什麼
3. 為什麼深層神經網路比淺層神經網路更高效
4. 神經網路在什麼問題上不具備優勢

其他推薦讀物

Bengio Y. Learning deep architectures for AI[J]. Foundations and trends® in Machine Learning, 2009, 2(1): 1-127.
Brahma P P, Wu D, She Y. Why Deep Learning Works: A Manifold Disentanglement Perspective[J]. 2015.
Lin H W, Tegmark M. Why does deep and cheap learning work so well?[J]. arXiv preprint arXiv:1608.08225, 2016.

Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.

YJango的整個思考流程都圍繞減熵二字進行。之前在《熵與生命》和《生物學習》中討論過，生物要做的是降低環境的熵，將不確定狀態變為確定狀態。通常機器學習是優化損失函式，並用概率來衡量模型優劣。然而概率正是由於無法確定狀態才不得不用的衡量手段。生物真正想要的是沒有絲毫不確定性。

深層神經網路在自然問題上更具優勢，因為它和生物學習一樣，是找回使熵增加的“物理關係”（知識，並非完全一樣），將變體（2n）轉化回因素（n）附帶物理關係的形式，從源頭消除熵（假設每個因素只有兩種可能狀態）。這樣所有狀態間的關係可以被確定，要麼肯定發生，要麼絕不發生，也就無需用概率來衡量。因此下面定義的學習目標並非單純降低損失函式，而從確定關係的角度考慮。一個完美訓練好的模型就是兩個狀態空間內所有可能取值間的關係都被確定的模型。

學習目標：是確定（determine）兩個狀態空間內所有可能取值之間的關係，使得熵儘可能最低。

注：對熵不瞭解的朋友可以簡單記住，事件的狀態越確定，熵越小。如絕不發生（概率0）或肯定發生（概率為1）的事件熵小。而50%可能性事件的熵反而大。

為舉例說明，下面就一起考慮用神經網路學習以下兩個集合的不同關聯（OR gate和 XOR gate）。看看隨著網路結構和關聯的改變，會產生什麼不同情況。尤其是最後網路變深時與淺層神經網路的區別。

注：選擇這種XOR這種簡單關聯的初衷是輸入和輸出空間狀態的個數有限，易於分析變體個數和熵增的關係。

注：用“變體（variation）”是指同一類事物的不同形態，比如10張狗的圖片，雖然外貌各異，但都是狗。

問題描述：集合A有4個狀態，集合B有2個狀態。0和1只是用於表示不同狀態的符號，也可以用0,1,2,3表示。狀態也並不一定表示數字，可以表示任何物理意義。

A={00,01,10,11}

B={0,1}

方式1：記憶

隨機變數X：可能取值是 {00,01,10,11}
隨機變數Y：可能取值是 {0,1}

注：隨機變數（大寫X）是將事件投射到實數的函式。用對應的實數表示事件。而小寫字母x表示對應該實數的事件發生了，是一個具體例項。
網路結構：暫且不規定要學習的關聯是OR還是XOR，先建立一個沒有隱藏層，僅有一個輸入節點，一個輸出節點的神經網路。
表示式：y=M(x)=ϕ(w1⋅x+b)， ϕ表示sigmoid函式。
說明：下圖右側中的虛線表示的既不是神經網路的連結，也不是函式中的對映，而是兩個空間中，所有可能值之間的關係（relation）。學習的目的是確定這些狀態的關係。比如當輸入00時，模型要嘗試告訴我們00到1的概率為0，00到0的概率為1，這樣熵H(X)=−∑ipi(x)logpi(x)才會為零。
關係圖：左側是網路結構，右側是狀態關係圖。輸入和輸出空間之間共有8個關係(非箭頭虛線表示關係)。除非這8個關係對模型來說都是相同的，否則用wh1表示f:X→Y時的熵H(M(X),X)就會增加。（wh1無法照顧到8個關係，若完美擬合一個關係，其餘的關係就不準確）

注：這裡YJango是wh1用表示ϕ(wh1⋅x+b)的縮寫。
資料量：極端假設，若用查詢表來表示關係：需要用8個不同的(x,y)資料來記住想要擬合的f:X→Y。

方式2：手工特徵

特徵：空間A的4個狀態是由兩個0或1的狀態共同組成。我們可以觀察出來（計算機並不能），我們利用這種知識k()把A中的狀態分解開（disentangle）。分解成兩個獨立的子隨機變數H1={0,1}和H2={0,1}。也就是用二維向量表示輸入。
網路結構：由於分成了二維特徵，這次網路結構的輸入需改成兩個節點。下圖中的上半部分是，利用人工知識k()將隨機變數X無損轉變為H1和H2的共同表達（representation）。這時h1和h2一起形成網路輸入。

注：k()旁邊的黑線（實線表示確定關係）並非是真正的神經網路結構，只是方便理解，可以簡單想象成神經網路轉變的。
表示式：y=M(h)=ϕ(Wh⋅h+b)

注：方便起見，wh1⋅h1+wh2⋅h2寫成了矩陣的表達形式Wh⋅h，其中b是標量，而Wh=[wh1wh2]，h⃗ =[h1h2]
關係圖：由於k()固定，只考慮下半部分的關係。因為這時用了兩條線wh1和wh2來共同對應關係。原本需要擬合的8個關係，現在變成了4個（兩個節點平攤）。同樣，除非右圖的4條紅色關係線對wh1來說相同，並且4條綠色關係線對wh2來說也相同，否則用

相關推薦

深度學習為何要“deep”下

深層學習開啟了人工智慧的新時代。不論任何行業都害怕錯過這一時代浪潮，因而大批資金和人才爭相湧入。但深層學習卻以“黑箱”而聞名，不僅調參難，訓練難，“新型”網路結構的論文又如雨後春筍般地湧現，使得對所有結構的掌握變成了不現實。我們缺少一個對深層學習合理的認識。神經網

深層學習為何要“Deep”（下）

雖然在gitbook上已有為何深層學習，但還是發一下照顧那些關注了超智慧體，又只希望在知乎上看文章的小夥伴。近期由於期刊論文deadline將至（Winter is Coming），變體神經網路（RNN，CNN等不同變體的統一理解）部分會在17號開始繼續寫。為何深層

最實用的深度學習教程 Practical Deep Learning For Coders (Kaggle 冠軍 Jeremy Howard 親授)

ted del src learning over attention wid multi 美國 Jeremy Howard 在業界可謂大名鼎鼎。他是大數據競賽平臺 Kaggle 的前主席和首席科學家。他本人還是 Kaggle 的冠軍選手。他是美國奇點大學（Singular

【深度學習】ubuntu16.04下安裝opencv3.4.0

form 線程 ubunt con sudo ive tbb 依賴包復制代碼１、首先安裝一些編譯工具＃　安裝編譯工具 sudo apt-get install build-essential ＃　安裝依賴包 sudo apt-get install cmake

《深度學習精要（基於R語言）》高清中文版PDF+高清英文版PDF+源代碼

dbd 語言 process sha http com cto oss RoCE 下載：https://pan.baidu.com/s/11zySQB5f0s9SXNgJdBOphg 更多最新的資料：http://blog.51cto.com/3215120 《深度學習精要

深度學習筆記之win7下TensorFlow的安裝

轉載自http://blog.csdn.net/hola_f/article/details/70482300 最近要學習神經網路相關的內容，所以需要安裝TensorFlow。不得不說，安裝TensorFlow的感受就像是大一剛入學學習C語言時，安裝vs時一樣，問題一大堆，工具都裝不好，

分享《深度學習精要（基於R語言）》+PDF+源碼+Joshua F.Wiley+高蓉

blog aaa 講解 pro 高清 water tex href ces 下載：https://pan.baidu.com/s/14UlxD5VJRY92UpP7Wr6Taw 更多最新的資料：http://blog.51cto.com/14087171 《深度學習精要（基

阿里首次開源深度學習框架X-Deep Learning

今年，各企業在開源路上的勢頭可以說是“你追我趕”，誰也不甘落後。6 月，小米宣佈開源自己在移動端深度學習框架 MACE；9 月，騰訊 AI Lab 宣佈開源一款自動化深度學習模型壓縮與加速的框架——PocketFlow。雙十一剛過，阿里巴巴就宣佈要把商業作業系統中一個重要的業務板塊——

基於深度學習模型Wide&Deep的推薦

本實驗選用資料為UCI開源資料集，僅用於學習，請勿商用） Wide&Deep推薦演算法出自一篇論文《Wide&Deep Learning for RecommenderSystems》，Wide&Deep由兩部分組成，分別是Wide和Deep。先來說wide，表示的是generali

【深度學習】windows 10下CUDA+ cuDNN + MXNet/TensorFlow/TensorLayer 深度學習環境搭建

文章目錄關於版本環境版本相容關係搭建過程安裝Anocanda 安裝CUDA和cuDNN 建立虛擬環境並安裝NXNet 安裝TensorFlow和Te

百度開源移動端深度學習框架mobile-deep-learning

2017 年 9 月 25 日，百度在 GitHub 開源了移動端深度學習框架 mobile-deep-learning（MDL）的全部程式碼以及指令碼，希望這個專案在社群的帶動下能夠更好地發展。寫在前面深度學習技術已經在網際網路的諸多方向產生影響，每天科技

剛剛，阿里開源首個深度學習框架 X-Deep Learning！

剛剛，阿里媽媽正式對外發布了X-Deep Learning(下文簡稱XDL)的開原始碼地址，開發者們可以在Github上自主下載。此前，在11月底，阿里媽媽就公佈了這項開源計劃，引來了業界的廣泛關注。XDL突破了現有深度學習開源框架大都面向影象、語音等低維稠密資料而設計的現狀，面向高維稀疏資料場景進行了深

阿里開源首個深度學習框架 X-Deep Learning！

剛剛，阿里媽媽正式對外發布了X-Deep Learning(下文簡稱XDL)的開原始碼地址，開發者們可以在Github上自主下載。此前，在11月底，阿里媽媽就公佈了這項開源計劃，引來了業界的廣泛關注。XDL突破了現有深度學習開源框架大都面向影象、語音等低維稠密資料而設計的現狀，面向高維稀

《深度學習》/《Deep Learning》——深度學習聖經的讀書筆記

學習方法對著書看一遍，把理解的內容寫成筆記看完一章後，看著筆記和書，把內容複習一下，把需要畫線的地方畫好並理解逐層深入：這本書講解基礎概念講得不生動，但是高層次上有很多不錯的高瞻遠矚的見解，所以先看網文理解到基本的網路（如RNN-LSTM），然後看書深

深度學習實戰——caffe windows 下訓練自己的網路模型

1、相關準備 1.1 手寫數字資料集 1.2深度學習框架本實戰基於caffe深度學習框架，需自行參考相關部落格搭建環境，這裡不再對如何搭建環境作介紹。 2、資料準備 2.

深度學習筆記——why “deep”？

1、多層的學習效果往往比單層要好，即便引數的個數一樣 2、在用C語言進行結構化程式設計時，我們從來不會把大量的功能寫到一個函式裡面，而是寫很多函式同過函式呼叫實現目標。神經網路也類似，一個層可以看做一個函式實現了一個功能，多層結構更清晰，功能也更強大。 3、如下圖所示

【深度學習】Ubuntu環境下Tensorflow的安裝以及與Pycharm的相互配置

****************************************************************************************************

神經網路與深度學習第四周-Deep Neural Network

Deep Neural Network for Image Classification: Application When you finish this, you will have finished the last programming assign

【深度學習】Ubuntu16.04下出現這個錯誤ImportError: No module named google.protobuf.internal

/***************************************************************************************************

深度學習--為什麼要深？

深度學習–為什麼要深？一、深度與模組化對於一個分類的問題的簡化，我們可以先訓練一個Basic classfier，然後將其共享給following classfier，通過多層的

深度學習為何要“deep”下

方式1：記憶

方式2：手工特徵

相關推薦