Yann LeCun：深度學習與人工智慧的未來（附PPT與譯文）

阿新 • • 發佈：2019-02-10

深度學習

作者Yann Le Cun

紐約大學，柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU)，

Facebook 人工智慧研究

我們需要複製大腦來開發智慧機器嗎？

大腦是智慧機器存在的依據

－鳥和蝙蝠是重於空氣飛行存在的依據

大腦

今天高速處理器

我們能夠通過複製大腦來開發人工智慧系統嗎？

電腦離大腦運算能力只有1萬次方差距嗎？很有可能是100萬次方：突觸是複雜的。1百萬次方是30年摩爾定律

最好從生物學裡獲取靈感；但是如果沒有了解基本原理，僅從生物學裡生搬硬造，註定要失敗。飛機是從飛鳥那裡獲取的靈感；他們使用了同樣的飛行基本原理；但是，飛機並不振翅飛翔，也沒有羽翼。

讓我們從自然裡汲取靈感，但不需要依葫蘆畫瓢

模仿自然是好的，但是我們也需要去了解自然。對於飛機而言，我們開發了空氣動力學以及可壓縮流體動力學，我們知道了羽毛和振翅不是關鍵。

1957年：感知機（第一臺學習機器）

具有適應性“突觸權重”的一個簡單的模擬神經元，計算輸入的加權總和，如果加權總和高於閾值，則輸出＋1，反之則輸出－1。

感知機學習演算法

通常的機器學習（監督學習）

設計一臺帶有可調節旋鈕的機器（與感知機裡的權重類似）；選取一個訓練樣本，經機器執行之後，測量誤差；找出需要調整那個方向的旋鈕以便降低誤差；重複使用所有訓練樣本來進行操作，直到旋鈕穩定下來。

通常的機器學習（監督學習）

設計一臺帶有可調節旋鈕的機器；選取一個訓練樣本，經機器執行之後，測量誤差；調節旋鈕以便降低誤差；不斷重複直到旋鈕穩定下來；

機器學習＝功能優化

這就如同行走在霧氣瀰漫的高山之中，通過往最陡的下坡方向行走來抵達山谷中的村莊；但是每一個樣本會給我們一個方向的噪聲預估，因此，我們的路徑是相當隨機的。

泛化能力：識別訓練中沒有察覺到的情況

訓練之後：用從未識別過的樣本來測試機器；

監督學習

我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器；但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎？

大規模的機器學習：現實

數以億計的“旋鈕”（或“權重”），數以千計的種類；數以百萬計的樣本；識別每一個樣本可能需要進行數十億的操作；但是這些操作只是一些簡單的乘法和加法。

模式識別的傳統模式

模式識別的傳統模式（自50年代末開始），固定／設計特徵（或固定矩陣）＋可訓練的分級器，感知機（康奈爾大學，1957年）

深度學習＝整臺機器是可以訓練的

傳統的模式識別：固定及手工制的特徵萃取器；主流的現代化模式識別：無監督的中等級別特徵；深度學習：表現形式是分等級的及訓練有素的；

深度學習＝學習分等級的表現形式

有超過一個階段的非線性特徵變換即為深度學習；在ImageNet上的特徵視覺化的卷積碼淨訓練［來自蔡勒與巨集泰2013（Zeiler & Fergus 2013）］

可訓練的特徵等級

隨著抽象等級的增加，表現形式等級的增加；每一個階段是一種可訓練特徵的轉換；

圖像識別：

畫素→邊緣→紋理基元→主題→部分→物件

文字識別

字元→字→片語→從句→句子→故事

語音識別

取樣→頻譜帶→聲音→... →語音→音素→字

淺度vs深度＝＝查詢表VS多步演算法

“淺與寬”vs“深與窄”==“更多的記憶體”與“更多的時間”，查詢表vs 演算法；如果沒有一個指數大級別的查詢表，幾乎很少有函式可以用兩步計算完成；通過指數係數，可以通過超過兩步運算來減少“儲存量”。

大腦如何解讀影象？

在視覺皮層的腹側（識別）通路包含多個階段；視網膜- LGN - V1 - V2 - V4 - PIT - AIT....等等；

多層的神經網路

簡單單位的多層級；每個單位計算一次輸入的加權總和；加權總和通過一個非線性函式；學習演算法改變權重；

典型的多層神經網路架構

可以通過在網路中裝配模組來發明覆雜的學習機器；
線性模組
輸出＝W.輸入＋B
ReLU 模組（經校正過的線性單元）
輸出i＝0 如果輸入i<0;
輸出i＝輸入，如果其他情況；
成本模組：平方距離
成本=||In1-In2||2
目標函式
L(Θ)=1/pΣk C(Xk,Yk,Θ)
Θ=(W1,B1,W2,B2,W3,B3)

通過裝配模組來搭建網路

所有主要深度學習框架使用模組（靈感源自SN/Lush, 1991)，火炬7(Torch7), Theano, TensorFlow….

通過反向傳遞來計算斜率

鏈式法則的實際應用

推倒代數的斜率：

● dC/dXi-1 = dC/dXi . dXi/dXi-1

● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

推倒權重斜率：

● dC/dWi = dC/dXi . dXi/dWi

● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

任何架構都可以工作？

允許任何的連線圖；

無迴路有向圖

迴圈的網路需要“在時間上展開”

允許任何的模組

只要對於相應的引數及其他非終端輸入是連續的，並且在幾乎所有位置都可以進行求倒。

幾乎所有的架構都提供自動求導功能；

Theano, Torch7+autograd,...

程式變成計算無迴路有向圖（DAGs）及自動求導

多層網路的目標函式是非凸性的。

1-1-1網路

– Y = W1*W2*X

目標函式：二次損失的恆等函式

一個例子：X=1,Y=1 L(W) = (1-W1*W2)^2

卷積網路

(簡稱ConvNet或 CNN)

卷積網路架構

多卷積

動畫：安德烈 .卡帕斯（Andrej Karpathy）網址：http://cs231n.github.io/convolutional-networks/

卷積性網路（製造年代：1990年）

過濾器-tanh →彙總→過濾器-tanh →彙總→過濾器-tanh

胡貝爾和威塞爾（Hubel & Wiesel）的視覺皮層結構模型

簡單單元格用於檢測區域性特徵，複雜單元格用於“彙總”位於視皮層附近的簡單單元格輸出產物，[福島（Fukushima）1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等

總體架構：多步奏標準化→過濾器集→非線性→彙總

標準化：白度變化（自由選擇）

減法：平均去除率，高通過濾器

除法：區域性標準化，標準方差

過濾器庫：維度擴大，對映到超完備基數

非線性：稀疏化，飽和度，側抑制機制等等

改正(ReLU)，有效分量的減少，tanh,

彙總：空間或功能類別的集合

1993年LeNet1演示

多字元識別［馬坦等（Matan et al），1992年］

每一層是一個卷積

ConvNet滑動視窗+加權有限狀態機

ConvNet滑動視窗+加權FSM

支票讀取器（貝爾實驗室，1995年）

影象轉換器網路經訓練後讀取支票金額，用負對數似然損失來進行全面化訓練。50%正確，49%拒絕，1%誤差（在後面的過程中可以檢測到）1996年開始在美國和歐洲的許多銀行中使用，在2000年代初處理了美國約10%到20%的手寫支票。

人臉檢測[威能（Vaillantet al.）等。93、94年]

ConvNet被用於大影象處理，多尺寸熱圖，候選者非最大化抑制，對256x256 影象SPARCstation需要6秒時間

同步化人臉檢測及姿態預估

卷積網路行人檢測

場景解析及標註

場景解析及標註：多尺度ConvNet架構

每個輸出可以看到大量的輸入背景，對全方位標註的的影象進行訓練監督

方法1:在超畫素區域進行多數表決

對RGB及深度影象的場景解析及標註

場景解析及標註

無後期處理，一幀一幀，ConvNet在Virtex-6 FPGA 硬體上以每幀50毫秒執行，通過乙太網上進行通訊的功能限制了系統性能

ConvNet用於遠距離自適應機器人視覺（DARPA LAGR 專案2005-2008年）

卷機網遠距離視覺

預處理（125毫秒），地平面估計，地平線對準，轉換為YUV+區域性對比標準化，測量標準化後圖像“帶”不變數金字塔

卷積網路架構

每3x12x25輸入視窗100個特徵；YUV影象帶20-36畫素高，36-500畫素寬

卷機網路視覺物體識別

在2000年代中期，ConvNets在物體分類方面取得了相當好的成績，資料集：“Caltech101”：101個類別，每個類別30個訓練樣本，但是結果比更“傳統”的計算機視覺方法要稍微遜色一些，原因是：

1. 資料集太小了；

2. 電腦太慢了；

然後，兩件事情發生了。。。

影象網路（ImageNet）資料集[Fei-Fei等，2012年]

120萬訓練樣本

1000個類別

快速及可程式設計通用目的GPUs

每秒可進行1萬億操作

極深度的ConvNet物體識別

1億到10億個連線，1000萬至10億個引數，8至20個分層

在GPU上進行極深度的ConvNets訓練

ImageNet前5大錯誤概率是

15%；

[Sermanet等2013年]

13.8%VGGNet [Simonyan, Zisserman 2014年]

7.3%

GoogLeNet[Szegedy等 2014年]

6.6%

ResNet [He et等2015年]

5.7%

極深度的ConvNet架構

小矩陣，沒有進行太多二次抽樣過程（斷片化二次抽樣）

矩陣：第一層（11x11)

第一層：3×9矩陣，RGB->96的特徵圖，11×11矩陣，4步

學習在行動

第一層過濾器如何學習？

深度學習＝學習層次化表現

具有超過一個階段的非線性特徵變換即為深度，ImageNet上特徵視覺化卷積網路學習 [蔡勒與巨集泰2013年（Zeiler & Fergus）]

ImageNet：分類

給影象中的主要物件取名，前5誤差率：如果誤差不是在前5，則視為錯誤。紅色：ConvNet，藍色：不是ConvNet

ConvNets物件識別及定位

分類+定位：多尺度滑動視窗

在影象上應用convnet滑動視窗來進行多尺度的重要備;在影象上滑動convnet是很便宜的。對於每一個視窗，預測一個分類及邊框引數。即使物件沒有完全在視窗內，convnet可以預測它所認為的物件是什麼。

結果：在ImageNet1K訓練前，微調的ImageNet檢測

Detection Example:檢測例子

深度面孔

[塞利格曼等（Taigman et al.） CVPR，2014年]

調準ConvNet矩陣學習

Facebook上使用自動標註

每天800萬張照片

具有連體結構的度量學習

Contrative目標函式，相似的物件應產出相距較近的輸出，不相似物件應產出相距較遠r的輸出，通過學習和恆定的定位來減少維度，[喬普拉等，CVPR2005年][Hadsell等，CVPR2006年]

人物識別與姿勢預測

影象字幕：生成描述性句子

C3D:用3D卷積網路進行視訊分類

分割與區域性化物件(DeepMask)

[Pinheiro, Collobert, Dollar ICCV 2015年]

ConvNet生成物件面部模型

DeepMask++ 建議

識別路線

訓練

通過8x4開普勒（Kepler）GPUs與彈性平均隨機梯度下降演算法（EASGD)執行2.5天后[張, Choromanska, LeCun，NIPS2015年]

結果

監控下的ConvNets製圖

使用ConvNets產生影象

監控下的ConvNets製圖

繪製椅子，在特徵空間的椅子演算法

ConvNets語音識別

語音識別與卷積網路(紐約大學／IBM)

聲學模型：7層ConvNet。5440萬引數。

把聲音訊號轉化為3000個相互關連的次音位類別

ReLU單位+脫離上一層級

經過GPU 4日訓練

語音識別與卷積網路(紐約大學／IBM)

訓練樣本。

40 Mel頻率倒譜系數視窗：每10微秒40幀

語音識別與卷積網路(紐約大學／IBM)

第一層卷積矩陣，9x9尺寸64矩陣

語音識別與卷積網路(紐約大學／IBM)

多語言識別，多尺度輸入，大範圍視窗

卷積網路（ConvNets）無處不在（或即將無處不在）

ConvNet晶片

目前NVIDIA，英特爾(Intel), Teradeep,Mobileye, 高通（Qualcomm）及三星（Samsung）正在開發ConvNet 晶片

很多初創公司：Movidius, Nervana等

在不久的將來，ConvNet將會駕駛汽車

NVIDIA：基於ConvNet技術的駕駛員輔助系統

驅動-PX2（Drive-PX2）：駕駛員輔助系統的開源平臺( =150 Macbook Pros)

嵌入式超級計算機：42TOPS（=150臺MacBook Pro）

MobilEye:基於ConvNet技術的駕駛員輔助系統

配置於特斯拉（Tesla）S型和X型產品中

ConvNet連線組學[Jain, Turaga, Seung，2007年]

3DConvNet立體影象；使用7x7x7相鄰體素來將每一個體素標註為“膜狀物”或“非膜狀物”；已經成為連線組學的標準方法

預測DNA/ RNA - ConvNets蛋白質結合

“通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性”－2015年7月，自然生物技術，作者：B Alipanahi, A Delong, M Weirauch, BFrey

深度學習無處不在（ConvNets無處不在）

在臉書(Facebook)、谷歌（Google）、微軟（Microsoft）、百度、推特（Twitter）及IBM等上的許多應用程式。

為照片集搜尋的影象識別

圖片/視訊內容過濾：垃圾，裸露和暴力。

搜尋及新聞源排名

人們每天上傳8億張圖片到臉書（Facebook）上面

（如果我們把Instagram，Messenger and Whatsapp計算在內，就是每天20億張圖片）

臉書（Facebook）上的每一張照片每隔2秒就通過兩個ConvNets

一個是影象識別及標註；

另一個是面部識別（在歐洲尚未啟用）

在不久的將來ConvNets將會無處不在：

自動駕駛汽車，醫療成像，增強現實技術，移動裝置，智慧相機，機器人，玩具等等。

嵌入的世界

思考的向量

“鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬”—〉遞迴神經網路—〉[0.2，－2.1，0.4,－0.5......]

嵌入的世界

iNSTAGRAM 嵌入視訊

用“思考的向量”來代表世界

任何一個物件、概念或“想法”都可以用一個向量來代表

[-0.2, 0.3, -4.2, 5.1, …..]代表“貓”的概念

[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念

這兩個向量是十分相似的，因為貓和狗用許多共同的屬性

加入推理來操控思考向量

對問題、回答、資訊提取及內容過濾的向量進行比較

通過結合及轉化向量來進行推理、規劃及語言翻譯

記憶體儲存思考向量

MemNN (記憶神經網路)是一個很好的例子

在FAIR, 我們想要“把世界嵌入”思考向量中來

自然語言理解

文字能嵌入嗎？

[Bengio2003年] [Collobert與韋斯頓（Weston），2010年]

通過前後的文字來對該文字進行預測

語義屬性的合成

東京－日本＝柏林－德國

東京－日本＋德國＝柏林

問答系統

LSTM網路的語言翻譯

多層次極大LSTM遞迴模組

讀入及編碼英語句子

在英文句末生成法語句子

與現有技術狀態的準確率極其相若

神經網路如何記憶事物？

遞迴網路不可以長久記憶事物

皮質只可以持續20秒記憶事物

我們需要“海馬”（一個獨立的記憶模組）

LSTM [Hochreiter 1997年]，暫存器

儲存網路[韋斯頓（Weston）等，2014年］（FAIR），聯想記憶

堆疊增強遞迴神經網路[Joulin與Mikolov，2014年]（FAIR）

NTM [DeepMind，2014年], “磁帶”.

儲存／堆疊增強遞迴網路

堆疊增強RNN

弱監控MemNN:

尋找可使用的儲存位置。

記憶體網路[韋斯頓（Weston），喬普拉（ Chopra），博爾德（Bordes ），2014年]

在網路中加入短期記憶體

通往人工智慧的障礙物

（除計算能力以外），人工智慧的四項缺失部分

理論的深度認知學習

深度網路中的目標函式幾何學是什麼？

為何ConvNet架構這麼好？[（馬拉）Mallat, 布魯納（Bruna）, Tygert..]

代表／深度學習與推理、注意力、規劃及記憶的整合

很多研究集中在推理／規劃，注意力，記憶力及學習“演算法”

記憶體增強的神經網路“可求導的”演算法

將監控、非監控及強化學習整合在單一的“演算法”內

如果進展順利，波爾茲曼機將會十分有用處。

堆疊的什麼－哪裡自動編碼器，梯形網路等

通過觀察及像動物及人類生活一樣來發現世界的結構及規律。

神祕的目標函式幾何學

深度網路與ReLUs及最大彙總

線性轉換儲存棧最大離散操作器

ReLUs點位方法

最大彙總

從一層到另一層開關

深度網路與ReLUs：目標函式是分段多項式函式

如果我們使用損失函式，增量則取決於Yk。

隨機係數的在w上的分段多項式

a lot：多項式的臨界點位隨機（高斯）係數在球面的分佈[本阿魯斯等（Ben Arous et al.）]

高階球面自旋玻璃隨機矩陣理論

隨機矩陣理論

深度網路與ReLUs：目標函式是分段多項式函式

從多個初始條件中訓練按比例縮小的(10x10)MNIST 2層網路。測量測試集的損失值。

強化學習，監督學習、無監督學習：學習的三種類型

學習的三種類型

強化學習

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習

機器預測每個輸入的種類或數量

每個樣本10到1萬位

非監控學習

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣本有數以百萬計的位元組

機器需要預測多少資訊？

強化學習（車釐子）

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習（糖衣）

機器預測每個輸入的種類或數量

每個樣本10到1萬個位元組

無監督學習（蛋糕）

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣

Yann LeCun：深度學習與人工智慧的未來（附PPT與譯文）

Yann LeCun：深度學習與人工智慧的未來（附PPT與譯文）

Facebook人工智慧負責人Yann LeCun談深度學習的侷限性

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

深度學習面試100題（第1-5題）：經典常考點CNN

深度學習平臺搭建筆記（我的TANTI-XP）

清華大學張長水教授：機器學習和影象識別（附視訊、PPT下載）

深度學習面試100題（第31-35題）

深度學習面試100題（第36-40題）

深度學習面試100題（第51-55題）

深度學習面試100題（第16-20題）

一文看懂 BDTC 2018：探祕大資料新應用（附 PPT 下載）

一文看懂BDTC 2018：探祕大資料新應用（附PPT下載）

從程式設計實現角度學習Faster R-CNN（附極簡實現）

第二篇：基於深度學習的人臉特徵點檢測 - 資料與方法（轉載）

深度學習與計算機視覺：深度學習必知基本概念以及鏈式求導

揭祕人工智慧（系列）：深度學習是否過分誇大？

王小草【深度學習】筆記第七彈--RNN與應用案例：注意力模型與機器翻譯

論戰Yann LeCun：誰能解釋極限學習機（ELM）牛X在哪裡？

“GANs 之父”Goodfellow親身傳授：深度學習未來的8大方向和入門AI必備的三大技能

DeepMind背後的人工智慧：深度學習原理初探

Yann LeCun：深度學習與人工智慧的未來（附PPT與譯文）

相關推薦