1. 程式人生 > >Yann LeCun:深度學習與人工智慧的未來(附PPT與譯文)

Yann LeCun:深度學習與人工智慧的未來(附PPT與譯文)

深度學習

作者Yann Le Cun

紐約大學,柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU),

Facebook 人工智慧研究

我們需要複製大腦來開發智慧機器嗎?

大腦是智慧機器存在的依據

-鳥和蝙蝠是重於空氣飛行存在的依據

大腦

今天高速處理器

我們能夠通過複製大腦來開發人工智慧系統嗎?

電腦離大腦運算能力只有1萬次方差距嗎?很有可能是100萬次方:突觸是複雜的。1百萬次方是30年摩爾定律

最好從生物學裡獲取靈感;但是如果沒有了解基本原理,僅從生物學裡生搬硬造,註定要失敗。飛機是從飛鳥那裡獲取的靈感;他們使用了同樣的飛行基本原理;但是,飛機並不振翅飛翔,也沒有羽翼。

讓我們從自然裡汲取靈感,但不需要依葫蘆畫瓢

模仿自然是好的,但是我們也需要去了解自然。對於飛機而言,我們開發了空氣動力學以及可壓縮流體動力學,我們知道了羽毛和振翅不是關鍵。

1957年:感知機(第一臺學習機器)

具有適應性“突觸權重”的一個簡單的模擬神經元,計算輸入的加權總和,如果加權總和高於閾值,則輸出+1,反之則輸出-1。

感知機學習演算法

通常的機器學習(監督學習)

設計一臺帶有可調節旋鈕的機器(與感知機裡的權重類似);選取一個訓練樣本,經機器執行之後,測量誤差;找出需要調整那個方向的旋鈕以便降低誤差;重複使用所有訓練樣本來進行操作,直到旋鈕穩定下來。

通常的機器學習(監督學習)

設計一臺帶有可調節旋鈕的機器;選取一個訓練樣本,經機器執行之後,測量誤差;調節旋鈕以便降低誤差;不斷重複直到旋鈕穩定下來;

機器學習=功能優化

這就如同行走在霧氣瀰漫的高山之中,通過往最陡的下坡方向行走來抵達山谷中的村莊;但是每一個樣本會給我們一個方向的噪聲預估,因此,我們的路徑是相當隨機的。

泛化能力:識別訓練中沒有察覺到的情況

訓練之後:用從未識別過的樣本來測試機器;

監督學習

我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器;但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎?

大規模的機器學習:現實

數以億計的“旋鈕”(或“權重”),數以千計的種類;數以百萬計的樣本;識別每一個樣本可能需要進行數十億的操作;但是這些操作只是一些簡單的乘法和加法。

模式識別的傳統模式

模式識別的傳統模式(自50年代末開始),固定/設計特徵(或固定矩陣)+可訓練的分級器,感知機(康奈爾大學,1957年)

深度學習=整臺機器是可以訓練的

傳統的模式識別:固定及手工制的特徵萃取器;主流的現代化模式識別:無監督的中等級別特徵;深度學習:表現形式是分等級的及訓練有素的;

深度學習=學習分等級的表現形式

有超過一個階段的非線性特徵變換即為深度學習;在ImageNet上的特徵視覺化的卷積碼淨訓練[來自蔡勒與巨集泰2013(Zeiler & Fergus 2013)]

可訓練的特徵等級

隨著抽象等級的增加,表現形式等級的增加;每一個階段是一種可訓練特徵的轉換;

像識別:

畫素→邊緣→紋理基元→主題→部分→物件

文字識別

字元→字→片語→從句→句子→故事

語音識別

取樣→頻譜帶→聲音→... →語音→音素→字

淺度vs深度==查詢表VS多步演算法

“淺與寬”vs“深與窄”==“更多的記憶體”與“更多的時間”,查詢表vs 演算法;如果沒有一個指數大級別的查詢表,幾乎很少有函式可以用兩步計算完成;通過指數係數,可以通過超過兩步運算來減少“儲存量”

大腦如何解讀影象?

在視覺皮層的腹側(識別)通路包含多個階段;視網膜- LGN - V1 - V2 - V4 - PIT - AIT....等等;

多層的神經網路

多層的神經網路

簡單單位的多層級;每個單位計算一次輸入的加權總和;加權總和通過一個非線性函式;學習演算法改變權重;

典型的多層神經網路架構

  • 可以通過在網路中裝配模組來發明覆雜的學習機器;

  • 線性模組

  • 輸出=W.輸入+B

  • ReLU 模組(經校正過的線性單元)

  • 輸出i=0 如果輸入i<0;

  • 輸出i=輸入,如果其他情況;

  • 成本模組:平方距離

  • 成本=||In1-In2||2

  • 目標函式

  • L(Θ)=1/pΣk C(Xk,Yk,Θ)

  • Θ=(W1,B1,W2,B2,W3,B3)

通過裝配模組來搭建網路

所有主要深度學習框架使用模組(靈感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….

通過反向傳遞來計算斜率

鏈式法則的實際應用

推倒代數的斜率:

● dC/dXi-1 = dC/dXi . dXi/dXi-1

● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

推倒權重斜率:

● dC/dWi = dC/dXi . dXi/dWi

● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

任何架構都可以工作?

允許任何的連線圖;

無迴路有向圖

迴圈的網路需要“在時間上展開”

允許任何的模組

只要對於相應的引數及其他非終端輸入是連續的,並且在幾乎所有位置都可以進行求倒。

幾乎所有的架構都提供自動求導功能;

Theano, Torch7+autograd,...

程式變成計算無迴路有向圖(DAGs)及自動求導

多層網路的目標函式是非凸性的。

1-1-1網路

– Y = W1*W2*X

目標函式:二次損失的恆等函式

一個例子:X=1,Y=1 L(W) = (1-W1*W2)^2

卷積網路

(簡稱ConvNet或 CNN)

卷積網路架構

多卷積

動畫:安德烈 .卡帕斯(Andrej Karpathy)網址:http://cs231n.github.io/convolutional-networks/

卷積性網路(製造年代:1990年)

過濾器-tanh →彙總→過濾器-tanh →彙總→過濾器-tanh

胡貝爾和威塞爾(Hubel & Wiesel)的視覺皮層結構模型

簡單單元格用於檢測區域性特徵,複雜單元格用於“彙總”位於視皮層附近的簡單單元格輸出產物,[福島(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等

總體架構:多步奏標準化→過濾器集→非線性→彙總

標準化:白度變化(自由選擇)

減法:平均去除率,高通過濾器

除法:區域性標準化,標準方差

過濾器庫:維度擴大,對映到超完備基數

非線性:稀疏化,飽和度,側抑制機制等等

改正(ReLU),有效分量的減少,tanh,

彙總:空間或功能類別的集合

1993年LeNet1演示

多字元識別[馬坦等(Matan et al),1992年]

每一層是一個卷積

ConvNet滑動視窗+加權有限狀態機

ConvNet滑動視窗+加權FSM

支票讀取器(貝爾實驗室,1995年)

影象轉換器網路經訓練後讀取支票金額,用負對數似然損失來進行全面化訓練。50%正確,49%拒絕,1%誤差(在後面的過程中可以檢測到)1996年開始在美國和歐洲的許多銀行中使用,在2000年代初處理了美國約10%到20%的手寫支票。

人臉檢測[威能(Vaillantet al.)等。93、94年]

ConvNet被用於大影象處理,多尺寸熱圖,候選者非最大化抑制,對256x256 影象SPARCstation需要6秒時間

同步化人臉檢測及姿態預估

卷積網路行人檢測

場景解析及標註

場景解析及標註:多尺度ConvNet架構

每個輸出可以看到大量的輸入背景,對全方位標註的的影象進行訓練監督

方法1:在超畫素區域進行多數表決

對RGB及深度影象的場景解析及標註

場景解析及標註

無後期處理,一幀一幀,ConvNet在Virtex-6 FPGA 硬體上以每幀50毫秒執行,通過乙太網上進行通訊的功能限制了系統性能

ConvNet用於遠距離自適應機器人視覺(DARPA LAGR 專案2005-2008年)

卷機網遠距離視覺

預處理(125毫秒),地平面估計,地平線對準,轉換為YUV+區域性對比標準化,測量標準化後圖像“帶”不變數金字塔

卷積網路架構

每3x12x25輸入視窗100個特徵;YUV影象帶20-36畫素高,36-500畫素寬

卷機網路視覺物體識別

在2000年代中期,ConvNets在物體分類方面取得了相當好的成績,資料集:“Caltech101”:101個類別,每個類別30個訓練樣本,但是結果比更“傳統”的計算機視覺方法要稍微遜色一些,原因是:

1. 資料集太小了;

2. 電腦太慢了;

然後,兩件事情發生了。。。

影象網路(ImageNet)資料集[Fei-Fei等,2012年]

120萬訓練樣本

1000個類別

快速及可程式設計通用目的GPUs

每秒可進行1萬億操作

極深度的ConvNet物體識別

1億到10億個連線,1000萬至10億個引數,8至20個分層

在GPU上進行極深度的ConvNets訓練

ImageNet前5大錯誤概率是

15%;

[Sermanet等2013年]

13.8%VGGNet [Simonyan, Zisserman 2014年]

7.3%

GoogLeNet[Szegedy等 2014年]

6.6%

ResNet [He et等2015年]

5.7%

極深度的ConvNet架構

小矩陣,沒有進行太多二次抽樣過程(斷片化二次抽樣)

矩陣:第一層(11x11)

第一層:3×9矩陣,RGB->96的特徵圖,11×11矩陣,4步

學習在行動

第一層過濾器如何學習?

深度學習=學習層次化表現

具有超過一個階段的非線性特徵變換即為深度,ImageNet上特徵視覺化卷積網路學習 [蔡勒與巨集泰2013年(Zeiler & Fergus)]

ImageNet:分類

給影象中的主要物件取名,前5誤差率:如果誤差不是在前5,則視為錯誤。紅色:ConvNet,藍色:不是ConvNet

ConvNets物件識別及定位

分類+定位:多尺度滑動視窗

在影象上應用convnet滑動視窗來進行多尺度的重要備;在影象上滑動convnet是很便宜的。對於每一個視窗,預測一個分類及邊框引數。即使物件沒有完全在視窗內,convnet可以預測它所認為的物件是什麼。

結果:在ImageNet1K訓練前,微調的ImageNet檢測

Detection Example:檢測例子

Detection Example:檢測例子

Detection Example:檢測例子

深度面孔

[塞利格曼等(Taigman et al.) CVPR,2014年]

調準ConvNet矩陣學習

Facebook上使用自動標註

每天800萬張照片

具有連體結構的度量學習

Contrative目標函式,相似的物件應產出相距較近的輸出,不相似物件應產出相距較遠r的輸出,通過學習和恆定的定位來減少維度,[喬普拉等,CVPR2005年][Hadsell等,CVPR2006年]

人物識別與姿勢預測

影象字幕:生成描述性句子

C3D:用3D卷積網路進行視訊分類

分割與區域性化物件(DeepMask)

[Pinheiro, Collobert, Dollar ICCV 2015年]

ConvNet生成物件面部模型

DeepMask++ 建議

識別路線

訓練

通過8x4開普勒(Kepler)GPUs與彈性平均隨機梯度下降演算法(EASGD)執行2.5天后[張, Choromanska, LeCun,NIPS2015年]

結果

監控下的ConvNets製圖

使用ConvNets產生影象

監控下的ConvNets製圖

繪製椅子,在特徵空間的椅子演算法

ConvNets語音識別

語音識別與卷積網路(紐約大學/IBM)

聲學模型:7層ConvNet。5440萬引數。

把聲音訊號轉化為3000個相互關連的次音位類別

ReLU單位+脫離上一層級

經過GPU 4日訓練

語音識別與卷積網路(紐約大學/IBM)

訓練樣本。

40 Mel頻率倒譜系數視窗:每10微秒40幀

語音識別與卷積網路(紐約大學/IBM)

第一層卷積矩陣,9x9尺寸64矩陣

語音識別與卷積網路(紐約大學/IBM)

多語言識別,多尺度輸入,大範圍視窗

卷積網路(ConvNets)無處不在(或即將無處不在)

ConvNet晶片

目前NVIDIA,英特爾(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在開發ConvNet 晶片

很多初創公司:Movidius, Nervana等

在不久的將來,ConvNet將會駕駛汽車

NVIDIA:基於ConvNet技術的駕駛員輔助系統

驅動-PX2(Drive-PX2):駕駛員輔助系統的開源平臺( =150 Macbook Pros)

嵌入式超級計算機:42TOPS(=150臺MacBook Pro)

MobilEye:基於ConvNet技術的駕駛員輔助系統

配置於特斯拉(Tesla)S型和X型產品中

ConvNet連線組學[Jain, Turaga, Seung,2007年]

3DConvNet立體影象;使用7x7x7相鄰體素來將每一個體素標註為“膜狀物”或“非膜狀物”;已經成為連線組學的標準方法

預測DNA/ RNA - ConvNets蛋白質結合

“通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性”-2015年7月,自然生物技術,作者:B Alipanahi, A Delong, M Weirauch, BFrey

深度學習無處不在(ConvNets無處不在)

在臉書(Facebook)、谷歌(Google)、微軟(Microsoft)、百度、推特(Twitter)及IBM等上的許多應用程式。

為照片集搜尋的影象識別

圖片/視訊內容過濾:垃圾,裸露和暴力。

搜尋及新聞源排名

人們每天上傳8億張圖片到臉書(Facebook)上面

(如果我們把Instagram,Messenger and Whatsapp計算在內,就是每天20億張圖片)

臉書(Facebook)上的每一張照片每隔2秒就通過兩個ConvNets

一個是影象識別及標註;

另一個是面部識別(在歐洲尚未啟用)

在不久的將來ConvNets將會無處不在:

自動駕駛汽車,醫療成像,增強現實技術,移動裝置,智慧相機,機器人,玩具等等。

嵌入的世界

思考的向量

“鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬”—〉遞迴神經網路—〉[0.2,-2.1,0.4,-0.5......]

嵌入的世界

iNSTAGRAM 嵌入視訊

用“思考的向量”來代表世界

任何一個物件、概念或“想法”都可以用一個向量來代表

[-0.2, 0.3, -4.2, 5.1, …..]代表“貓”的概念

[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念

這兩個向量是十分相似的,因為貓和狗用許多共同的屬性

加入推理來操控思考向量

對問題、回答、資訊提取及內容過濾的向量進行比較

通過結合及轉化向量來進行推理、規劃及語言翻譯

記憶體儲存思考向量

MemNN (記憶神經網路)是一個很好的例子

在FAIR, 我們想要“把世界嵌入”思考向量中來

自然語言理解

文字能嵌入嗎?

[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]

通過前後的文字來對該文字進行預測

語義屬性的合成

東京-日本=柏林-德國

東京-日本+德國=柏林

問答系統

問答系統

問答系統

LSTM網路的語言翻譯

多層次極大LSTM遞迴模組

讀入及編碼英語句子

在英文句末生成法語句子

與現有技術狀態的準確率極其相若

神經網路如何記憶事物?

遞迴網路不可以長久記憶事物

皮質只可以持續20秒記憶事物

我們需要“海馬”(一個獨立的記憶模組)

LSTM [Hochreiter 1997年],暫存器

儲存網路[韋斯頓(Weston)等,2014年](FAIR),聯想記憶

堆疊增強遞迴神經網路[Joulin與Mikolov,2014年](FAIR)

NTM [DeepMind,2014年], “磁帶”.

儲存/堆疊增強遞迴網路

堆疊增強RNN

弱監控MemNN:

尋找可使用的儲存位置。

記憶體網路[韋斯頓(Weston),喬普拉( Chopra),博爾德(Bordes ),2014年]

在網路中加入短期記憶體

通往人工智慧的障礙物

(除計算能力以外),人工智慧的四項缺失部分

理論的深度認知學習

深度網路中的目標函式幾何學是什麼?

為何ConvNet架構這麼好?[(馬拉)Mallat, 布魯納(Bruna), Tygert..]

代表/深度學習與推理、注意力、規劃及記憶的整合

很多研究集中在推理/規劃,注意力,記憶力及學習“演算法”

記憶體增強的神經網路“可求導的”演算法

將監控、非監控及強化學習整合在單一的“演算法”內

如果進展順利,波爾茲曼機將會十分有用處。

堆疊的什麼-哪裡自動編碼器,梯形網路等

通過觀察及像動物及人類生活一樣來發現世界的結構及規律。

神祕的目標函式幾何學

深度網路與ReLUs及最大彙總

線性轉換儲存棧最大離散操作器

ReLUs點位方法

最大彙總

從一層到另一層開關

深度網路與ReLUs:目標函式是分段多項式函式

如果我們使用損失函式,增量則取決於Yk。

隨機係數的在w上的分段多項式

a lot:多項式的臨界點位隨機(高斯)係數在球面的分佈[本阿魯斯等(Ben Arous et al.)]

高階球面自旋玻璃隨機矩陣理論

隨機矩陣理論

深度網路與ReLUs:目標函式是分段多項式函式

從多個初始條件中訓練按比例縮小的(10x10)MNIST 2層網路。測量測試集的損失值。

強化學習,監督學習、無監督學習:學習的三種類型

學習的三種類型

強化學習

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習

機器預測每個輸入的種類或數量

每個樣本10到1萬位

非監控學習

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣本有數以百萬計的位元組

機器需要預測多少資訊?

強化學習(車釐子)

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習(糖衣)

機器預測每個輸入的種類或數量

每個樣本10到1萬個位元組

無監督學習(蛋糕)

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣