1. 程式人生 > >神經網路、深度學習、人工智慧、智慧製造2018資料彙編(公號回覆“AI2018資料”下載PDF資料,歡迎轉發、讚賞支援科普)

神經網路、深度學習、人工智慧、智慧製造2018資料彙編(公號回覆“AI2018資料”下載PDF資料,歡迎轉發、讚賞支援科普)

神經網路、深度學習、人工智慧、智慧製造2018資料彙編(公號回覆“AI2018資料”下載PDF資料,歡迎轉發、讚賞支援科普)

秦隴紀 科學Sciences 今天

科學Sciences導讀:本文彙編五篇科普文章:一文讀懂神經網路;深度學習並非萬能:你需要避免這三個坑;2018年全球AI突破性技術TOP10;新一代人工智慧領域十大最具成長性技術展;先進製造業-數字化解決方案。歡迎留言探討科學、技術、工程、方案。

神經網路、深度學習、人工智慧、智慧製造資料彙編(16218字)目錄

A一文讀懂神經網路(7179字)

一.神經網路的發展歷史

二.感知器模型

三.前饋神經網路

四.後向傳播

五.深度學習入門

B深度學習並非萬能:你需要避免這三個坑(1460字)

一、深度學習不適用於小資料集

二、深度學習運用於實踐是困難且昂貴的

三、深層網路不易解釋

C 2018年全球AI突破性技術TOP10 (5240字)

1 基於神經網路的機器翻譯

2 基於多感測器跨界融合的機器人自主導航

3DuerOS對話式人工智慧系統

4 移動AR技術

5 生物特徵識別技術

6 機器人流程自動化

7 畫素級聲源定位系統PixelPlayer

8 兼顧高精度學習和低精度推理的深度學習晶片

9 智慧代理訓練平臺

10 入耳式人工智慧

D新一代人工智慧領域十大最具成長性技術展望(2114字)

1、對抗性神經網路

2、膠囊網路

3、雲端人工智慧

4、深度強化學習

5、智慧腦機互動

6、對話式人工智慧平臺

7、情感智慧

8、神經形態計算

9、元學習

10、量子神經網路

E先進製造業-數字化解決方案(64字)

參考文獻(354字)Appx.資料簡化DataSimp社群簡介(835字)

 

A一文讀懂神經網路(7179)

一文讀懂神經網路

文|孫飛(丹豐),彙編:資料簡化社群秦隴紀,2018-08-28Tue

演講嘉賓簡介:孫飛(丹豐),阿里巴巴搜尋事業部高階演算法工程師。中科院計算所博士,博士期間主要研究方向為文字分散式表示,在SIGIR、ACL、EMNLP以及IJCAI等會議發表論文多篇。目前主要從事推薦系統以及文字生成相關方面研發工作。

本次的分享主要圍繞以下五個方面:

神經網路的發展歷史

感知器模型

前饋神經網路

後向傳播

深度學習入門

一.神經網路的發展歷史

在介紹神經網路的發展歷史之前,首先介紹一下神經網路的概念。神經網路主要是指一種仿造人腦設計的簡化的計算模型,這種模型中包含了大量的用於計算的神經元,這些神經元之間會通過一些帶有權重的連邊以一種層次化的方式組織在一起。每一層的神經元之間可以進行大規模的平行計算,層與層之間進行訊息的傳遞。

下圖展示了整個神經網路的發展歷程:

神經網路的發展歷史甚至要早於計算機的發展,早在上個世紀四十年代就已經出現了最早的神經網路模型。接下來本文將以神經網路的發展歷程為主線帶領大家對神經網路的基本知識作初步瞭解。

第一代的神經元模型是驗證型的,當時的設計者只是為了驗證神經元模型可以進行計算,這種神經元模型既不能訓練也沒有學習能力,可以簡單的把它看成是一個定義好的邏輯閘電路,因為它的輸入和輸出都是二進位制的,而中間層的權重都是提前定義好的。

神經網路的第二個發展時代是十九世紀五六十年代,以Rosenblatt提出的感知器模型和赫伯特學習原則等一些工作為代表。

二.感知器模型

感知器模型與之前提到的神經元模型幾乎是相同的,但是二者之間存在著一些關鍵的區別。感知器模型的啟用函式可以選擇間斷函式和sigmoid函式,且其輸入可以選擇使用實數向量,而不是神經元模型的二進位制向量。與神經元模型不同,感知器模型是一個可以學習的模型,下面介紹一下感知器模型的一個優良特性——幾何解釋。

我們可以把輸入值(x1, . . . , xn)看作是N維空間中的一個點的座標,w⊤x−w0 = 0 可以認為是N維空間中的一個超平面,顯然,當w⊤x−w0<0時,此時的點落在超平面的下方,而當w⊤x−w0>0時,此時的點落在超平面的上方。感知器模型對應的就是一個分類器的超平面,它可以將不同類別的點在N維空間中分離開。從下圖中可以發現,感知器模型是一個線性的分類器。

對於一些基本的邏輯運算,例如與、或、非,感知器模型可以非常容易地作出判斷分類。那麼是不是所有的邏輯運算都可以通過感知器進行分類呢?答案當然是否定的。比如異或運算通過一個單獨的線性感知器模型就很難作出分類,這同樣也是神經網路的發展在第一次高潮之後很快進入低谷的主要原因。這個問題最早在Minsky等人在關於感知器的著作中提出,但其實很多人對這本著作存在誤區,實際上Minsky等人在提出這個問題的同時也指出異或運算可以通過多層感知器實現,但是由於當時學術界沒有有效的學習方式去學習多層感知器模型,所以神經網路的發展迎來了第一次低谷。

關於多層感知器模型實現異或操作的直觀幾何體現如下圖所示:

三.前饋神經網路

進入十九世紀八十年代之後,由於單層的感知器神經網路的表達能力非常有限,只能做一些線性分類器的任務,神經網路的發展進入了多層感知器時代。一個典型的多層神經網路就是前饋神經網路,如下圖所示,它包括輸入層、節點數目不定的隱層和輸出層。任何一個邏輯運算都可以通過多層感知器模型表示,但這就涉及到三層之間互動的權重學習問題。將輸入層節點xk乘以輸入層到隱層之間的權重vkj,然後經過一個如sigmoid此類的啟用函式就可以得到其對應的隱層節點數值hj,同理,經過類似的運算可以由hj得出輸出節點值yi。

需要學習的權重資訊就是w和v兩個矩陣,最終得到的資訊是樣本的輸出y和真實輸出d。具體過程如下圖所示:

如果讀者有簡單的機器學習知識基礎的話,就會知道一般情況下會根據梯度下降的原則去學習一個模型。在感知器模型中採用梯度下降的原則是較為容易的,以下圖為例,首先確定模型的loss,例子中採用了平方根loss,即求出樣本的真實輸出d與模型給出的輸出y之間的差異,為了計算方便,通常情況下采用了平方關係E= 1/2 (d−y)^2 = 1/2 (d−f(x))^2 ,根據梯度下降的原則,權重的更新遵循如下規律:wj ← wi + α(d − f(x))f′(x)xi ,其中α為學習率,可以作人工調整。

四.後向傳播

對於一個多層的前饋神經網路,我們該如何學習其中所有的引數呢?首先對於最上層的引數是非常容易獲得的,可以根據之前提到的計算模型輸出和真實輸出之間的差異,根據梯度下降的原則來得出引數結果,但問題是對於隱層來說,雖然我們可以計算出其模型輸出,但是卻不知道它的期望輸出是什麼,也就沒有辦法去高效訓練一個多層神經網路。這也是困擾了當時學術界很長時間的一個問題,進而導致了上個世紀六十年代之後神經網路一直沒有得到更多發展。

後來到了十九世紀七十年代,有很多科學家獨立的提出了一個名為後向傳播的演算法。這個演算法的基本思想其實非常簡單,雖然在當時無法根據隱層的期望輸出去更新它的狀態,但是卻可以根據隱層對於Error的梯度來更新隱層到其他層之間的權重。計算梯度時,由於每個隱層節點與輸出層多個節點之間均有關聯,所以會對其上一層所有的Error作累加處理。

後向傳播的另一個優勢是計算同層節點的梯度和權重更新時可以並行進行,因為它們之間不存在關聯關係。整個BP演算法的過程可以用如下的偽碼錶示:

接下來介紹一些BP神經網路的其他性質。BP演算法其實就是一個鏈式法則,它可以非常容易地泛化到任意一個有向圖的計算上去。根據梯度函式,在大多數情況下BP神經網路給出的只是一個區域性的最優解,而不是全域性的最優解。但是從整體來看,一般情況下BP演算法能夠計算出一個比較優秀的解。下圖是BP演算法的直觀演示:

在大多數情況下,BP神經網路模型會找到範圍內的一個極小值點,但是跳出這個範圍我們可能會發現一個更優的極小值點。在實際應用中針對這樣的問題我們有很多簡單但是非常有效的解決辦法,比如可以嘗試不同的隨機初始化的方式。而實際上在深度學習領域當今比較常用的一些模型上,初始化的方式對於最終的結果是有非常大的影響的。另外一種使模型跳出區域性最優解範圍的方式是在訓練的時候加入一些隨機干擾(Random noises),或者用一些遺傳演算法去避免訓練模型停留在不理想的區域性最優解位置。

BP神經網路是機器學習的一個優秀的模型,而提到機器學習就不得不提到一個在整個機器學習過程中經常遇到的基本問題——過擬合(Overfitting)問題。過擬合的常見現象是模型在訓練集上面雖然loss一直在下降,但是實際上在test集上它的loss和error可能早已經開始上升了。避免出現過擬合問題有兩種常見的方式:

提前停止(Early Stopping):我們可以預先劃分一個驗證集(Validation),在訓練模型的同時也在驗證集之中執行這個模型,然後觀察該模型的loss,如果在驗證集中它的loss已經停止下降,這時候即使訓練集上該模型的loss仍在下降,我們依然可以提前將其停止來防止出現過擬合問題。

正則(Regularization):我們可以在神經網路中邊的權重上加一些正則。最近幾年經常用到的dropout方式——隨機丟一些點或者隨機丟一些邊,也可以看作是正則的一種方式,正則也是一種很有效的防止過擬合的應用方式。

十九世紀八十年代神經網路一度非常流行,但很不幸的是進入九十年代,神經網路的發展又陷入了第二次低谷。造成這次低谷的原因有很多,比如支援向量機(SVM)的崛起,支援向量機在九十年代是一個非常流行的模型,它在各大會議均佔有一席之地,同時也在各大應用領域都取得了非常好的成績。支援向量機有一個非常完善的統計學習理論,也有非常好的直觀解釋,並且效率也很高,結果又很理想。

所以在此消彼長的情況下,支援向量機相關的統計學習理論的崛起一定程度上壓制了神經網路的發展熱度。另一方面,從神經網路自身的角度來看,雖然理論上可以用BP去訓練任意程度的神經網路,但是在實際應用中我們會發現,隨著神經網路層數的增加,神經網路的訓練難度成幾何式增長。比如在九十年代早期,人們就已經發現在層次比較多的一個神經網路當中可能會出現梯度消失或者梯度爆炸的一個現象。

舉一個簡單的梯度消失的例子,假設神經網路的每一層都是一個sigmoid結構層,那麼BP向後傳播時它的loss每一次都會連成一個sigmoid的梯度。一系列的元素連線在一起,如果其中有一個梯度非常小的話,會導致傳播下去的梯度越來越小。實際上,在傳播一兩層之後,這個梯度已經消失了。梯度消失會導致深層次的引數幾乎靜止不動,很難得出有意義的引數結果。這也是為什麼多層神經網路非常難以訓練的一個原因所在。

學術界對於這個問題有比較多的研究,最簡單的處理方式就是修改啟用函式。早期的嘗試就是使用Rectified這種啟用函式,由於sigmoid這個函式是指數的形式,所以很容易導致梯度消失這種問題,而Rectified將sigmoid函式替換成max(0,x),從下圖我們可以發現,對於那些大於0的樣本點,它的梯度就是1,這樣就不會導致梯度消失這樣一個問題,但是當樣本點處於小於0的位置時,我們可以看到它的梯度又變成了0,所以ReLU這個函式是不完善的。後續又出現了包括Leaky ReLU和Parametric Rectifier(PReLU)在內的改良函式,當樣本點x小於0時,我們可以人為的將其乘以一個比如0.01或者α這樣的係數來阻止梯度為零。

隨著神經網路的發展,後續也出現了一些從結構上解決梯度難以傳遞問題的方法,比如元模型,LSTM模型或者現在影象分析中用到非常多的使用跨層連線的方式來使其梯度更容易傳播。

五.深度學習入門

經過上個世紀九十年代神經網路的第二次低谷,到2006年,神經網路再一次回到了大眾的視野,而這一次迴歸之後的熱度遠比之前的任何一次興起時都要高。神經網路再次興起的標誌性事件就是Hinton等人在Salahudinov等地方發表的兩篇關於多層次神經網路(現在稱作“深度學習”)的論文。

其中一篇論文解決了之前提到的神經網路學習中初始值如何設定的問題,解決途徑簡單來說就是假設輸入值是x,那麼輸出則是解碼x,通過這種方式去學習出一個較好的初始化點。而另一篇論文提出了一個快速訓練深度神經網路的方法。其實造成現在神經網路熱度現狀的原因還有很多,比如當今的計算資源相比當年來說已經非常龐大,而資料也是如此。在十九世紀八十年代時期,由於缺乏大量的資料和計算資源,當時很難訓練出一個大規模的神經網路。

神經網路早期的崛起主要歸功於三個重要的標誌性人物Hinton、Bengio和LeCun。Hinton的主要成就在於布林計算機(Restricted BoltzmannMachine)和深度自編碼機(Deep autoencoder);Bengio的主要貢獻在於元模型在深度學習上的使用取得了一系列突破,這也是深度學習最早在實際應用中取得突破的領域,基於元模型的language modeling在2003時已經可以打敗當時最好的概率模型;LeCun的主要成就代表則是關於CNN的研究。深度學習崛起最主要的表現是在各大技術峰會比如NIPS,ICML,CVPR,ACL上佔據了半壁江山,包括Google Brain,Deep Mind和FaceBook AI等在內的研究部門都把研究工作的中心放在了深度學習上面。

神經網路進入公眾視野後的第一個突破是在語音識別領域,在使用深度學習理論之前,人們都是通過使用定義好的統計庫來訓練一些模型。在2010年,微軟採用了深度學習的神經網路來進行語音識別,從圖中我們可以看到,兩個錯誤的指標均有將近三分之一的大幅度下降,效果顯著。而基於最新的ResNet技術,微軟公司已經把這個指標降到了6.9%,每一年都有一個明顯的提升。

到2012年,在圖片分類領域,CNN模型在ImageNet上取得了一個較大的突破。測試圖片分類的是一個很大的資料集,要將這些圖片分成1000類。在使用深度學習之前,當時最好的結果是錯誤率為25.8%(2011年的一個結果),在2012年Hinton和它的學生將CNN應用於這個圖片分類問題之後,這個指標下降了幾乎10%,自2012年之後,我們從圖表中可以觀察到每一年這個指標都有很大程度的突破,而這些結果的得出均使用了CNN模型。

深度學習模型能取得如此大的成功,在現代人看來主要歸功於其層次化的結構,能夠自主學習並將資料通過層次化結構抽象地表述出來。而抽象出來的特徵可以應用於其他多種任務,這也是深度學習當前十分火熱的原因之一。

下面介紹兩個非常典型且常用的深度學習神經網路:一個是卷積神經網路(CNN),另外一個是迴圈神經網路。

1.卷積神經網路

卷積神經網路有兩個基本核心概念,一個是卷積(Convolution),另一個是池化(Pooling)。講到這裡,可能有人會問,為什麼我們不簡單地直接使用前饋神經網路,而是採用了CNN模型?舉個例子,對於一個1000*1000的影象,神經網路會有100萬個隱層節點,對於前饋神經網路則需要學習10^12這樣一個龐大數量級的引數,這幾乎是無法進行學習的,因為需要海量的樣本。但實際上對於影象來說,其中很多部分具有相同的特徵,如果我們採用了CNN模型進行圖片的分類的話,由於CNN基於卷積這個數學概念,那麼每個隱層節點只會跟影象中的一個區域性進行連線並掃描其區域性特徵。假設每個隱層節點連線的區域性樣本點數為10*10的話,那麼最終引數的數量會降低到100M,而當多個隱層所連線的區域性引數可以共享時,引數的數量級更會大幅下降。

從下圖中我們可以直觀的看出前饋神經網路和CNN之間的區別。圖中的模型從左到右依次是全連線的普通的前饋神經網路,區域性連線的前饋神經網路和基於卷積的CNN模型網路。我們可以觀察到基於卷積的神經網路隱層節點之間的連線權重引數是可以共享的。

另一個操作則是池化(Pooling),在卷積生成隱層的基礎上CNN會形成一箇中間隱層——Pooling層,其中最常見的池化方式是Max Pooling,即在所獲得的隱層節點中選擇一個最大值作為輸出,由於有多個kernel進行池化,所以我們會得到多箇中間隱層節點。

那麼這樣做的好處是什麼呢?首先,通過池化操作會是引數的數量級進一步縮小;其次就是具有一定的平移不變性,如圖所示,假設圖中的九個隱層節點中的其中一個發生平移,池化操作後形成的Pooling層節點仍舊不變。

CNN的這兩個特性使得它在影象處理領域的應用非常廣泛,現在甚至已經成為了影象處理系統的標配。像下面這個視覺化的汽車的例子就很好地說明了CNN在影象分類領域上的應用。將原始的汽車圖片輸入到CNN模型之中後,從起初最原始的一些簡單且粗糙的特徵例如邊和點等,經過一些convolution和RELU的啟用層,我們可以直觀的看到,越接近最上層的輸出影象,其特徵越接近一輛汽車的輪廓。該過程最終會得到一個隱層表示並將其接入一個全連線的分類層然後得出圖片的類別,如圖中的car,truck,airplane,ship,horse等。

下圖是早期LeCun等人提出的一個用於手寫識別的神經網路,這個網路在九十年代時期已經成功運用到美國的郵件系統之中。感興趣的讀者可以登入LeCun的網站檢視其識別手寫體的動態過程。

當CNN在影象領域應用十分流行的同時,在近兩年CNN在文字領域也得到了大規模應用。例如對於文字分類這個問題,目前最好的模型是基於CNN模型提出來的。從文字分類的特點來看,對一個文字的類別加以鑑別實際上只需要對該文字中的一些關鍵詞訊號加以識別,而這種工作非常適合CNN模型來完成。

實際上如今的CNN模型已經應用到人們生活中的各個領域,比如偵查探案,自動駕駛汽車的研發,Segmenttation還有Neural Style等方面。其中Neural Style是個非常有趣的應用,比如之前App Store中有個非常火的應用Prisma,可以將使用者上傳的照片轉換成其他的風格,比如轉換成梵高的星空一樣的畫風,在這其中就大量應用了CNN的技術。

2. 迴圈神經網路

關於迴圈神經網路的基本原理如下圖所示,從圖中可以看迴圈神經網路的輸出不僅依賴於輸入x,而且依賴於當前的隱層狀態,而這個隱層狀態會根據前一個x進行更新。從展開圖中可以直觀的理解這個過程,第一次輸入的中間隱層狀態S(t-1)會影響到下一次的輸入X(t)。迴圈神經網路模型的優勢在於可以用於文字、語言或者語音等此類序列型的資料,即當前資料的狀態受到此前資料狀態的影響。對於此類資料,前饋神經網路是很難實現的。

提到RNN,那就不得不介紹一下之前提到的LSTM模型。實際上LSTM並不是一個完整的神經網路,它只是一個RNN網路中的節點經過複雜處理後的結果。LSTM中包含三個門:輸入門,遺忘門和輸出門。

這三個門均用於處理cell之中的資料內容,分別決定是否要將cell中的資料內容輸入、遺忘和輸出。

最後介紹一個目前非常流行的交叉領域的神經網路的應用——將一個圖片轉換成描述形式的文字或者該圖片的title。具體的實現過程可以簡單的解釋為首先通過一個CNN模型將圖片中的資訊提取出來形成一個向量表示,然後將該向量作為輸入傳送到一個訓練好的RNN模型之中得出該圖片的描述。

直播視訊回顧地址:https://yq.aliyun.com/video/play/1370?spm=a2c41.11124528.0.0


B深度學習並非萬能:你需要避免這三個坑(1460)

深度學習並非萬能:你需要避免這三個坑

文|George Seif,彙編:資料簡化社群秦隴紀,2018-08-28Tue

人工智慧專家George Seif撰寫博文《調整神經網路引數——三你不應該使用深度學習的理由》(Tweaking Neural Net Parameters--Three reasons that you should NOTuse deep learning),介紹當前深度學習比較火熱的情景下需要避免的三個坑,本文為漢譯版。

圖1 調整神經網路引數Tweaking Neural Net Parameters

深度學習在過去幾年一直是人工智慧領域最熱門的話題。事實上,正是它激發科學家、政府、大公司以及其他所有人對人工智慧的極大新興趣!這是一門很酷的科學,具有潛在的巨大的實用性和積極的應用。它正被用於金融、工程、娛樂、消費產品和服務等領域。

但是,所有應用都需要使用到深度學習嗎?當我們開展一個新的專案時,我們需要不自覺地一開始就使用深度學習嗎?在有些情況下,使用深度學習是不合適的,我們需要選擇一些別的方案。讓我們來探討一下這些情況吧。

一、深度學習不適用於小資料集

為了獲得高效能,深度網路需要非常大的資料集。標註的資料越多,模型的效能就越好。獲得標註良好的資料既昂貴又耗時。僱傭人工手動收集圖片並標記它們根本沒有效率可言。在深度學習時代,資料無疑是最有價值的資源。

最新的研究表明,實現高效能的網路通常需要經過數十萬甚至數百萬樣本的訓練。對於許多應用來說,這樣大的資料集並不容易獲得,並且獲取成本高且耗時。對於較小的資料集,傳統的ML演算法(如迴歸、隨機森林和支援向量機)通常優於深度網路。

二、深度學習運用於實踐是困難且昂貴的

深度學習仍然是一項非常尖端的技術。您可以像許多人一樣獲得快速簡便的解決方案,特別是使用廣泛使用的API,例如Clarifai和Google的AutoML。但如果你想做一些定製化的事情,這樣的一些服務是不夠的。除非你願意把錢花在研究上,否則你就會侷限於做一些和其他人稍微相似的事情。這也是很昂貴,不僅是因為需要獲取資料和計算能力所需的資源,還因為需要僱傭研究人員。深度學習研究現在非常熱門,所以這三項費用都非常昂貴。當你做一些定製化的事情時,你會花費大量的時間去嘗試和打破常規。

三、深層網路不易解釋

深層網路就像是一個“黑盒子”,即使到現在,研究人員也不能完全理解深層網路的“內部”。深層網路具有很高的預測能力,但可解釋性較低。由於缺乏理論基礎,超引數和網路設計也是一個很大的挑戰。

雖然最近有許多工具,如顯著性對映(saliencymaps)和啟用差異(activation differences),它們在某些領域非常有效,但它們並不能完全適用於所有應用程式。這些工具的設計主要用於確保您的網路不會過度擬合數據,或者將重點放在虛假的特定特性上。仍然很難將每個特徵的重要性解釋為深層網路的整體決策。

另一方面,經典的ML演算法,如迴歸或隨機森林,由於涉及到直接的特徵工程,就很容易解釋和理解。此外,調優超引數和修改模型設計的過程也更加簡單,因為我們對資料和底層演算法有了更深入的瞭解。當必須將網路的結果翻譯並交付給公眾或非技術受眾時,這些內容尤其重要。我們不能僅僅說“我們賣了那隻股票”或“我們在那個病人身上用了這藥”是因為我們的深層網路是這麼說的,我們需要知道為什麼。不幸的是,到目前為止,我們所掌握的關於深度學習的所有證據或者解釋都是經驗主義的。(來源;人工智慧學家)


C 2018年全球AI突破性技術TOP10 (5240)

2018年全球AI突破性技術TOP10

文|高德納,彙編:資料簡化社群秦隴紀,2018-08-28Tue

人工智慧是個高科技、寬領域、多維度、跨學科的集大成者,從立足大資料、圍繞網際網路的純計算機應用,逐步衍生到人們日常生產生活的方方面面,在細微之處改善和改變著我們。目前,不少新技術、新模式已經逐步投入到現實運用,但是多數領域仍然處在推廣、試驗、研究階段,如何把握推廣人工智慧技術的重大機遇,讓更廣大的老百姓像普及手機一樣,用上人工智慧,這是我們這一代人必須面對的時代發展“必答題”。

2018年人工智慧技術已在多方面實現突破進展,國內外的科技公司都在不斷嘗試將人工智慧應用於更多領域,不論科技巨頭還是初創企業,都在致力於不斷創新,推動技術進步,接下來我們就來看看十項中外人工智慧領域富有突破性的技術。

1 基於神經網路的機器翻譯

入選理由:翻譯是“自然語言處理”的最重要分支,也是比較難的一支。早年間,機器翻譯還被視作 “低階翻譯”被嘲諷,如今神經網路的機器翻譯準確性大大提高,堪比專業人工翻譯。我們熟知的谷歌翻譯、微軟語音翻譯以及搜狗語音識別等都是基於此項技術。

技術突破:機器翻譯是科研人員攻堅了數十年的研究領域,其技術核心是一個擁有海量結點的深度神經網路,可以自動的從語料庫中學習翻譯知識。

人類大腦處理語言的過程毫無疑問是最為複雜的認知過程之一,曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。神經網路中的多層感知就試圖模擬人類大腦神經多層傳遞處理的過程,但通常不超過三層。2006年,科學家提出了神經網路的深度學習演算法,使至少具有7層的神經網路訓練成為可能。由於能夠比較好地模擬人腦神經元多層深度傳遞的過程,它在解決一些複雜問題的時候有著非常明顯的突破性表現。

今年3月,微軟宣佈其研發的機器翻譯系統首次在通用新聞的漢譯英上達到了人類專業水平,實現了自然語言處理的又一里程碑突破,將機器翻譯超越人類業餘譯者的時間,提前了整整7年。

重大意義:基於神經網路的機器翻譯,直接改善了之前逐詞直譯的效果,升級為以整個句子為單位進行翻譯。

點評:機器翻譯在手,縱橫四海不是問題。

2 基於多感測器跨界融合的機器人自主導航

入選理由:機器人的終極目標是為人類提供智慧化的服務,其中自主導航是近年來人類一直想要攻克的技術壁壘,臻迪(PowerVision)通過聲吶、視覺等多感測器融合,使其水下機器人能實現自主導航及智慧識別,在智慧機器人領域內取得了突破性進展。

技術突破:隨著機器人的應用場景及作業任務越來越複雜,單一感測器難以滿足應用需求。而多感測器的資訊融合對硬體資源依賴程度比較高,臻迪(PowerVision)基於自身在機器人行業深耕細作多年所積累的各類感測器、慣性導航、運動控制、相機、視覺檢測/識別、SLAM等核心技術,以及深度學習的深入研究,通過嵌入式端一體化整合平臺的系統架構及優化設計,突破了移動平臺硬體資源的限制,使水下機器人更加準確、智慧、全面地感知目標,並具備對水下目標進行鎖定、檢測、識別、跟隨的能力。

重大意義:通過導航控制、聲吶、視覺技術與深度學習的結合實現了機器人在全域性環境中的定位及自主導航,以及智慧化應用,為人類探索更為廣闊的水下應用提供了強有力的技術保障。

點評:這也許是未來人工智慧落地的最佳方式

3 DuerOS對話式人工智慧系統

入選理由:DuerOS3.0能夠為使用者帶來了劃時代的自然對話互動,包括情感語音播報、聲紋識別等能力在內的自然語言互動技術的全面升級。

技術突破:DuerOS是百度度祕事業部研發的對話式AI作業系統,擁有10大類目的250多項技能。DuerOS包括了從語音識別到語音播報再到螢幕顯示的一個完整互動流程,以及背後支撐互動的自然語言理解、對話狀態控制、自然語言生成、搜尋等等核心技術,這些技術支撐著應用層和能力層的實現。

2018年7月4日,最新的DuerOS 3.0正式釋出,使賦能的產品能夠實現語音多輪糾錯,進行復雜的遞進意圖識別與帶邏輯的條件意圖識別,從而更加準確判斷使用者意圖,最終實現功能升維——利用擴充套件特徵理解使用者行為。基於此,DuerOS3.0提供了包括有屏裝置解決方案、藍芽裝置解決方案和行業解決方案等在內超過20個跨場景、跨裝置的解決方案。

重大意義:DuerOS率先開啟AI時代商業化,將為生態合作伙伴從產品、內容與推廣三大方面提供完整的應用方案支援,加速AI裝置落地。

點評:小度小度,請問下一個技術我寫什麼?

4 移動AR技術

入選理由:未來AR與AI需要相互加持,可以將AR比喻成AI的眼睛。

技術突破:集成了眾多計算機科技和圖形影象學技術,包括實時渲染技術、空間定位追蹤、影象識別、人機互動、顯示技術、雲端儲存、資料傳輸、內容開發工具等領域。

AR技術不僅展現了真實世界的資訊,而且將虛擬的資訊同時顯示出來,兩種資訊相互補充、疊加。在視覺化的增強現實中,使用者利用頭戴顯示器,把真實世界與電腦圖形多重合成在一起,便可以看到真實的世界圍繞著它。增強現實技術包含了多媒體、三維建模、實時視訊顯示及控制、多感測器融合、實時跟蹤及註冊、場景融合等新技術與新手段,為人類感知資訊提供了新的方式。

未來移動AR技術將向創意性AR應用、基於位置的AR體驗、多人AR體驗發展。

重大意義:隨著蘋果ARKit、谷歌 ARCore 的釋出,移動AR在兩大移動平臺上均意義重大。這也意味著,全球5億臺支援AR功能的移動裝置正在吸引所有的公司入局,這些公司正在將資料與 API 相結合,為使用者創造新的 AR 體驗。

點評:感覺自己離進入真正的二次元世界不遠了。

5 生物特徵識別技術

入選理由:行為識別技術應用於安防,為安全又上了一道鎖。

技術突破:店鋪安裝攝像頭已經是一件非常普遍的行為,但普通的攝像頭只能紀錄店鋪內人們的行為,如果發現盜竊需要通過觀看監控記錄人工排查,耗時費力。

而近日,日本電信巨頭宣佈已研發出一款名為“AI Guardman”的新型人工智慧安全攝像頭,這款攝像頭可以通過對人類動作意圖的理解,在盜竊行為發生前就能準確預測,從而幫助商店識別偷竊行為,發現潛在的商店扒手。

這套人工智慧系統採用開源技術,能夠實時對視訊流進行掃描,並預測人們的姿勢。當遇到監控中出現可以行為時,系統會嘗試將姿勢資料與預定義的“可疑”行為匹配,一旦發現就會通過相關手機App來通知店主。據相關媒體報道,這款產品使得商店減少了約四成的盜竊行為。

重大意義:通過行為識別技術,能夠第一時間發現犯罪分子,預測犯罪行為,有效保護店鋪安全。

點評:去日本的商店買東西一定要果斷,被誤會成小偷就不好啦。

6 機器人流程自動化

入選理由:機器人流程自動化能夠幫助甚至代替人類負擔大量簡單且單一、重複而繁重的工作,並且效率更高、零失誤。

技術突破:機器人流程自動化(RPA)是通過使用高效能認知技術實現業務的自動化和工作的效率。人類只需在操作介面上編寫需要人工完成的工作流程,即可處理各種業務,如瀏覽器,雲,以及各種軟體。

Gartner資料顯示,在過去的一年中,全球範圍中大型商業巨頭裡有300家陸陸續續開展了RPA工程,將原先手工化的流程進行自動化改革。隨著科技的進步RPA將融入更多人工智慧技術,即智慧流程自動化(IntelligentProcess Automation)。相當於在基於規則的自動化基礎(RPA)之上增加基於深度學習和認知技術的推理、判斷、決策能力。

重大意義:機器人流程自動化能夠大幅提升企業的工作效率,減少人員投入,幫助企業降低成本,讓人類釋放生產力,騰出雙手去做價值更高的事情。

點評:小白領被嚇的瑟瑟發抖,請老闆別炒我。

7 畫素級聲源定位系統PixelPlayer

入選理由:從視覺和聽覺訊號角度實現聲源分離,開闢研究新途徑。

技術突破:在進行音樂編輯時,一般是利用均衡器將音樂中的低音部分調出來,而麻省理工學院電腦科學和人工智慧實驗室的研究人員發現了更好的解決方案。他們所研發的新系統PixelPlayer。

PixelPlayer能夠通過結合聲音和影象資訊,機器學習系統能以無監督的方式從影象或聲音中識別目標、定點陣圖像中的目標,以及分離目標產生的聲音。當我們給定一個輸入視訊,PixelPlayer可以聯合地將配音分離為目標元件以及在影象幀上定位目標元件。PixelPlayer允許在視訊的每個畫素上定位聲源。

簡單點說就是PixelPlayer能識別出視訊中哪個物體發出哪些聲音,並將聲音分離出來。

重大意義:PixelPlayer能夠過濾伴奏、識別音源,不僅能幫助人類處理音樂,還能夠幫助機器人更好地理解其他物體所產生的環境聲音。

點評:如果老師用了這個系統,就能立刻找出課堂交頭接耳的同學。

8 兼顧高精度學習和低精度推理的深度學習晶片

入選理由:這個晶片可以涵蓋了目前已知的最佳訓練和最好推理,能夠保持所有處理器元件能夠得到資料和工作。

技術突破:該深度學習晶片是IBM正在研究的專案之一。IBM將這個晶片的目標利用率定在90%。這將是一個質的突破,為了實現這一突破,IBM的研發團隊做了兩項創新。

首先,利用率低通常是因為存在於晶片周圍的資料流瓶頸。為了突破這些資訊障礙,該專案的團隊開發了一個“定製”的資料流系統。該資料流系統是一種網路方案,可以加速資料從一個處理引擎到下一個處理引擎的傳輸過程。它還針對要處理的是學習任務還是推理任務以及不同的精度進行了優化。

第二項創新是團隊使用專門設計的“便箋本”形式的片上儲存器,而不是CPU或GPU上的傳統高速緩衝儲存器。構建它的目標是為了保持資料流經晶片的處理引擎,並確保資料在恰當的時間處於正確的位置。為了獲得90%的利用率,IBM必須使設計出的便箋本具有巨大的讀/寫頻寬。

重大意義:該晶片可以執行當前所有的三種主要深度學習AI:卷積神經網路(CNN)、多層感知器(MLP)和長-短期記憶(LSTM)。這些技術共同主導了語言、視覺和自然語言處理。

點評:目前深度學習技術陷入瓶頸,IBM的深度學習晶片也許能夠扭轉這一局勢。

9 智慧代理訓練平臺

入選理由:智慧代理技術使計算機應用趨向人性化、個性化。它能夠以主動服務的方式完成的一組操作的機動計算實體,不需要人的即時干預。

技術突破:智慧代理技術具有解決問題所需的豐富知識、策略和相關資料,能夠進行相關的推理和智慧計算,智慧代理還可以在使用者沒有給出十分明確的需求時推測出使用者的意圖、興趣或愛好,並按最佳方式代為其完成任務,並能自動拒絕一些不合理或可能給使用者帶來危害的要求;智慧代理還從經驗中不斷自我學習,能夠根據環境調整自身的行為,從而提高處理問題的能力。

智慧代理技術可以應用於商業、智慧搜尋代理、數字圖書館、電子商務和遠端教育的研究等,現在它也被應用於遊戲領域。

Unity是全球領先的遊戲開發公司之一,去年其推出了機器學習平臺ML-Agents,讓AI開發人員和研究人員在Unity模擬和遊戲環境中,使用演化策略、深度強化學習和其他訓練方法來訓練智慧代理。這種模擬訓練的方法在工業機器人、無人機、無人駕駛車輛和遊戲角色設計中均有著廣泛應用。

重大意義:Unity以使機器學習研究人員獲得最強大的訓練場景為使命,為快速增長的AI愛好者群體探索深度學習提供了一個研究平臺。

點評:NPC越來越聰明,對於遊戲手殘黨來說可能不是個好事。

10 入耳式人工智慧

入選理由:耳機從外變成了智慧穿戴裝置,可以無限延續使用時間和場景。

技術突破:蘋果在今年即將推出的AirPods 2中加入了Siri喚起、內建晶片等等,可以收集行走步數、心率資料和體溫等等,還可以通過內建陀螺儀捕捉使用者頭部移動狀況甚至定位位置,當然也可以通過麥克風接受命令,再通過揚聲器進行反饋。

谷歌的實時翻譯無線耳機PixelBuds常被拿來與AirPods相比,PixelBuds對Google Assistant的喚起十分迅速,只要把手指放在耳機的觸控板上,幾乎同一時刻就可以和GoogleAssistant進行對話。

AirPods與PixelBuds讓我們重新定義了耳機對人類的作用,相比手腕上的智慧手錶,耳機顯然可以更方便的進行語音互動,在接收資訊時更無需佔用寶貴的視覺空間。還將智慧音箱式的遠場互動變成更自然也更快捷的近場互動。

重大意義:智慧耳機讓智慧助理更接近隨身隨行,蘋果、谷歌的涉足,必將帶起一波耳中AI的風潮。

點評:現在我們手機不離手,以後可能要耳機不離耳了。

我們看到這些科技公司或者科研團隊,學習翻譯、研究捕魚、開發遊戲、做著音樂……看似“不務正業”,而這恰恰證明了,人工智慧不單單是一種技術或一個產品。

從IBM、蘋果,到谷歌,百度,所有的人工智慧巨頭都在嘗試軟體、硬體、應用場景的聯通。聰明的科技公司都不再單一的專注於自己的傳統業務,而是著眼於未來,不斷創新技術,跨界融合打造一個整合的生態系統。(來源:艾瑞網)


D新一代人工智慧領域十大最具成長性技術展望(2114)

新一代人工智慧領域十大最具成長性技術展望

文|不詳,彙編:資料簡化社群秦隴紀,2018-08-28Tue

據悉,當前,全球正在經歷科技和產業高度耦合、深度迭加的新一輪變革,大資料的形成、理論演算法的革新、計算能力的提升及網路設施的演進驅動人工智慧進入新一輪創新發展高峰期,新技術持續獲得突破性進展,呈現出深度學習、跨界融合、人機協同、群智開放、自主操控等以應用為導向的新特徵。加強新一代人工智慧技術的前瞻預判,準確把握全球技術創新動態及發展趨勢,將為行業健康發展、資金有序進入、政策規劃出臺、新興市場開拓等提供具備決策參考價值和實踐指導意義的智力支撐。

圍繞於此,中國電子學會依據國家出臺的《新一代人工智慧發展規劃》、《促進新一代人工智慧產業發展三年行動計劃(2018-2020年)》等一系列政策規劃,調研走訪了一批在新一代人工智慧技術及產業方面具備領先水平和特色的龍頭企業,組織拜訪了來自於知名高校、研究機構的人工智慧相關領域專家學者,系統梳理了權威智庫和知名戰略諮詢公司的最新報告,遴選了十項最具特色的成長性技術,得出以下結論:

1、對抗性神經網路

對抗性神經網路是指由一個不斷產生資料的神經網路模組與一個持續判別所產生資料是否真實的神經網路模組組成的神經網路架構,創造出近似真實的原創影象、聲音和文字資料的技術。該技術有望大幅提升機器翻譯、人臉識別、資訊檢索的精度和準確性,隨著三維模型資料序列能力的提升,未來將在自動駕駛、安防監控等領域產生可觀的應用價值。

圖1對抗性神經網路中產生資料與判別資料持續進行

資料來源:《麻省理工科技評論》

2、膠囊網路

網路膠囊是指在深度神經網路中構建多層神經元模組,用以發現並存儲物體詳細空間位置和姿態等資訊的技術。該技術能使機器在樣本資料較少情形下,快速識別不同情境下的同一物件,在人臉識別、影象識別、字元識別等領域具有廣闊的應用前景。

3、雲端人工智慧

雲端人工智慧是指將雲端計算的運作模式與人工智慧深度融合,在雲端集中使用和共享機器學習工具的技術。該技術將龐大的人工智慧執行成本轉移到雲平臺,能夠有效降低終端裝置使用人工智慧技術的門檻,有利於擴大使用者群體,未來將廣泛應用於醫療、製造、能源、教育等多個行業和領域。

圖3推出人工智慧服務的主要雲端計算公司

資料來源:中國電子學會整理

4、深度強化學習

深度強化學習是指將深度神經網路和具有決策能力的強化學習相結合,通過端到端學習的方式實現感知、決策或感知決策一體化的技術。該技術具有無需先驗知識、網路結構複雜性降低、硬體資源需求少等特點,能夠顯著提升機器智慧適應複雜環境的效率和健壯性,將在智慧製造、智慧醫療、智慧教育、智慧駕駛等領域具有廣闊發展前景。

圖4深度強化學習具有良好的結構特點

5、智慧腦機互動

智慧腦機互動是指通過在人腦神經與具有高生物相容性的外部裝置間建立直接連線通路,實現神經系統和外部裝置間資訊互動與功能整合的技術。該技術採用人工智慧控制的腦機介面對人類大腦的工作狀態進行準確分析,達到促進腦機智慧融合的效果,使人類溝通交流的方式更為多元和高效,未來將廣泛應用於臨床康復、自動駕駛、航空航天等多個領域。

圖5智慧腦機互動使人類溝通交流高效化

6、對話式人工智慧平臺

對話式人工智慧平臺是指融合語音識別、語義理解、自然語言處理、語音合成等多種解決方案,為開發者提供具備識別、理解及反饋能力的開放式平臺的技術。該技術能夠實現機器與人在對話服務場景中的自然互動,未來有望在智慧可穿戴裝置、智慧家居、智慧車載等多個領域得到大規模應用。

資料來源:IDC,中國電子學會整理

7、情感智慧

情感智慧是指利用人工智慧手段模擬表情、語氣、情感等類人化情緒響應,以打造具有情緒屬性的虛擬形象的技術。該技術可賦予機器裝置更好的對人類情感的識別、理解和引導能力,為使用者帶來更具效率和人性化的互動體驗,未來將在智慧機器人、智慧虛擬助手等領域得到更為頻繁和深入的應用。

圖7情感智慧技術將模擬人的情緒

資料來源:《人類神經科學前沿》

8、神經形態計算

神經形態計算是指模擬生物大腦神經系統,在晶片上模擬生物神經元、突觸的功能及其網路組織方式,賦予機器感知和學習能力的技術。該技術的目標在於使機器具備類似生物大腦的低功耗、高效率、高容錯等特性,將在智慧駕駛、智慧安防、智慧搜尋等領域具有廣闊應用前景。

圖8神經形態計算的結構

資料來源:中國電子學會整理

9、元學習

元學習是指將神經網路與人類注意機制相結合,構建通用演算法模型使機器智慧具備快速自主學習能力的技術。該技術能夠使機器智慧真正實現自主程式設計,顯著提升現有演算法模型的效率與準確性,未來的進一步應用將成為促使人工智慧從專用階段邁向通用階段的關鍵。

圖9元學習實現快速自主學習

10、量子神經網路

量子神經網路是指採用量子器件搭建神經網路,優化神經網路結構和效能的技術。該技術充分利用了量子計算超高速、超並行、指數級容量的特點,有效縮短了神經網路的訓練時間,未來將在人臉識別、影象識別、字元識別等領域具有重要應用價值和廣闊前景。

圖10量子神經網路結構示意圖

資料來源:聯合量子研究院(JQI)

來源:中國電子學會


E先進製造業-數字化解決方案(64)

先進製造業-數字化解決方案

文|B&P,彙編:資料簡化社群秦隴紀,2018-08-28Tue

-END-

 

參考文獻(354字)

1.產業智慧官.【人工智慧】2018北京世界機器人大會,新一代人工智慧創新研討會北京共識.[EB/OL]產業智慧官,https://mp.weixin.qq.com/s?__biz=MzI3NDI4MzIyNQ==&mid=2247489459&idx=1&sn=4841172b46a6d88cacecc3ca45df81ee,2018-08-18.

x.秦隴紀.資料簡化社群2018年全球資料庫總結及18種主流資料庫介紹;資料科學與大資料技術專業概論;人工智慧研究現狀及教育應用;資訊社會的資料資源概論;純文字資料溯源與簡化之神經網路訓練;大資料簡化之技術體系.[EB/OL]資料簡化DataSimp(微信公眾號),http://www.datasimp.org,2017-06-06.

神經網路、深度學習、人工智慧、智慧製造資料彙編(16218字)

秦隴紀

簡介:神經網路、深度學習、人工智慧、智慧製造2018資料彙編。(公號回覆“AI2018資料”,文末“閱讀原文”可下載48圖18k字29頁PDF資料,歡迎轉發、讚賞支援科普。)藍色連結“科學Sciences”關注後下方選單項有文章分類頁。作者:秦隴紀。來源:資料簡化社群秦隴紀微信群聊公眾號,引文出處請看參考文獻。主編譯者:秦隴紀,資料簡化社群、科學Sciences、知識簡化新媒體創立者,資料簡化OS架構師、C/Java/Python/Prolog程式設計師,IT教師。每天大量中英文閱讀/設計開發除錯/文章匯譯編簡化,時間精力人力有限,歡迎轉發/讚賞/加入支援社群。版權宣告:科普文章僅供學習研究,公開資料©版權歸原作者,請勿用於商業非法目的。秦隴紀2018資料簡化DataSimp綜合匯譯編,投稿合作,或出處有誤、侵權、錯誤或疏漏(包括原文錯誤)等,請聯絡[email protected]溝通、指正、授權、刪除等。歡迎轉發:“資料簡化DataSimp、科學Sciences、知識簡化”新媒體聚集專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學麵。秦隴紀發起未覆蓋各領域,期待您參與~~強烈譴責超市銀行、學校醫院、政府公司肆意收集、濫用、倒賣公民姓名、身份證號手機號、單位家庭住址、生物資訊等隱私資料!

 

Appx.資料簡化DataSimp社群簡介(835字)

資訊社會之資料、資訊、知識、理論持續累積,遠超個人認知學習的時間、精力和能力。應對大資料時代的資料爆炸、資訊爆炸、知識爆炸,解決之道重在資料簡化(DataSimplification):簡化減少知識、媒體、社交資料,使資訊、資料、知識越來越簡單,符合人與裝置的負荷。資料簡化2018年會議(DS2018)聚焦資料簡化技術(DataSimplificationTechniques):對各類資料從採集、處理、儲存、閱讀、分析、邏輯、形式等方面做簡化,應用於資訊及資料系統、知識工程、各類資料庫、物理空間表徵、生物醫學資料,數學統計、自然語言處理、機器學習技術、人工智慧等領域。歡迎投稿資料科學技術、簡化例項相關論文提交電子版(最好有PDF格式)。填寫申請表加入資料簡化DataSimp社群成員,應至少一篇資料智慧、程式設計開發IT文章:①高質量原創或翻譯美歐資料科技論文;②社群網站義工或完善S圈型黑白靜態和三彩色動態社群LOGO圖示論文投稿、加入資料簡化社群,詳情訪問www.