1. 程式人生 > >《神經網絡與機器學習》導言

《神經網絡與機器學習》導言

http 模糊 突出 函數類 基於 容錯 附加 識別 scale

1.什麽是神經網絡

人腦是一個高度復雜的、非線性的和並行的計算機器(信息處理系統)。人腦能夠組織他的組成成分,即神經元,以比今天已有的最快的計算機還要快許多倍的速度進行特定的計算(如模式識別、感知和發動機控制)。具體來說,完成一個感知識別任務(例如識別一張被嵌入陌生場景的熟悉的臉)人腦大概需要100~200毫秒,而一臺高效的計算機卻要花費比人腦多很多的時間才能完成一個相對簡單的任務。

一個“進化中”的神經系統是與可塑的大腦同義的。可塑性允許進化中的神經系統適應(adapt)其周邊環境。可塑性似乎是人類大腦中作為信息處理單元的神經元功能的關鍵,同樣,它在人工神經元組成的神經網絡中亦是如此。最普通形式的神經網絡,就是對人腦完成特定任務或感興趣功能所采用的方法進行建模的機器。

為了獲得良好性能,神經網絡使用一個很龐大的簡單計算單元間的相互連接,這些簡單計算單元稱為“神經元”或者“處理單元”。據此我們給出將神經網絡看作一種自適應機器的定義:

神經網絡是由簡單處理單元構成的大規模並行分布式處理器,天然地具有存儲經驗知識和使之可用的特性。神經網絡在兩個方面與大腦相似:

1.神經網絡是通過學習過程從外界環境中獲取知識的

2.互連神經元的連接強度,即突觸權值,用於存儲獲取的知識

用於完成學習過程的程序稱為學習算法,其功能是以有序的方式改變網絡的突觸權值以獲得想要的設計目標。

神經網絡的優點

神經網絡的計算能力可通過以下兩點得到體現:第一,神經網絡的大規模並行分布式結構;第二,神經網絡的學習能力以及由此而來的泛化能力。泛化是指神經網絡對未在訓練(學習)過程中遇到的數據可以得到合理的輸出。這兩種信息處理能力讓神經網絡可以找到一些當前難以處理的復雜(大規模)問題的好的近似解。

神經網絡具有下列有用的性質和能力:

1.非線性

2.輸入輸出映射:稱之為有教師學習或監督學習

3.自適應性:神經網絡具有調整自身突觸權值以適應外界環境變化的固有能力。特別是,一個在特定運行環境下接受訓練的神經網絡,在環境條件不大的時候可以很容易地進行重新訓練。而且,當它在一個不穩定環境(即它的統計特性隨時間變化)中運行時,可以設計神經網絡使得其突觸權值隨時間實時變化。但是,需要強調的是,自適應性不一定總能導致魯棒性,實際還可能導致相反結果。

4.證據響應:在模式分類問題中,神經網絡可以設計成不僅提供選擇哪一個特定模式的信息,還提供關於決策的置信度信息。後者可以用來拒判那些可能出現的過於模糊的模式,從而進一步改善網絡的分類性能。

5.上下文信息:神經網絡的特定結構和激發狀態代表知識。網絡中每一個神經元都受網絡中其他神經元全局活動的潛在影響。因此,神經網絡將很自然地能夠處理上下文信息

6.容錯性:一個以硬件形式實現地神經網絡具有天生的容錯性,或者說具有魯棒計算的能力,在這種意義上其性能在不利的運行條件下是逐漸下降的。

7.VLSI:神經網絡的大規模並行性使它具有快速處理某些任務的潛在能力。這一特性使得神經網絡很適合使用超大規模集成(very-large-scale-integrated,VLSI)技術來實現。

8.神經生物類比

2.神經元模型

我們在這裏給出神經元模型的三種基本元素:

1.突觸或連接鏈集

2.加法器

3.激活函數

激活函數類型

1.閾值函數

技術分享圖片

2.sigmoid函數

此函數的圖像是S型,在構造人工神經網絡中是最常用的激活函數。

技術分享圖片

神經元的統計模型

在一些神經網絡的應用中,基於隨機神經模型的分析更符合需要。使用一些解析處理方法,McCullochPitts模型的激活函數用概率分布來實現。具體來說,一個神經元允許有兩個可能的狀態值+1或-1.一個神經元激發(即它的狀態開關從關到開)是隨機決定的。用x表示神經元的狀態,P(v)表示激發的概率,其中v是誘導局部域。我們可以設定

x=+1 概率為P(v)

x=-1概率為1-P(v)

一個標準選擇是sigmoid型的函數:

P(v)=1/(exp(-v/T))

其中T是偽溫度,用來控制激發中的噪聲水平即不確定性。這裏T不是物理溫度,而將T看作是一個控制表示突觸噪聲效果的熱波動參數。註意當T趨於0時,上面兩個形式所描述的隨機神經元就變為無噪聲(即確定性形式),也就是MP模型。

3.被看作有向圖的神經網絡

信號流圖是一個由在一些特定的稱為節點的點之間相連的有向連接(分支)組成的網絡。圖像中各部分的信號流動遵循三條基本規則:

規則1 信號僅僅沿著定義好的箭頭方向在連接上流動

兩種不同類型的連接可以區別開來:

1. 突觸連接,它的行為由線性輸入輸出關系決定。節點信號yk由節點信號xj乘以突觸權值wkj產生

2.激活連接,它的行為一般由非線性輸入輸出關系決定。

規則2 節點信號等於經由連接進入的有關節點的所有信號的代數和

規則3 節點信號沿每個外向連接向外傳遞,此時傳遞的信號完全獨立於外向連接的傳遞函數。


神經網絡是由具有互相連接的突觸節點和激活連接構成的有向圖,具有4個主要特征:

1.每個神經元可表示為一組線性的突觸連接,一個外部應用偏置,以及可能的非線性激活連接。偏置由和一個固定為+1的輸入連接的突觸連接表示。

2.神經元的突觸連接給它們相應的輸入信號加權。

3.輸入信號的加權和構成該神經元的誘導局部域

4.激活連接壓制神經元的誘導局部域產生輸出

4.反饋

當系統中一個元素的輸出能夠部分地影響作用於該元素的輸入,從而造成一個或多個圍繞該系統進行信號傳輸的封閉路徑時,我們說動態系統中存在著反饋。實際上,反饋存在於所有動物神經系統的幾乎每一部分中。

技術分享圖片

圖12表示單環反饋系統的信號流圖,輸入信號xj(n)、內部信號x′j(n)和輸出信號yk(n)是離散時間變量n的函數。這個系統被假定為線性的,由“算子”A表示的前向通道和“算子”B表示的反饋通道組成。特別地,前向通道的輸出通過反饋通道來部分地影響自己的輸出。由圖12可以很容易得到這樣的輸入輸出關系:

技術分享圖片

其中方括號是為了強調A和B是扮演著算子的角色。在式(16)和式(17)中消去x′j(n),得到

技術分享圖片

我們把A/(1-AB)稱為系統的閉環算子,AB稱為開環算子。通常,開環算子沒有交換性,即BA≠AB。

例如,考慮圖13a中的單環反饋系統。A是一個固定的權值w,B是單位時間延遲算子z-1,其輸出是輸入延遲一個時間單位的結果。我們可以將這個系統的閉環算子表示為

技術分享圖片

技術分享圖片 二項式展開,可以把系統的閉環算子重寫為

技術分享圖片

因此,將式(19)代入式(18),我們有

技術分享圖片

其中,再次用方括號強調技術分享圖片是算子的事實。特別地,由技術分享圖片 的定義我們有

技術分享圖片

其中xj(n-l)是輸入信號延遲l個時間單位的樣本。因此,可以用輸入xj(n)現在和過去所有樣本的無限加權和來表示輸出yk(n):

技術分享圖片

技術分享圖片

圖13 a)一階無限沖擊響應(IIR)濾波器的信號流圖;b)圖中a)部分的前饋近似,通過切斷式(20)得到

我們現在清楚地看到由圖13的信號流圖表示的反饋系統的動態行為是由權值w控制的。特別是,我們可以識別兩種特殊情況:

1.w<1,此時輸出信號yk(n)以指數收斂;也就是說,系統是穩定的。如圖14a對一個正w值的情況所示。

2.w≥1,此時輸出信號yk(n)發散;也就是說,系統是不穩定的。圖14b是w=1的情況,發散是線性的;圖14c是w>1的情況,發散是指數的。

穩定性是閉環反饋系統研究中的突出特征。

技術分享圖片

w<1的情況對應於具有無限記憶的系統,這是指系統的輸出依賴於無限過去的輸入樣本。並且,過去的樣本對記憶的影響是隨時間n呈指數衰減的。假設對任意的冪N,w相對於數1足夠小以保證對任何實際目的來說wN是可以忽略的。在這種情況下,可以通過下面的有限和來逼近輸出yk:

技術分享圖片

相應地,可以利用圖13b所示的前饋信號流圖作為圖13a的反饋信號流圖的逼近。在實現這樣的逼近的時候,我們稱為反饋系統的“伸展”。然而,必須說明的是,僅在反饋系統穩定的時候伸展操作才有實際價值。

由於用於構造神經網絡的處理單元通常是非線性的,因此它所涉及的反饋應用的動態行為分析都很復雜。這一點在本書後面會給出進一步分析。

5.網絡結構

一般來說,我們可以區分三種基本不同的網絡結構:

1.單層前饋網絡

2.多層前饋網絡

3.遞歸網絡

遞歸網絡和前饋網絡的區別在於它至少有一個反饋環。遞歸網絡可以由單層神經元組成,單層網絡的每一個神經元的輸出都反饋到所有其他神經元的輸入中。這個圖中描繪的結構沒有自反饋環;自反饋環表示神經元的輸出反饋到它自己的輸入上。

6.知識表示

知識就是人或機器存儲起來以備使用的信息或模型,用來對外部世界做出解釋、預測和適當的反應。

知識表示的主要特征有兩個方面:(1)什麽信息是明確表述的(2)物理上信息是如何被編碼和使用的

神經網絡的一個主要任務是學習它所依存的外部世界(環境)模型,並且保持該模型和真實世界足夠兼容,使之能夠實現感興趣應用的特定目標。有關世界的知識由兩類信息組成。

1.已知世界的狀態,這種形式的知識稱為先驗信息

2.對世界的觀察(測量),由神經網絡中被設計用於探測環境的傳感器獲得。

知識表示的規則

然而,在人工網絡中知識的表示是非常復雜的。這裏有關於知識表示的通用的4條規則

規則1 相似類別中的相似輸入通常應產生網絡中相似的表示,因此,可以歸入同一類中

規則2 網絡對可分離為不同種類的輸入向量給出差別很大的表示

規則3 如果某個特征很重要,那麽網絡表示這個向量將涉及大量神經元。

規則4 如果存在先驗信息和不變性,應該將其附加在網絡設計中,這樣就不必學習這些信息而簡化網絡設計。

怎樣在神經網絡設計中加入先驗信息

當然,怎樣在神經網絡設計中建立先驗信息,以此建立一種特定的網絡結構,是必須考慮的重要問題。遺憾的是,現在還沒有一種有效的規則來實現這一目的;目前我們更多的是通過某些特別的過程來實現,並已知可以產生一些有用的結果。特別是我們使用下面兩種技術的結合:

1.通過使用稱為接收域(receptive field)的局部連接,限制網絡結構

2.通過使用權值共享,限制突觸權值的選擇

這兩種方法,特別是後一種,有很好的附帶效益,它能使網絡自由參數的數量顯著下降。

如何在網絡設計中建立不變性

考慮下列物理現象:

1.當感興趣的目標旋轉時,觀察者感知到的目標圖像通常會產生相應的變化

2.當一個提供它周圍環境的幅度和相位信息的相幹雷達中,由於目標相對於雷達射線運動造成的多普勒效應,活動目標的回聲在頻率上會產生偏移

3.人說話的語調會有高低快慢的變化

為了分別建立一個對象識別系統、一個雷達目標識別系統和一個語音識別系統來處理這些現象,系統必須可以應付一定範圍內觀察信號的變換。相應地,一個模式識別問題地主要任務就是設計對這些變換不變的分類器。也就是說,分類器輸出的類別估計不受分類器輸入觀察信號變換的影響。

至少可用三種技術使得分類器類型的神經網絡對變換不變

1.結構不變性

2.訓練不變性

3.不變特征空間


7.學習過程

廣義上講,我們可以通過神經網絡的功能來對其學習過程進行如下分類:有教師學習和無教師學習。按照同樣的標準,後者又可以分為無監督學習和強化學習兩個子類。

8.學習任務

1.模式聯想

聯想記憶是與大腦相似的依靠聯想學習的分布式記憶。聯想就被看作是人類記憶的一個顯著特征,並且認知的所有模型都以各種形式使用聯想作為其基本行為。

聯想有一種或兩種形式:自聯想與異聯想。在自聯想方式中,神經網絡被要求通過不斷出示一系列模式(向量),給出網絡而存儲這些模式。其後將某已存模式的部分描述或畸變(噪聲)形式出示給網絡,而網絡的任務就是檢索(回憶)出已存儲的該模式。異聯想與自聯想的不同之處在於一個任意的輸入模式集合與另一個輸出模式集合配對。自聯想需要使用無監督學習方式,而異聯想采用監督學習方式。

2.模式識別

3.函數逼近

神經網絡逼近一個未知輸入-輸出映射的能力可以從兩個重要途徑加以利用:

1)系統辨別

2)逆模型

4.控制

5.波束形成

《神經網絡與機器學習》導言