1. 程式人生 > >關於未來發展方向人工智慧——神經網路的入門簡介

關於未來發展方向人工智慧——神經網路的入門簡介

      人類未來發展的方向是什麼?從圖靈測試到最近谷歌的阿爾法狗,我們可以看出人工智慧是當前時下最具有代表意義的話題,說的人工智慧就要提到最重要的部分——神經網路

   別以為名字中帶“網路”二字,神經網路就是一種裝置,事實上神經網路是一種模擬人腦結構的演算法模型。其原理就在於將資訊分散式儲存和並行協同處理。雖然每個單元的功能非常簡單,但大量單元構成的網路系統就能實現非常複雜的資料計算,並且還是一個高度複雜的非線性動力學習系統。

   神經網路的結構更接近於人腦,具有大規模並行、分散式儲存和處理、自組織、自適應和自學能力。神經網路的用途非常廣泛,在系統辨識、模式識別、智慧控制等領域都能一展身手。而現在最吸引IT巨頭們關注的就是神經網路在智慧控制領域中的自動學習功能,特別適合在需要代入一定條件,並且資訊本身是不確定和模糊的情況下,進行相關問題的處理,例如語音識別。 

   神經網路的起源要追溯到上世紀40年代,心理學家麥克庫羅克和數理邏輯學家皮茲首先提出了神經元的數學模型。此模型沿用至今,並且直接影響著這一領域研究的進展。因而,他們兩人就是神經網路研究的先驅。隨著計算機的高速發展,人們以為人工智慧、模式識別等問題在計算機面前都是小菜一碟。再加上當時電子技術比較落後,用電子管或晶體管制作出結構複雜的神經網路是完全不可能的,所以神經網路的研究一度陷於低潮當中。到了20世紀80年代,隨著大規模積體電路的發展,讓神經網路的應用成為了可能。而且人們也看到了神經網路在智慧控制、語音識別方面的潛力。但是這一技術的發展仍然緩慢,而硬體效能的發展以及應用方式的變化,再加上谷歌、微軟、IBM等大公司的持續關注,神經網路終於又火了起來。本該在上世紀80年代就出現的諸多全新語音技術,直到最近才與我們見面,神經網路已經成為最熱門的研究領域之一。

   在國際會議上,與會人員來自世界各地,同聲傳譯就成了必不可少的溝通方式。但是到目前為止,同聲傳譯基本上都是靠人來完成的,譯員在不打斷講話者演講的情況下,不停地將其講話內容傳譯給聽眾。用機器進行同聲傳譯,這個往往只出現在科幻電影中的裝置,卻成為了現實。 

   在2012年底天津召開的“21世紀的計算-自然而然”大會上,微軟研究院的創始人裡克·雷斯特在進行主題演講時,展示了一套實時語音機器翻譯系統。這個系統在裡克.雷斯特用英文演講時,自動識別出英文字詞,再實時翻譯成中文,先在大螢幕上顯示出來,同時用電腦合成的聲音讀出。最令人驚奇的是,與常見的合成語音聲調非常機械不同。在演示之前,雷斯特曾經給這套系統輸入過自己長達1個多小時的錄音資訊,所以由電腦合成的中文語音並不是機械聲,而是聲調聽上去和雷斯特本人一致。   這套實時語音機器翻譯系統就是基於神經網路演算法,由微軟和多倫多大學歷時兩年共同研發。這個被命名為“深度神經網路”的技術,模仿由不同層次神經元構成的人腦,組成一個多層次的系統。整個系統共分為9層,最底層用來學習將要進行分析的語音有哪些特徵,上一層就將這些分析進行組合,並得出新的分析結果,這樣經過多次分析處理之後,增加識別的準確性。而最上面的一層用來分析出聽到的聲音究竟是哪個音組,再通過和已註明音組的語音庫裡的資料進行比對,從而將正確的結果反饋出來。經過如此複雜精密的處理之後,系統對於語音的識別能力就會有顯著的提升,其效能優於以往的辦法。 

   根據微軟的測試,運用了這種“深度神經網路”技術的實時語音翻譯器,相比舊系統出錯率至少降低30%,最好的情況下能達到8個單詞僅錯1個,這是一個非常不錯的成績了。這個實時語音翻譯器已經能支援包括普通話在內的26種語言,不過這個實時語音翻譯器目前還不成熟,使用之前必須先在系統中輸入1個小時以上的音訊資料,讓系統識別發言人聲音中那些細微的差別,從而建立起語音資料庫,才能發出與發言人相近的聲音。雖然離面世還有一段距離,不過已經可以看到機器同聲傳譯的並不是遙不可及的事情了。  

   如果說微軟的實時語音翻譯器離我們有點遙遠,那麼不妨看看谷歌運用神經網路對於Android系統的改進吧。手機CPU效能的不斷增強,除了帶來更好的遊戲效能,也讓手機系統獲益良多。代號為“果凍豆”的Android 4.1系統介面變得更為流暢,使用需要海量計算工作的神經網路也成為了可能。   Android 4.1系統的語音系統的一大改進就是採用了神經網路演算法。當用戶對著Android手機發出語音指令之後,就會由神經網路演算法來進行處理,同樣是先由軟體挑出使用者語音中組成單詞的不同母音和子音。然後由另外的軟體對挑出的資訊進行組合、分析,並進行猜測,再給出新的資訊。這條語音指令經過分析的次數越多,系統得出的結論也就越接近於使用者的本來意思。 

   除了語音分辨準確率大幅提高之外,語音系統還擁有學習的能力。在收集了使用者的語音資訊之後,系統也會用更傾向於人類的聲音來反饋使用者的指令,而不是用機械的合成語音。也就是說,Android 4.1的語音系統的人機互動變得更為自然,使用者越來越不像是跟機器人對話。而且通過這個全新的語音系統,也有更多APP被開發了出來,豐富了應用。更換演算法之後,Android的語音識別率提升了25%。這在一定程度上緩解了現有的語音功能存在的語音系統學習能力差、語音識別能力不強以及機器合成語音太機械等問題。負責這個專案的科學家凡豪克表示,“這個專案在某種程度上讓我們感到驚喜,表明我們只需要改變下模式就能取得相當大的改善。” 

   事實上要用神經網路的演算法打造這樣一個語音系統並不是一件容易的事。首先是用Android系統收集了大量使用者的語音指令,然後將聲音訊譜進行分解並送到谷歌的8臺專用伺服器中。接下來就是分析這些海量的資料,擁有享譽業界的狄恩及其工程師團隊的谷歌,非常擅長於進行資料的處理工作。在分析這些樣本時,研究人員們確定了使用神經網路這種演算法。對於每一種語言,谷歌可能都會構建出數種工作模式,例如處理用英語發出搜尋請求等。 

   儘管神經網路現在已經被廣泛用於語音識別領域,但是其用途肯定不限於此。下一步,神經網路最有可能進入影象軟體領域。與分辨聲音的過程類似,神經網路在分析影象時,每一層的影象探測器會首先尋找影象中的一些特徵,例如影象的邊緣。當探測完成之後,另一層的軟體就會將這些邊緣結合起來,就會形成影象的邊角等特徵。然後如此反覆下去,識別的影象特徵就會越來越清晰、明確,到了最後一層就將所有影象特徵結合起來,與資料庫中的資料進行對比,就能得出圖片裡的物體究竟是什麼的結論。前面提到的谷歌狄恩研究小組就採用這種方法,開發出了一套軟體,已經可以通過自學分辨出網路視訊裡的貓。或許未來這套軟體將會推廣到圖片搜尋領域,谷歌街景利用這一演算法就能區分出不同事物的特徵。   此外,神經網路在醫學領域也有施展拳腳的空間,多倫多大學的一個研究團隊,已經成功地用神經網路分析出藥物分子在實際環境中可能的作用方式。

40.jpg

41.jpg

42.jpg

地址:http://www.jishulink.com/content/post/328456