1. 程式人生 > >概率論與數理統計在人工智慧領域的應用

概率論與數理統計在人工智慧領域的應用

概率論與數理統計在人工智慧領域的應用

概率論與數理統計在人工智慧領域的應用

由於概率論課程作業要求,以及之前對於深度學習有了一點點了解,所以寫了本文,一方面進行個人學習總結,另一方面與大家分享一些觀點。初學人工智慧、概率論及統計,本文不恰當之處還請大家包涵與指正。

一、緒論

1.新人工智慧時代

儘管摩爾定律失效的趨勢已不可避免,近十年內硬體效能已然取得了重大的突破。超級計算機、高效能個人電腦已經逐漸走進我們的生活。這樣的契機下,過去因計算效能不足而擱置的諸多人工智慧理論又煥發了新的生機。
無論是自然語言處理還是計算機視覺,大資料分析或是語音識別,人工智慧的發展給我們帶來的便利已經融入了我們生活的方方面面。計算機能夠認識圖片中的事物、能夠聽懂人類的指令、能夠自主的聊天、能夠玩電子遊戲,甚至戰勝世界第一的圍棋選手……新人工智慧時代在帶給我們驚喜與感慨的同時,讓我們不禁想揭開其原理的神祕面紗,究竟是什麼讓它如此強大?

2.基礎數學理論的作用

其實,人工智慧的許多理論在上個世紀就早已提出,囿於計算機硬體效能而遲遲不得發展。而作為其主流演算法的“深度學習”,可以說是概率論與數理統計、微積分、線性代數融合的產物。藉助於計算機相關理論與計算能力,讓計算機能夠利用數字來認識和分析世界,並作出自己的判斷與決策。人工智慧演算法,可以說是很多數學理論的計算機學科應用。
通過微積分,我們實現了許多函式層面對數字的分析,從二維到三維再到N維空間,偏導、微分、極值等等理論發揮了重要的作用。而線性代數成為了我們進行計算的重要工具,利用矩陣、向量等理論與性質,對大量資料進行有效的分析與處理。

3.概率論與數理統計應用概述

概率論與數理統計在其中的作用卻是滲透到各個方面,從偏差、方差分析以更好的擬合到計算概率以實現預測,從隨機初始化以加快訓練速度到正則化、歸一化資料處理以避免過擬合……概率為人工智慧提供隨機性,為預測提供基礎;而統計則對資料進行處理與分析,讓結果更好的滿足我們的要求,更具有普適性和一般性,以便於我們的應用。
統計學的各種理論應用之廣,讓人們不禁感嘆人工智慧就是統計學的一種應用,儘管略有片面,但統計學方法的確在人工智慧領域發揮了空前的作用。

二、深度學習原理

討論概率論與數理統計在人工智慧領域的應用,就不得不先介紹深度學習的基本原理。
所謂深度學習,其實就是通過深層的神經網路對資料進行學習。而深層則是指隱層在兩層及以上的神經網路。而單隱層的情況,則是我們所說的淺層神經網路。


圖2.1淺層神經網路

如圖是最簡單的只有一個隱層且該隱層含有三個神經元的神經網路,其作用是通過神經元以乘以權重與偏差相加,再通過啟用函式對結果進行處理來計算輸入的值。而深度網路,簡單的說,會把最後的輸出結果y ̂作為下一層的輸入向量,如此下去,構成深層的神經網路.

圖2.2深層神經網路
可以發現,神經網路便是對輸入的向量進行多層的處理,得到最終的結果。
而我們要做的,則是通過輸入向量計算得到最佳的各層引數(包括權重和偏差)以實現對資料的擬合。擬合的方法,我們採用通過y ̂與真實的y進行計算資料差異,得到損失值,然後反向傳播計算偏導求得梯度,通過梯度下降的方法逐漸逼近損失值的最小值。

三、概率論與深度學習

1.深度學習中的隨機事件

隨機事件在深度學習中有很多體現,例如隨機初始化和Dropout正則化方法。
當訓練神經網路時,權重隨機初始化是很重要的,如果把權重或者引數都初始化為0,那麼梯度下降會不起作用。簡單的說,由於權重均為0,導致對稱的操作造成輸出結果相同,所以無論多少層都無法正確擬合。所以我們需要隨機初始化。通常,我們可以通過正態分佈進行隨機初始化,經測試具有比較好的效果。


圖3.1 Dropout正則化方法
圖3.1 Dropout正則化方法
而Dropout正則化方法,則是為了防止過擬合進行的隨機權重失效。每個神經元都有失效的可能性,這種隨機事件會使結果更具一般性。通過隨機失活,我們得到了一個更小規模的神經網路,但其對於其他資料的普適性會更好,而不會過分擬合訓練樣本。
顯然,從這兩個例子可以看出,隨機性事件讓我們的結果更具一般性,也能夠加速我們的訓練過程,避免沒有必要的計算。

2.基於概率的預測分析

深度學習很重要的應用便是對資料進行分析和預測。而既然是預測,可能的結果自然不止一個,或者說每個結果都有發生的概率,而我們需要做的便是尋找概率最高的事件。
這裡不得不提到Softmax迴歸的方法,它能夠在試圖識別某一分類時做出預測,不只是兩個分類。假設最後的輸出層是一個四維向量,對應著四種可能性,我們對於輸出的z[l]計算 t=ez[l],然後得到.

a([l])=e(z^([l]) )/(∑_(j=1)^4▒t_i )
顯然,a [l]大於等於0且小於等於1。同樣通過梯度下降進行學習,我們通過得到的引數能夠預測各種結果的概率。
另外,我們通過測試集往往可以通過大量的資料中預測成功的頻率來估計概率,從而評價我們的訓練的模型的成功率。
除了以上演算法,深度學習中的貝葉斯決策等也源於概率論。

3.概率分佈的應用

深度學習很重要的一個應用便是實現預測。例如預測圖中是否存在一隻貓,或者預測使用者是否會購買某樣東西。顯然,這是一個二元問題。二元問題分佈的模擬便是概率論中的伯努利分佈。而多元問題,很多時候我們採用的是正態分佈來模擬。
概率分佈更常見的應用在於權重矩陣的初始化,經測試,以正態分佈來初始化能加快學習速度,所以作為初始化的常用方法之一。

四、統計學與深度學習

1.擬合

深度學習的核心原理某種意義上可以用擬合來代替,通過多層網路、多神經元以及啟用函式構建一個計算圖,並通過對樣本的學習進行擬合,從而求得較好的引數集。得到訓練好的模型後,便可以通過代入計算進行決策。
而擬合,則是統計學的一個重要內容。我們熟知的線性迴歸中的最小二乘法便是一種線性擬合方式,這種統計學中利用已有資料對未知資料進行判斷和決策的思想,很好的應用在了深度學習中。所謂神經網路,可以說是應用於複雜資料的一種複雜的擬合方式。而統計學中很多概念如無偏估計、有偏估計同樣應用在了擬合的優化中。

2.偏差與方差

偏差與方差是統計學中很重要的概念。例如樣本標準偏差、總體標準偏差以及方差的統計學公式分別如下:




而在深度學習中,偏差和方差同樣可以用來描述擬合情況。其中,偏差越高說明擬合的效果越差,而方差過高則意味著過度擬合。深度學習引數修正與神經網路改善的一大難題便是如何得到一組恰到好處的偏差和方差。擬合效果則沒有辦法進行比較準確的預測,過度擬合又會降低模型的普適性。因此,我們往往需要很多統計方法來進行最佳的優化。

3.正則化

深度學習中的正則化是一種用來避免過擬合的方法。當我們的樣本擬合程度過高時,如上文所述,會降低模型的普適性,而正則化則是用來降低過擬合問題。除了之前提到的Dropout正則化方法,L2正則化也是很常見的正則化型別。將L2正則化項


L2正則化項

與損失函式相加,求導後通過梯度下降便可以實現“權重衰減”,從而減弱權值矩陣的作用實現正則化來避免過擬合。 ### 4.指數加權平均的偏差修正 統計學中的指數加權平均數在統計學中也叫做指數加權移動平均,通過移動平均線同樣可以得到資料的平均值並進行演算法優化。指數加權平均事實上是一種累加效應,隨著資料增多,之前資料的影響指數型下降。其公式為vt=βv t−1+(1−β)θ t,從中可以看到這種指數下降的趨勢。而如果初始化v_0=0,這個時候我們則需要偏差修正,尤其是在估測初期通過v t/(1-β t)來代替v t,這樣可以有效的進行偏差修正。進而我們利用指數加權移動平均數可以優化各種演算法,更好的實現引數優化。 從這個例子可以看出,統計學中的加權移動平均與偏差修正都很好的應用在了深度學習中。

5.歸一化

歸一化是一種資料處理方式,廣泛應用與各個學科。能將資料的某種絕對值變成相對值,有效的縮小量值並簡化計算。通過歸一化,能夠使輸入的特徵值均值為0,方差為1,從而可以加速學習。
另一方面,歸一化能夠有效的去除一些“特性”的干擾,從而提高模型的一般性,找到資料的核心特徵。而歸一化方法本身,就與統計學中的均值與方差關係密切,同樣也是統計學在深度學習的重大應用。

五、小結

作為基礎數學,概率論與數理統計中的很多基礎理論在人工智慧領域都有著重要的應用。打破了硬體效能的侷限,很多統計學的大規模資料處理得到了有效的實現。並且,當今人工智慧領域很多創新性演算法的核心也源於對於統計學知識的進一步應用。
從我們上面的討論,無不看出概率與統計在人工智慧領域各種演算法中的應用與其關鍵性。無論是資料的處理還是分析,資料的擬合還是決策,概率與統計都提供了重要支援。
概率與統計由於其源於生活與生產,又能有效的應用於生活與生產,且應用面十分廣泛。除了生活中的各類問題,在前沿的人工智慧領域,同樣有著重大的作用。
人類所生活的世界充滿著資訊與資料,如何有效的利用這些資料為人類服務,這顯然是一個能有效提高生產力的課題。電腦科學中應用概率與統計的相關知識,挖掘其價值,讓經典數學在人工智領域發揮著經久不息的力量。

六、參考文獻

[1] 黃海廣. 深度學習課程筆記[EB/OL]. https://github.com/fengdu78/deeplearning_ai_books.
[2] man_world. 指數加權移動平均(Exponential Weighted Moving Average)[EB/OL]. https://blog.csdn.net/mzpmzk/article/details/80085929.
[3] Acjx. 機器學習之正則化(Regularization)[EB/OL]. https://www.cnblogs.com/jianxinzhou/p/4083921.html.
[4] 洪亮劼. 為什麼人工智慧時代我們要學好概率統計?[EB/OL]. https://www.sohu.com/a/199864004_99986943.