1. 程式人生 > >Deep Learning學習筆記——概率與資訊理論

Deep Learning學習筆記——概率與資訊理論

在人工智慧領域,概率論主要有兩種途徑。

  1. 概率法則告訴我們AI系統如何推理,據此我們設計一些演算法來計算或者估算有概率論匯出的表示式。(比如:神經網路的輸出是概率的形式
  2. 我們可以用概率和統計從理論上分析我們提出的AI系統的行為。(滲透在神經網路訓練的方方面面

Let's start!

  1. 隨機變數
    1. 隨機變數是可以隨機地取不同值的變數。
    2. 隨機變數可以使離散的或連續的。
  2. 概率分佈
    1. 離散型變數和概率質量函式
    2. 連續型變數和概率密度函式
  3. 邊緣概率
    1. 有時候,我們知道了一組變數的聯合概率分佈,但想要了解其中一個子集的概率分佈。這種定義在子集上的概率分佈被稱為邊緣概率分佈(marginal probability distribution)。
    2. 對應於離散型型變數和連續型變數分別有一下兩個求邊緣概率的公式:                                                                               
  4. 條件概率: 
  5. 條件概率的鏈式法則: P(a, b, c) = P(a|b, c)P(b|c)P(c)
  6. 獨立性和條件獨立性
    1. 兩個隨機變數x和y,如果他們的概率分佈可以表示成兩個因子的乘積形式,並且一個因子只包含x和另一個因子只包含y,我們就成這兩個隨機變數是相互獨立的。
    2. 就是說,相互獨立的隨機變數們的聯合分佈概率,等於他們概率分佈的乘積。
    3. 如果關於x和y的條件概率分佈對於z的每一個值都可以寫成乘積的形式,那麼這兩個隨機變數x和y在給定隨機變數z時是條件獨立的(conditionally independent):
  7. 期望、方差和協方差
    1. 協方差(covariance)在某種意義上給出了兩個變數線性相關性的強度以及這些變數的尺度:
    2. 協方差的絕對值如果很大則意味著變數值變化很大並且他們同事距離各自的均值很遠。如果協方差是正的,那麼其中一個變數傾向於取得相對較大值的同時,另一個變數傾向於取得相對較小的值,反之亦然。其他的衡量指標如相關係數(correlation)將每個變數的貢獻歸一化,為了只衡量變數的相關性而不受每個變數尺度大小的影響。
    3. 協方差和相關性是有聯絡的,但實際上不同的概念。他們是有聯絡的,因為兩個變數如果相互獨立,那麼他們的協方差為0,如果兩個變數的協方差不為0那麼他們一定是相關的。
    4. 然而,獨立性又是和協方差完全不同的性質。兩個變數如果協方差為零,他們之間一定沒有線性關係。獨立性是比零協方差的要求更強,因為獨立性還排除了非線性的關係。
  8. 常用概率分佈
    1. Bernouli分佈
    2. Multinouli分佈(或者範疇分佈(categorical distribution))是指在具有k個不同狀態的單個離散性隨機變數上的分佈,其中k是個有限值。Multinoulli分佈由向量p∈[0,1]k-1 引數化,其中沒有個分量pi 表示第i個狀態的概率。最後的第k個狀態的概率可以通過1減去前面的概率和得出。
    3. 高斯分佈,也稱正態分佈有兩個引數控制。引數 μ給出中心峰值的縱座標(期望),引數σ表示標準差。
      1. 選擇正態分佈作為預設的原因:
        1. 我們想要建模的很多分佈的真實情況是比較接近正態分佈的。中心極限定理(central limit theorem)說明很多獨立隨機變數的和近似服從正態分佈。這意味著在實際中,很多複雜系統都可以被成功地建模成正態分佈的噪聲,即使系統可以被分解成一些更結構化的部分。
        2. 在具有相同方差的所有可能的概率分佈中,正態分佈在實數上具有最大的不確定度。因此,我們可以認為正態分佈是對模型加入的先驗知識量最少的分佈。
      2. 多維正態分佈(multrivariate normal distribution)。它的引數是一個正定對稱矩陣   引數μ表示分佈的均值向量。
    4. 指數分佈和Laplace分佈
    5. Dirac分佈和經驗分佈
    6. 分佈的混合
      1. 通過組合一些簡單的概率分佈來定義新的概率分佈也很常見。混合分佈有一些元件分佈構成。每次實驗,樣本是由那個元件分佈產生的取決於從一個Multinoulli分佈中取樣的結果:                        
      2. 潛變數是我們不能直接觀測到的隨機變數。混合模型的元件標誌變數c就是其中一個例子。潛變數在聯合分佈中可能和x有關,在這種情況下,P(x,c) = P(x|c)P(c).潛變數的分佈P(c)以及關聯潛變數和觀測變數的條件分佈P(x|c),共同決定了分佈P(x)的形狀,儘管描述P(x)時可能並不需要潛變數。
      3. 一個非常強大且常見的混合模型是高斯混合模型(Gaussian Mixture Model),它的元件p(x|c=i)是高斯分佈。每個元件都有各自的引數,均值 μ(i) 和協方差矩陣  (i) 。
        1. 除了均值和協方差以外,高斯混合模型的引數指明瞭給每個元件i的先驗概率(prior probability)αi = P(c=i)。“先驗”一次表明了在觀測到x之前傳遞給模型關於c的信念。
        2. 作為對比,P(c|x)是後驗概率(posterior probability),因為它是在觀測到x之後進行計算的。高斯回合模型是概率密度的萬能近似器。
  9. 常用函式的有用性質
    1. logistic sigmoid函式
    2. softplus函式
  10. 貝葉斯規則
    1. 我們經常會需要在已知P(y|x)時計算P(x|y)。幸運的是,如果還知道P(x),我們可以用貝葉斯規則(Baye's rule)來實現:,其中
  11. 資訊理論
    1. 資訊理論的基本想法是一個不太可能的事情居然發生了,要比一個非常可能的事件發生,能提供更多的資訊。
    2. 時間X=x的自資訊(self-information)為:
      1. 對數的底取不同的值時,資訊量的單位不同
    3. 自資訊只處理單個的輸出。我們可以用夏農熵(Shannon entropy)來對整個概率分佈中的不確定性總量進行量化:,記做H(P)。
    4. 如果我們對於同一個隨機變數X有兩個單獨的概率分佈P(x)和Q(x),我們可以使用KL散度來衡量這兩個分佈的差異。
      1. 在離散型變數的情況下,KL散度衡量的是,當我們使用一種被設計成能夠使得概率分佈Q產生的訊息的長度最小的編碼,傳送包含有概率分佈P產生的符號訊息時,所需要的額外資訊量。
      2. KL散度最重要的是他的非負性。KL散度為0當且僅當P和Q在離散型變數的情況下是同分布,或在連續型變數的情況下幾乎處處相同。
      3. 因為KL散度是非負的並且衡量的是兩個分佈之間的差異,踏進常被用作分佈之間的某種距離。然而,他並不是真的距離因為他不是對稱的.
    5. 一個和KL散度密切聯絡的量是交叉熵(cross-entropy)H(P, Q) = H(P) + DKL(P||Q)。
      1. 它和KL散度很像但是確實左邊一項。
      2. 針對Q最小化交叉熵等價於最小化KL散度,因為Q並不參與被省略的那一項。
  12. 結構化概率模型
    1. 機器學習的演算法經常會涉及到非常多的隨機變數上的概率分佈。通常,這些概率分佈涉及到的直接相互作用都是介於非常少的變數之間。使用單個函式來描述整個聯合概率分佈是非常低效的(無論是計算上還是統計上)。
    2. 我們可以把概率分佈分解成許多因子的乘積形式,而不是使用單一的函式來表示概率分佈。
      1. 例如:假設我們有三個隨機變數a,b和c,並且a影響b的取值,b影響c的取值,但是a和c在給定b時是條件獨立的。則:p(a, b, c) = p(a)p(b|c)p(c|b)
      2. 這種分解可以極大地減少用來描述一個分佈的引數數量。
    3. 當我們用圖來表示這種概率分佈的分解,我們把它稱為結構化概率模型(structured probabilistic model)或者圖模型(graphical model)。
      1. 圖:有一些可以通過邊互相連線的頂點的集合構成。
      2. 有向模型使用帶有有向邊的圖,他們用條件概率分佈來表示分解。
        1. 有向模型對於分佈中的每一個隨機變數xi 都包含一個影響因子,這個組成 xi條件概率的影響因子被稱為 xi的父節點,記為Pag( xi): 
      3. 無向模型使用帶有無向邊的圖,他們將分解表示成一組函式; 不想有向模型那樣,這些函式通常不是任何型別的概率分佈。g中任何滿足兩兩之間有邊連線的頂點的集合被稱為團。無向模型中的每個團C(i) 都伴隨一個因子 Φ(i)( C(i))。這些因子僅僅是函式,並不是概率分佈。每個因子的輸出都必須是非負的,但是並沒有像概率分佈中那樣要求因子的和或者積分為1.
        1. 隨機變數的聯合概率與所有這些因子的乘積成比例(proportional)——意味著因子的值越大則可能性越大。當然,不能保證這種乘積的求和為1.所以要進行歸一化,歸一化常數Z被定義為Φ函式乘積的所有狀態的求和或積分。概率分佈為:
    4. 這些圖模型表示的分解僅僅是描述概率分佈的一種語言。他們不是互相排斥的概率分佈族。有向或者無向不是概率分佈的特性;它是概率分佈的一種特殊描述所具有的的特性,而任何概率分佈都可以用這兩種分佈進行描述。