1. 程式人生 > >深度模型(GAN的擴充套件)提出一種基於貝葉斯方法的資料擴充套件方法

深度模型(GAN的擴充套件)提出一種基於貝葉斯方法的資料擴充套件方法

一、總覽

在進行深度學習的時候,不管是分類還是識別,都需要大量的資料集,為了解決資料集稀少的問題,我們可以通過各種資料集增強的方式來增強模型的魯棒性。
在這之前我們用到了傳統的資料增強方式,比如:影象旋轉,影象翻轉,仿射變換,噪聲新增,影象色彩干擾等各種方法(詳情請看),先如今我們來使用GAN(基於貝葉斯方法)來增強資料
論文:https://papers.nips.cc/paper/6872-a-bayesian-data-augmentation-approach-for-learning-deep-models.pdf

資料增強的過程自動生成新的帶註釋的訓練樣本。通過應用於帶註釋訓練樣本的隨機幾何或外觀變換來獲得新的訓練樣本,

資料擴充套件方法整體流程如下:
在這裡插入圖片描述

二、深度學習中的資料增強演算法

Bayesian Neural Networks

我們的目標是使用註釋的訓練集來估計深度學習模型的引數。記為 Y={yn}n1N\mathcal{Y} = \{\rm y_n\}_{n-1}^N ,當 y=(t,x)\rm y = (t,x), t{1,2,...,K}(KClasses)t \in \{1,2,...,K\} (K\neq \rm Classes) 資料集表示為 xRD\rm x \in \R^D,模型引數為 θ

\theta。訓練過程的優化問題定義如下:
θ=argmaxθlogp(θy)\theta^* = \textrm{arg} \max _ {\theta}^~ \log p(\theta|y)

由於 p(θy)=p(θt,x)p(tx,θ)p(xθ)p(θ)p(θ|y) =p(θ|t,x)∝p(t|x,θ)p(x|θ)p(θ)
假設資料樣本Y\mathcal{Y}是條件獨立的,最大化的代價函式定義為:
logp(θy)logp(θ)+1Nn1N(log

p(tnxn,θ)+logp(xnθ))\log p(\theta|\textrm{y}) \approx \log p(\theta)+\frac{1}{N}\sum_{n-1}^{N}(\log p(t_n|\textrm{x}_n,\theta)+\log p(\textrm{x}_n|\theta))

在這裡插入圖片描述

優化函式

在這裡插入圖片描述

在本文中,我們提出了一種新的貝葉斯DA,改進了深度學習分類模型訓練程序。與目前主要的對觀測到的訓練樣本應用隨機變換的方法不同,我們的方法在理論上是合理的;缺失的資料是從從帶註釋的訓練集學習的分佈中取樣的。然而,我們不訓練生成分佈獨立於訓練的分類模型。相反,兩個模型都是基於我們提出的貝葉斯DA公式聯合優化的,該公式將統計學習中的經典潛變數方法與現代深生成模型聯絡起來。我們的資料增強方法的優點在幾個影象分類任務得到驗證。