深度學習基礎--正則化與norm--正則化技術
正則化技術
一種防止過擬合,提高泛化能力的技巧,因此演算法正則化的研究成為機器學習中主要的研究主題。此外,正則化還是訓練引數數量大於訓練資料集的深度學習模型的關鍵步驟。
正則化可以避免演算法過擬合,過擬合通常發生在演算法學習的輸入資料無法反應真實的分佈且存在一些噪聲的情況。
在深度學習中,貌似所有的帶來效果收益的操作都是噪聲所帶來的正則化的功勞!
從不同角度理解正則化
除了泛化原因,奧卡姆剃刀原理和貝葉斯估計也都支援著正則化。根據奧卡姆剃刀原理,在所有可能選擇的模型中,能很好解釋已知資料,並且十分簡單的模型才是較好的模型。而從貝葉斯估計的角度來看,正則化項對應於模型的先驗概率。
從幾何上可以這樣理解,NN其實就是在一個高維空間上構建了分類面,資料不變的情況下,這個分類面恰好貼合數據,完美fit訓練集,而新增噪聲後,相當於一些資料的位置不停的在變化,使得分類面發生了可包納的資料量增加了,從而增加的泛化能力。
方法
有多種適合機器學習演算法的正則化方法,如資料增強、L2 正則化(權重衰減)、L1 正則化、Dropout、Drop Connect、隨機池化和早停等。
相關推薦
深度學習基礎--正則化與norm--正則化(Regularization)
正則化(Regularization) 一種防止過擬合,提高泛化能力的技巧,因此演算法正則化的研究成為機器學習中主要的研究主題。此外,正則化還是訓練引數數量大於訓練資料集的深度學習模型的關鍵步驟。 正則化可以避免演算法過擬合,過擬合通常發生在演算法學習的輸入資料無法反應真實的分佈
深度學習基礎--正則化與norm--正則化技術
正則化技術 一種防止過擬合,提高泛化能力的技巧,因此演算法正則化的研究成為機器學習中主要的研究主題。此外,正則化還是訓練引數數量大於訓練資料集的深度學習模型的關鍵步驟。 正則化可以避免演算法過擬合,過擬合通常發生在演算法學習的輸入資料無法反應真實的分佈且存在一些噪聲的情況。
深度學習基礎--正則化與norm--區域性響應歸一化層(Local Response Normalization, LRN)
區域性響應歸一化層(Local Response Normalization, LRN) 區域性響應歸一化層完成一種“臨近抑制”操作,對區域性輸入區域進行歸一化。 該層實際上證明已經沒啥用了,一般也不用了。 參考資料:見郵件 公式與計算 該層需要的引數包括:
深度學習基礎--正則化與norm--Ln正則化綜述
L1正則化 L1範數是指向量中各個元素的絕對值之和。 對於人臉任務 原版的人臉畫素是 64*64,顯然偏低,但要提高人臉清晰度,並不能僅靠提高圖片的解析度,還應該在訓練方法和損失函式上下功夫。眾所周知,簡單的 L1Loss 是有數學上的均值性的,會導致模糊。
深度學習基礎--正則化與norm--L1範數與L2範數的聯絡
L1範數與L2範數的聯絡 假設需要求解的目標函式為:E(x) = f(x) + r(x) 其中f(x)為損失函式,用來評價模型訓練損失,必須是任意的可微凸函式,r(x)為規範化約束因子,用來對模型進行限制。 根據模型引數的概率分佈不同,r(x)一般有: 1)L1正規化
神經網路與深度學習 筆記5 過度擬合和正則化
1.過擬合 模型複雜而訓練樣本不足,過度訓練,會導致過度擬合。 訓練資料集上的代價表現是越來越好的,測試集上的代價越來越差。訓練資料上的分類準確率一直在提升接近 100%,而測試準確率僅僅能夠達到 82.27%。 網路幾乎是在單純記憶訓練集合,而沒有對數字本質進行理解能
深度學習基礎系列(六)| 權重初始化的選擇
初始化 附近 ace back width variable 目的 backend 概率分布 深層網絡需要一個優良的權重初始化方案,目的是降低發生梯度爆炸和梯度消失的風險。先解釋下梯度爆炸和梯度消失的原因,假設我們有如下前向傳播路徑: a1 = w1x + b1
深度學習基礎--傳統機器學習與深度學習的區別
傳統機器學習與深度學習的區別 1)傳統機器學習:利用特徵工程 (feature engineering),人為對資料進行提煉清洗 2)深度學習:利用表示學習 (representation learning),機器學習模型自身對資料進行提煉,不需要選擇特徵、壓縮維度、轉換格式等對
深度學習基礎--池化--global average pooling
global average pooling 這個概念出自於 network in network。 主要是用來解決全連線的問題(代替FC),其主要是是將最後一層的特徵圖進行整張圖的一個均值池化,形成一個特徵點,將這些特徵點組成最後的特徵向量進行softmax中進行計算。 g
深度學習基礎--池化--Overlapping Pooling(重疊池化)
Overlapping Pooling(重疊池化) alexnet中提出和使用。 相對於傳統的no-overlapping pooling,採用Overlapping Pooling不僅可以提升預測精度,同時一定程度上可以減緩過擬合。 相比於正常池化(步長s=2,視窗z=2)
深度學習基礎--池化--Stochastic pooling(隨機池化)
Stochastic pooling(隨機池化) 計算過程 1)先將方格中的元素同時除以它們的和sum,得到概率矩陣; 2)按照概率隨機選中方格; 3)pooling得到的值就是方格位置的值。 使用stochastic pooling時(即test過程),其推理過程也
深度學習基礎--池化&pooling
池化&pooling 這也就意味著在一個影象區域有用的特徵極有可能在另一個區域同樣適用。因此,為了描述大的影象,一個很自然的想法就是對不同位置的特徵進行聚合統計,例如,人們可以計算影象一個區域上的某個特定特徵的平均值 (或最大值)。 這些概要統計特徵不僅具有低得多的維度
深度學習基礎--卷積計算和池化計算公式
卷積計算和池化計算公式 卷積 卷積計算中,()表示向下取整。 輸入:n* c0* w0* h0 輸出:n* c1* w1* h1 其中,c1就是引數中的num_output,生成的特徵圖個數。 w1=(w0+2pad-kernel_size)/stride+1;
深度學習基礎--loss與啟用函式--廣義線性模型與各種各樣的啟用函式(配圖)
廣義線性模型是怎被應用在深度學習中? 深度學習從統計學角度,可以看做遞迴的廣義線性模型。廣義線性模型相對於經典的線性模型(y=wx+b),核心在於引入了連線函式g(.),形式變為:y=g(wx+b)。 深度學習時遞迴的廣義線性模型,神經元的啟用函式,即為廣義線性模型的連結函式
深度學習基礎--loss與啟用函式--Relu的變種
Relu的變種 softplus/softrelu softplus 是對 ReLU 的平滑逼近的解析函式形式。 softplus的公式: f(x)=ln(1+e^x) Relu與PRelu ai是增加的引數,ai=0;為ReLU,若ai取很小的固定值,則為
深度學習基礎--loss與啟用函式--Relu(Rectified Linear Units)
ReLu(Rectified Linear Units),即修正線性單元 它是不飽和的、線性的函式。可以認為是一種特殊的maxout。 Relu的優點 1)採用sigmoid和tanh等函式,算啟用函式時(指數運算),計算量大,反向傳播求誤差梯度時,求導涉及除法,計算量相
深度學習基礎--loss與啟用函式--好的啟用函式的性質
好的啟用函式的性質 1)不會飽和。sigmoid和tanh啟用函式在兩側尾端會有飽和現象,這會使導數在這些區域接近零,從而阻礙網路的訓練。 2)零均值。ReLU啟用函式的輸出均值不為零,這會影響網路的訓練。 3)容易計算。 使用:最好不要用 sigmoid,你可以試試
深度學習基礎--loss與啟用函式--感知損失(Perceptual Loss)
感知損失(Perceptual Loss) 常用於GAN網路生成。 Perceptual Loss的出現證明了一個訓練好的CNN網路的feature map可以很好的作為影象生成中的損失函式的輔助工具。 GAN可以利用監督學習來強化生成網路的效果。其效果的原因雖然還不具可解釋
深度學習基礎--loss與啟用函式--合頁損失函式、摺頁損失函式;Hinge Loss;Multiclass SVM Loss
合頁損失函式、摺頁損失函式;Hinge Loss;Multiclass SVM Loss Hinge Loss是一種目標函式(或者說損失函式)的名稱,有的時候又叫做max-margin objective。用於分類模型以尋找距離每個樣本的距離最大的決策邊界,即最大化樣本和邊界之間的邊
深度學習基礎--loss與啟用函式--sigmiod與softmax;對數損失函式與交叉熵代價函式
sigmiod與softmax sigmiod就是邏輯迴歸(解決二分類問題);softmax是多分類問題的邏輯迴歸 雖然邏輯迴歸能夠用於分類,不過其本質還是線性迴歸。它僅線上性迴歸的基礎上,在特徵到結果的對映中加入了一層sigmoid函式(非線性)對映,即先把特徵線性求和,然後使