1. 程式人生 > >正則化原理總結

正則化原理總結

正則化理論(Regularization Theory)是 Tikhonov於1963年提出的一種用以解決逆問題的不適定性的方法。不適定性通常由一組線性代數方程定義,這組方程組由於具有很大的係數而使得它的反問題(已知系統輸出求輸入)存在多解

正則化理論就是用來對原始問題的最小化經驗誤差函式(損失函式)加上某種約束,這種約束可以看成是人為引入的某種先驗知識(正則化引數等價於對引數引入先驗分佈),從而對原問題中引數的選擇起到引導作用,因此縮小了解空間,也減小了噪聲對結果的影響和求出錯誤解的可能,使得模型由多解變為更傾向其中一個解

也就是說,正則化項本質上是一種先驗資訊,整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計,其中正則化項對應後驗估計中的先驗資訊(不同的正則化項具有不同先驗分佈),損失函式對應後驗估計中的似然函式

,兩者的乘積則對應貝葉斯最大後驗估計的形式。附加的先驗資訊強行地讓系統學習到的模型具有人們想要的特性,例如稀疏、低秩、平滑等等,約束了梯度下降反向迫使最終解傾向於符合先驗知識。

接下來的問題是我們應該引入什麼樣正則項作為先驗知識,才能準確高效地縮小解空間?一切方法的動機來源於人們一直以來對科學的“簡潔性”、“樸素性”和“美”的深刻認同,這一經典理念可以用14世紀邏輯學家Occam提出的“奧克姆剃刀”原理表述,它長久以來被廣泛運用在人們對自然科學、社會科學的探索和假設之中:Entities should not be multiplied unnecessarily,譯作“若無必要,勿增實體”,即“簡單有效原理”

說到這裡還想多說幾句題外話。其實至少從亞里士多德以來,在哲學界、科學界陸續有很多人針對不同的場景、以種種方式提出了類似的觀點。科學家們用這種方式,作為建立基本假設的原則、作為想象力的出發點和思考的大方向、作為模型選擇和建立的依據,最終得到了被實驗事實所驗證的理論學說,比如:牛頓經典力學、麥克斯韋方程中位移電流的假設、進化論中進化機制的構想、狹義相對論兩個基本假設的建立、廣義相對論場方程的推導等等,當然它在如今的管理學、經濟學等領域同樣被廣泛運用。誠然,這一“想當然”的觀點最初源於自然哲學家們對於真理的敬畏與信念以及對“真理唯一性”的追求,目前為止幾乎所有被實驗證明了的科學理論都不違背這一理念,至於它究竟是否永遠適用、弱化或者拋棄它之後人們是否還能夠順利地找到另外的真理,我們還無從而知。此外,以概率解釋為主體的量子力學的發展也在考驗著“真理唯一性”和上述的觀念。

回到正則化問題。“奧卡姆剃刀”原理在機器學習中常被表述為:“在所有可能選擇的模型中,我們應該選擇能夠很好地解釋已知資料並且十分簡單的模型”。

秉承奧卡姆剃刀原理,許多正則化項(即懲罰項)的引入,是為了使演算法學習到更簡單的模型,也就是讓最終學習到的引數數量變少或者量值變小(即引數長度變短:shrinkage),因為這樣可以讓模型在較小的引數空間中搜尋最優引數,簡化了模型。而且若sigmoid作為啟用函式,當引數權值較小時,啟用函式工作線上性區,此時模型的擬合能力較弱,也降低了過擬合的可能性。

為了讓模型引數儘可能小,正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。將其與原始的損失函式(又叫經驗風險)相加構成新的損失函式(結構風險函式),努力找到一個全域性最優解作為最終的引數唯一取值。

常用的正則項有L0、L1、L2正則等,其中L0和L1正則都有使引數稀疏的特點,實現了特徵篩選,由於L1比L0更易優化,故更常用;與之不同,L2正則有使引數整體都趨向與0而非等於0的特點,能夠在保證引數數量基本不變的前提下對所有引數實現權值壓縮,避免因某個引數權重過大而對結果起到過大影響。由於相關資料較多,暫不介紹。(有關L1正則項的一個定理:任何的規則化運算元(即L1範數),如果在 wi=0 的地方不可微,並且可以分解為一個求和的形式,那麼這個規則化運算元就可以實現稀疏)

以上首先從貝葉斯理論的角度說明了正則化的本質:人為引入先驗資訊,從而限定引數範圍縮小了解空間。接接著介紹了正則化的直接作用:限定引數的數值範圍,並用“奧卡姆剃刀“原理解釋了限定範圍的原因。

下面從其他角度去理解為什麼正則化導致的引數稀疏性有助於尋找最優解並避免過擬合等問題。

1.弱化特徵關聯性
如果模型特徵空間中的一些特徵之間存在較強的關聯,會使模型不適定,即模型引數會有多解。通過有限資料訓練得到的只是其中一個解,這個解有時並不能很好地反映模型特徵的真實情況。也就是說容易被有限資料所誤導,例如:訓練所得的模型引數受訓練樣本影響太大,訓練樣本的微小變化,最終的引數解就可能改變為另一組解,即模型不穩定。

因此通過附加正則項,使得影響較小的特徵的係數趨近於0或等於0,著重保留重要的特徵,同時限制所有特徵的權重(即引數值),避免因某一引數值多大而過分依賴某一特徵。當然,不加入正則項的原始損失函式在訓練時也會起到一定的特徵篩選(限制引數值)作用,在這是從資料標籤(類別)出發,效果明顯不如直接在優化函式中加入對應的引數值。

2.遵循神經網路中的稀疏性
根據一些神經科學中的發現,大腦在對某一事物產生反應時,只有極少量的神經元處於興奮狀態。在神經網路中,稀疏性可以被簡單地解釋為:如果當神經元的輸出接近於1的時候我們認為它被啟用,而輸出接近於0的時候認為它被抑制,那麼神經元大部分的時間都是處於被抑制狀態,即神經元具有稀疏性。

神經元稀疏對應解引數的稀疏,也就是前面一直討論的“引數量值小或稀疏”。

3.直觀理解:解決過擬合時方差過大問題
模型過擬合是由於過分考慮了資料關聯及噪聲資料,過分追求“小偏差”使模型過於複雜,導致擬合的資料分佈與真實分佈偏差很小但方差過大;與之相反的欠擬合則是二者方差小偏差大。而正則項在這裡用來平衡”方差”和“偏差“,起到了一個“trade-off”的作用。
這裡寫圖片描述

從上圖直觀來看,方差大是因為模型考慮了每個樣本點,擬合出的曲線波動大,斜率絕對值大,也就是函式的偏導數大。避免偏導數過大的方法顯然是減小引數wi,因此引數越小,擬合的曲線越光滑、波動小方差小,擬合的函式越簡單,相對來講也就不易發生過擬合現象。