最優模型選擇準則:AIC和BIC
很多引數估計問題均採用似然函式作為目標函式,當訓練資料足夠多時,可以不斷提高模型精度,但是以提高模型複雜度為代價的,同時帶來一個機器學習中非常普遍的問題——過擬合。所以,模型選擇問題在模型複雜度與模型對資料集描述能力(即似然函式)之間尋求最佳平衡。人們提出許多資訊準則,通過加入模型複雜度的懲罰項來避免過擬合問題,此處我們介紹一下常用的兩個模型選擇方法——赤池資訊準則(Akaike Information Criterion,AIC)和貝葉斯資訊準則(Bayesian Information Criterion,BIC)。
什麼是AIC?
赤池資訊量準則(英語:Akaike information criterion,簡稱AIC)是評估統計模型的複雜度和衡量統計模型“擬合”資料之優良性的一種標準,是由日本統計學家赤池弘次創立和發展的。赤池資訊量準則建立在資訊熵的概念基礎上。
在一般的情況下,AIC可以表示為:
其中:k是引數的數量,L是似然函式。假設條件是模型的誤差服從獨立正態分佈。讓n為觀察數,RSS為殘差平方和,那麼AIC變為:
增加自由引數的數目提高了擬合的優良性,AIC鼓勵資料擬合的優良性但是儘量避免出現過度擬合(Overfitting)的情況。所以優先考慮的模型應是AIC值最小的那一個。赤池資訊量準則的方法是尋找可以最好地解釋資料但包含最少自由引數的模型。
當兩個模型之間存在較大差異時,差異主要體現在似然函式項,當似然函式差異不顯著時,上式第一項,即模型複雜度則起作用,從而引數個數少的模型是較好的選擇。一般而言,當模型複雜度提高(k增大)時,似然函式L也會增大,從而使AIC變小,但是k過大時,似然函式增速減緩,導致AIC增大,模型過於複雜容易造成過擬合現象。目標是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型引數儘可能少,有助於降低過擬合的可能性。
參考連結: ofollow,noindex" target="_blank">https://zh.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E4%BF%A1%E6%81%AF%E9%87%8F%E5%87%86%E5%88%99
什麼是BIC?
貝葉斯資訊準則,也稱為Bayesian Information Criterion(BIC)。貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。是在不完全情報下,對部分未知的狀態用主觀概率估計,然後用貝葉斯公式對發生概率進行修正,最後再利用期望值和修正概率做出最優決策。公式為:
其中,k為模型引數個數,n為樣本數量,L為似然函式。 懲罰項在維數過大且訓練樣本資料相對較少的情況下,可以有效避免出現維度災難現象。
與AIC相似,用於模型選擇。訓練模型時,增加引數數量,也就是增加模型複雜度,會增大似然函式,但是也會導致過擬合現象,針對該問題,AIC和BIC均引入了與模型引數個數相關的懲罰項,BIC的懲罰項比AIC的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型複雜度過高。
參考連結: https://en.wikipedia.org/wiki/Bayesian_information_criterion
AIC和BIC該如何選擇?
AIC和BIC的公式中後半部分是一樣的,前半部分是懲罰項,當n≥8n≥8時,kln(n)≥2kkln(n)≥2k,所以,BIC相比AIC在大資料量時對模型引數懲罰得更多,導致BIC更傾向於選擇引數少的簡單模型。