1. 程式人生 > >機器學習中的單一評價指標

機器學習中的單一評價指標

前言
在使用機器學習,通常都會面對一種情況,面對眾多的模型和眾多的效能指標,究竟應該如何來選擇模型。本篇文章主要就是介紹,如何利用單一評估指標來選擇模型,主要內容來自於deeplearnai視訊教程。

單一評估指標
應用機器學習主要可以分為三個過程想法、編碼、看效果。當最開始面對一個需要解決的問題時候,我們往往都會有一個想法,然後根據我們的想法來進行編碼,最後會根據編碼後的實際效果來產生新的想法,然後再修改程式碼,如此迴圈。


下面通過一個例子來說明查準率和查全率,假設我們有一個貓狗分類器,一共有100張圖片,其中貓和狗的圖片各佔50佔,預測結果用一個表格說明。

上表表示的是其實是一個混淆矩陣,對角線表示的是預測的類標和真實的類標是一致的。這裡將貓被稱為正例,狗被稱為反例。50張貓的圖片,有30張圖片預測正確也就是真正例(TP),還有20張貓的圖片被預測成了狗也就是假反例(FN)。50張狗的圖片,有40張圖片被正確的預測了也就是真反例(TN),還有10張狗的圖片被預測稱為了貓也就是假正例(FP)。

查準率(precision)

:也被稱為精準度,計算公式如下


查全率(recall):也被稱為召回率,計算公式如下

查準率其實就是,對於某一類預測結果中,預測正確所佔的比例。查準率追求的是預測結果的準確性。而查全率就是,對於某一類預測結果,正確找出該類圖片所佔的比例。查全率追求的是預測結果的全面性。
起初我們有一個貓和狗的分類器A,分類器A的查準率(precision)為95%,查全率(recall)為90%。通過調參和優化模型的演算法後,我們獲得了一個貓狗分類器B,分類器B的查準率(precision)為98%,查全率(reacall)為85%。

此時面對分類器A和B的時候,我們就會遇到一個問題,到底應該選擇哪個分類器?對於精準度而言分類器B的效能要高於分類器A,對於召回率而言分類器A的效能又要優於分類器B。所以這時我們就不知道應該選擇哪一個分類器了。

單一評估指標
:就是指當遇到上面的這種情況時,我們只需要從查準率和查全率中選擇一個進行評價即可,可以根據不同指標的不同特性來選擇適合於自己系統的指標。如果想同時兼顧查準率和查全率時,可以使用F1 score。通過上表可以發現,通過F1 score我們可以很快就挑選出分類器A要由於分類器B。

F1 socre的計算公式如下:


其中P代表查準率,R代表查全率,通過F1 score就可以平衡查準率和查全率的評價指標。F1 score也被稱為查準率和查全率的調和平均數。
在有些時候,我們可能會遇到下面這種情況

有時候可能會遇到,對於一個模型而言,需要考察多個不同的指標,這時候我們可以考慮採用多個不同指標的平均值,如果對於某些指標的要求會比較高,這時可以通過調節這些指標所佔的權重,來突出這些指標的重要性。