1. 程式人生 > >斯坦福大學公開課機器學習:machine learning system design | trading off precision and recall(F score公式的提出:學習算法中如何平衡(取舍)查準率和召回率的數值)

斯坦福大學公開課機器學習:machine learning system design | trading off precision and recall(F score公式的提出:學習算法中如何平衡(取舍)查準率和召回率的數值)

ron 需要 color 不可 關系 machine 同時 機器學習 pos

一般來說,召回率和查準率的關系如下:1、如果需要很高的置信度的話,查準率會很高,相應的召回率很低;2、如果需要避免假陰性的話,召回率會很高,查準率會很低。下圖右邊顯示的是召回率和查準率在一個學習算法中的關系。值得註意的是,沒有一個學習算法是能同時保證高查準率和召回率的,要高查準率還是高召回率,取決於自己的需求。此外,查準率和召回率之間的關系曲線可以是多樣性,不一定是圖示的形狀。

技術分享圖片

如何取舍查準率和召回率數值

一開始提出來的算法有取查準率和召回率的平均值,如下面的公式average=(P+R)/2。顯然,在給出的三個算法當中,算法3的平均值是最高的,然而通過查準率(0.02)和召回率(1.0)可以看出這並不是一個很好的模型。因此,取平均值這個評估模式是不可取的。

技術分享圖片

如果采用F score算法來同時評估查準率和召回率,則是比較有用的算法。分子的PR決定了查準率(P)和召回率(R)必須同時比較大,才能保證F score數值比較大。假如查準率或者召回率很低,接近於0,直接導致的後果PR值非常低,趨近於0,也就是F score也很低。

技術分享圖片

此時再比較三個算法,可發現算法1是最優的,同時我們觀察到算法3在這個公式中F score值是最低的。很好的說明了算法3不是一個很好的模型(查準率太低)。說明F score是一個很好的同時評估查準率和召回率的公式。

技術分享圖片

斯坦福大學公開課機器學習:machine learning system design | trading off precision and recall(F score公式的提出:學習算法中如何平衡(取舍)查準率和召回率的數值)