推薦演算法中模型評估標準——AUC和 NE

阿新 • • 發佈：2019-01-11

廣告電商等推薦演算法中，評估模型質量的指標，目前用的較多的有：AUC，NE, Bias.

AUC(area under curve): 名字曲線下面積，曲線指的的是ROC曲線，ROC曲線如下圖（a）所示，其中橫座標是假正率（負樣本預測為正的比率），縱座標是真正率（正樣本預測為正的比率），很顯然，假正率越低同時真正率越高的越好。但這些比率和分類閾值有關，相關比率曲線如圖（b），閾值取得越低，更多的樣本被預測為正，真正率將會很高，但假正率也增高；反之閾值過高，假正率會很低，但真正率也會變低。我們儘量希望假正率低且虛警率高，所以曲線應該儘可能低靠近左上角。

在推薦演算法中，我們不太關心閾值怎麼取的問題，因為我們只需要對全部item進行打分並排序就夠了，排在前面的N個（N由業務需求決定）推薦給使用者。如果在分類問題中，需要制定一個閾值，一般來說，我們會選擇一個比較折中的閾值，在圖（a)的equal error rate位置，這個位置是左上角到右下角連線與ROC曲線的交點，這時候假正率和假負率相等，認為比較平衡。

AUC是曲線下面積，這個值越接近1，表面曲線越靠近左上角，認為模型效能越好。auc的直觀含義是任意取一個正樣本和負樣本，正樣本得分大於負樣本的概率。

NE(normized entropy)：是由facebook提出的模型評估標準。它的定義為每次曝光時預測得到的log loss（交叉熵損失）的平均值，除以整個資料集原本的資訊熵，如下所示：

其中N是樣本數量，yi是預測值{+1，-1}，pi是預測為+1的概率（在LR演算法模型中的評分值，p是整體CTR。對於好的預測：當yi=1時，即樣本為正，pi約接近1越好；當yi=-1,即樣本為負，pi約接近0越好。我們發現，在好的預測時，NE的分子項都接近於0，而不好的預測，NE會增大。因此，NE越小，通常認為模型越好。

為什麼需要將整個資料集的資訊熵作為NE公式的分母呢，即為什麼要normlize？這主要是解決樣本分佈不均衡的情況。設想一下，如果樣本99%都是負樣本（或者正樣本），模型將所有樣本都預測為負樣本（或正樣本），如果不進行normalize，NE會很小，但這樣的模型顯然是沒有意義的。為了抵消掉訓練資料樣本分佈不平衡帶來的影響，我們利用整體CTR的資訊熵作為分母，為什麼是資訊熵呢？我們可以看下面二進熵的函式曲線，我們發現樣本不平衡時（正樣本概率接近0或1），資訊熵很小，作為分母抵消掉分子過小的問題。

推薦演算法中模型評估標準——AUC和 NE

推薦演算法中模型評估標準——AUC和 NE

python 機器學習中模型評估和調參

常用排序演算法中的時間複雜度和空間複雜度

【轉】分類/迴歸模型評估—ROC,AUC,RMSE等指標/調參—Grid Search

機器學習-淺談模型評估的方法和指標

關於DPM(Deformable Part Model)演算法中模型結構的解釋

模型評估指標AUC（area under the curve）

模型評估標準常用指標

購物網站的推薦演算法-個性化推薦演算法中如何處理買了還推

機器學習-分類模型評估標準

機器學習模型評估標準選擇循環圖

機器學習模型評估中的精確率、召回率、F1、ROC、AUC

主題模型LDA及其在微博推薦&廣告演算法中的應用--第1期

mxnet中自定義損失函式和評估標準

模型評估：K-S值和AUC的區別

機器學習模型評估混淆矩陣、ROC曲線和AUC以及PR曲線

TensorFlow中用於評估模型在訓練集和測試集上的準確度的幾個常用函式說明

機器學習：模型評估和選擇

機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介

機器學習-Python中訓練模型的保存和再使用

推薦演算法中模型評估標準——AUC和 NE

相關推薦