Machine Learning第九講【異常檢測】-- (三)多元高斯分佈
阿新 • • 發佈:2019-01-03
一、Multivariate Gaussian Distribution(多元高斯分佈)
資料中心例子:
因為上面的原因,會帶來一些誤差,因此我們引入了改良版的演算法:
我們不再單獨地將p(x1),p(x2),p(x3)訓練模型,而是將這些引數都放在一個模型裡,
下面用幾張圖形象的看一下高斯分佈:
圖一:μ取在原點,改變的值
圖二:μ取在原點,改變左下-右上方向的值。
圖三:改變μ的值,使其不在原點上:
二、Anomaly Detection using the Multivariate Gaussian Distribution
使用多元高斯分佈的異常檢測:
(1)通過利用μ和Σ擬合模型p(x)
(2)給出測試樣本,利用公式,若p<ε,則將其標記為異常樣本。
多元高斯分佈模型和之前模型的關係:
之前的模型:
多元高斯分佈模型:
原有的模型其圖形方向是沿座標軸方向,即不同特徵之間不能建立相關性,若Σ只有對角線上有元素且其餘元素為0,則多元高斯模型也可以用之前的模型表示,即若Σ是下面的形式,則二者等同:
下面是之前的模型和多元高斯模型的比較:
通常情況下,左邊的模型比較常用,一般手動增加一些特徵。但是若m很大,n很小,即能夠很好地滿足m≥10n,則右邊的模型也是值得考慮的,使用右邊的模型可以省去手動建立新特徵的時間。