1. 程式人生 > >機器學習筆記7——異常檢測(Anomaly Detection)

機器學習筆記7——異常檢測(Anomaly Detection)

前言:這是機器學習演算法的一個應用,主要用於無監督學習。

一、定義

    已知有了一些資料,,新來一個數據,需要判斷這個資料是否異常。

給定無標籤資料集,對資料建模為P(x),x為特徵變數。如果,就是閾值,那麼就認為這是異常。

二、利用高斯分佈進行異常檢測(樣本都無標記)

1、條件

每個資料有n個特徵,可以理解為n維,每個特徵都服從自己的高斯分佈。


2、總結步驟


三、演算法評估(有些樣本有標記)

3.1 要求

通常訓練集是無標籤的,然後用交叉驗證集合測試集來評估異常檢測演算法,假設這兩個集合包含了一些已知異常的樣本。

3.2 步驟

(1)已知有很多個正常的樣本比如10000個吧和2-50個異常的樣本這裡就20個吧,需要把它們分成訓練集,驗證集合測試集。

訓練集:6000個正常樣本(標籤為y=0)

驗證集:2000個正常樣本(標籤為y=0)和10個異常樣本(y=1)

測試集:2000個正常樣本(y=0)和10個異常樣本(y=1)

(2)用訓練集來計算

(3)步驟


四、異常檢測與監督學習

4.1、使用異常檢測的情況

(1)y=1很少,一般0——20個

(2)y=0很多

4.2、使用監督學習的情況

(1)正樣本,負樣本都很多

(2)正樣本數量多到演算法可以瞭解正樣本大概什麼樣子

五、異常檢測特徵的選擇

5.1 如果一個特徵的分佈不像高斯分佈,可以先對這個特徵取對數,然後會發現取對數之後變得像高斯分佈了

5.2 當正常樣本混入一個異常樣本時,就啟發我們維度太低了,需要增加特徵,那麼就再增加一個特徵,如圖:

六、多變數高斯分佈


6.1 定義

協等高線分佈方差矩陣會改變特徵的分佈形狀的高度,方向,寬窄

均值會改變頂峰的位置

(可以參考GPR的聯合高斯分佈)

概率密度函式為

6.3 原始模型與多變數高斯分佈


一般原始模型應用比較多

這是觀看吳恩達網易雲機器學習系列做的筆記

圖片來源於視訊課件