機器學習筆記7——異常檢測(Anomaly Detection)
前言:這是機器學習演算法的一個應用,主要用於無監督學習。
一、定義
已知有了一些資料,,新來一個數據,需要判斷這個資料是否異常。
給定無標籤資料集,對資料建模為P(x),x為特徵變數。如果,就是閾值,那麼就認為這是異常。
二、利用高斯分佈進行異常檢測(樣本都無標記)
1、條件
每個資料有n個特徵,可以理解為n維,每個特徵都服從自己的高斯分佈。
2、總結步驟
三、演算法評估(有些樣本有標記)
3.1 要求
通常訓練集是無標籤的,然後用交叉驗證集合測試集來評估異常檢測演算法,假設這兩個集合包含了一些已知異常的樣本。
3.2 步驟
(1)已知有很多個正常的樣本比如10000個吧和2-50個異常的樣本這裡就20個吧,需要把它們分成訓練集,驗證集合測試集。
訓練集:6000個正常樣本(標籤為y=0)
驗證集:2000個正常樣本(標籤為y=0)和10個異常樣本(y=1)
測試集:2000個正常樣本(y=0)和10個異常樣本(y=1)
(2)用訓練集來計算
(3)步驟
四、異常檢測與監督學習
4.1、使用異常檢測的情況
(1)y=1很少,一般0——20個
(2)y=0很多
4.2、使用監督學習的情況
(1)正樣本,負樣本都很多
(2)正樣本數量多到演算法可以瞭解正樣本大概什麼樣子
五、異常檢測特徵的選擇
5.1 如果一個特徵的分佈不像高斯分佈,可以先對這個特徵取對數,然後會發現取對數之後變得像高斯分佈了
5.2 當正常樣本混入一個異常樣本時,就啟發我們維度太低了,需要增加特徵,那麼就再增加一個特徵,如圖:
六、多變數高斯分佈
6.1 定義
協等高線分佈方差矩陣會改變特徵的分佈形狀的高度,方向,寬窄
均值會改變頂峰的位置
(可以參考GPR的聯合高斯分佈)
概率密度函式為
6.3 原始模型與多變數高斯分佈
一般原始模型應用比較多
這是觀看吳恩達網易雲機器學習系列做的筆記
圖片來源於視訊課件