Andrew Ng 機器學習筆記 14 ：異常檢測

阿新 • • 發佈：2018-11-14

異常檢測問題

異常檢測問題的定義如下：

假設我們有m個正常的樣本資料 $｛ x^{(1)} ， x^{(2)} ， \dots ，$

x(m)｝" role="presentation">

｛ x^{(1)} ， x^{(}

2 ) ， … ， x ( m ) ｝

$｛x^{(1)}，x^{(2)}，…，x^{(m)}｝$ ，我們需要一個演算法來告訴我們一個新的樣本資料

x_{t e s t}

$x_{test}$ 是否異常。

我們要採取的方法是：給定無標籤的訓練集，對資料集 $x$ 建立一個概率分佈模型 $p(x)$ 。當我們建立了 $x$ 的概率模型之後，我們就會說，對於新的樣本 $x_{test}$ ，如果概率 $p$ 低於閾值 $ε$ ：

p (x_{t e s t}) < ε

$p(x_{test}) \lt ε$

那麼就將其標記為異常，反之，我們就認為它是正常的。

高斯分佈

假設x是一個實數隨機變數（即：x∈R），如果x的概率分佈服從高斯分佈：其中均值為μ，方差為 $σ^2$ ，那麼將它記作：

x \sim N (μ, σ^{2})

$x \sim N(μ,σ^2)$

這裡的∼符號讀作：”服從…分佈”。大寫字母N表示Normal (正態)，有兩個引數，其中μ表示均值， $σ^2$ 表示方差。

如果我們將高斯分佈的概率密度函式繪製出來，它看起來將是這樣一個鐘形的曲線：

這個鐘形曲線有兩個引數，分別是μ和σ。其中μ控制這個鐘形曲線的中心位置，σ控制這個鐘形曲線的寬度。

從圖中可以看出來，x取中心區域的值的概率相當大，因為高斯分佈的概率密度在這裡很大；而x取遠處和更遠處數值的概率將逐漸降低，直至消失。

高斯分佈中，μ和σ的關係

這裡寫圖片描述

值得提醒的是，在高斯分佈的影象中，不管曲線的形狀如何，曲線圍城的總面積都是1。
所以如果σ很大，就意味著資料的離散化程度越大，中間區域就會變寬，但由於總概率為1，所以高度會降低。
反之如果σ很小，就意味著資料的離散化程度越小，中間區域就會變窄，但由於總概率為1，所以高度會升高。

異常檢測的具體演算法

假如說我們有一個無標籤的訓練集，其中共有m個訓練樣本，並且這裡的訓練集裡的每一個樣本都是n維的特徵，因此你的訓練集應該是m個n維的特徵構成的樣本矩陣：

｛ x^{(1)}, \dots, x^{(m)} ｝ x \in R^{n}

$｛x^{(1)},…,x^{(m)}｝ \\ x \in R^n$

對於我們的異常檢測演算法，我們要從資料中建立一個p(x)概率模型。由於x是一個向量，因此：

p (x) = p (x_{1}) p (x_{2}) p (x_{3}) \dots p (x_{n})

$p(x)=p(x_1)p(x_2)p(x_3)…p(x_n)$

假定特徵 $x^{(1)}至x^{(m)}$ 都服從高斯正態分佈:

\begin{aligned} p (x) & = p (x_{1}; μ_{1}, σ_{1}^{2}) p (x_{2}; μ_{2}, σ_{2}^{2}) p (x_{3}; μ_{3}, σ_{3}^{2}) \dots p (x_{n}; μ_{n}, σ_{n}^{2}) \\ = Π_{j = 1}^{n} p (x_{j}; μ_{j}, σ_{j}^{2}) \end{aligned}

$\begin{align*} p(x) &= p(x_1;μ_1,σ^2_1)p(x_2;μ_2,σ^2_2)p(x_3;μ_3,σ^2_3)…p(x_n;μ_n,σ^2_n) \\ &= Π_{j=1}^np(x_j;μ_j,σ^2_j) \end{align*}$

其中 $Π$ （讀作pai，是 $π$ 的大寫形式）類似 $∑$ 符號，只不過這裡將連加換成了連乘。順便要說的是，估計 $p(x)$ 的分佈問題，通常被稱為密度估計問題。

異常檢測演算法步驟總結

從樣本中選擇一些能體現出異常行為的特徵 $x_i$ 。
分別計算出每個特徵的引數 $μ_{1}, \dots, μ_{n}, σ_{1}^{2}, \dots,$

相關推薦

Andrew Ng 機器學習筆記 14 ：異常檢測

異常檢測問題高斯分佈高斯分佈中，μ和σ的關係異常檢測的具體演算法異常檢測演算法步驟總結異常檢測 VS 監督學習對不服從高斯分佈的資料進行

Andrew Ng 機器學習筆記 16 ：照片OCR

OCR的大概步驟機器學習流水線（machine learning pipeline）滑動窗體上限分析照片OCR是指照片光學字元識別（photo optical ch

Andrew Ng 機器學習筆記 15 ：大資料集梯度下降

隨機梯度下降隨機梯度下降原理小批量梯度下降小批量梯度下降vs隨機梯度下降隨機梯度下降的收

Andrew Ng 機器學習筆記 13 ：降維(dimensionality reduction)

資料壓縮二維降到一維三維降到二維視覺化資料主成分分析（PCA） PCA的執行過程2D -&

Andrew Ng 機器學習筆記 12 ：聚類

K均值 (K-means)演算法 K-Means的規範化描述異常情況 K均值的代價函式隨機初始化肘部法則 (Elbow Method)

Andrew Ng 機器學習筆記 11 ：支援向量機(Support Vector Machine)

構建支援向量機 1.替換邏輯迴歸函式 2.去除多餘的常數項 1/m 3.正則化項係數的處理大間距分類器 SVM決

Andrew Ng 機器學習筆記 10 ：評價學習演算法

評估假設函式模型選擇正則化引數λ對假設函式的影響 λ 在訓練集上的變化 λ在交叉驗證集上的變化學習曲線(Lear

Andrew Ng 機器學習筆記 09 ：神經網路

非線性假設神經網路邏輯單元激勵函式輸入層，輸出層，隱藏層前向傳播(forward propagation)的向量化實現 AND、OR、NOT、XNOR的實

Andrew Ng 機器學習筆記 07 ：Octave/Matlab 使用說明

數學運算邏輯運算賦值運算矩陣的表示繪製直方圖獲取矩陣的尺寸載入檔案清空變數擷取矩陣部分元素

斯坦福Andrew Ng---機器學習筆記（二）：Logistic Regression(邏輯迴歸)

內容提要這篇部落格的主要內容有： - 介紹欠擬合和過擬合的概念 - 從概率的角度解釋上一篇部落格中評價函式J(θ)” role=”presentation” style=”position: relative;”>J(θ)J(θ)為什麼用最

Andrew NG 機器學習筆記-week11-應用例項：圖片文字識別（Application Example：Photo OCR）

1、問題描述和流程圖（Problem Description and Pipeline） photo OCR：photo Optical Character Recognition 影象文字識別，要求從一張給定的圖片中識別文字。為了完成這樣的工作，需

Andrew Ng機器學習筆記+Weka相關算法實現（四）SVM和原始對偶問題

優化問題坐標出了變量 addclass fun ber 找到線性這篇博客主要解說了Ng的課第六、七個視頻，涉及到的內容包含，函數間隔和幾何間隔、最優間隔分類器（ Optimal Margin Classifier）、原始/對偶問題（ Pr

Andrew Ng機器學習筆記2——梯度下降法and最小二乘擬合

今天正式開始學習機器學習的演算法，老師首先舉了一個例項：已知某地區的房屋面積與價格的一個數據集，那麼如何預測給定房屋面積的價格呢？我們大部分人可以想到的就是將畫出房屋面積與價格的散點圖，然後擬合出價格關於面積的曲線，那麼對於一個已知的房屋面積，就可以在擬合的曲線上得到預測的

Andrew Ng機器學習筆記ex4 神經網路學習

nnCostFunction.m function [J grad] = nnCostFunction(nn_params, ... input_layer_size, ...

Andrew Ng機器學習筆記+Weka相關演算法實現（三）神經網路和引數含義

神經網路是一種非常重要的機器學習模型，人們從生物學中大腦神經元連線方式得到啟發，提出了神經網路的概念，它從資訊處理角度對人腦神經元網路進行抽象，建立某種簡單模型，按不同的連線方式組成不同的網路。最近幾年深度學習大熱,尤其是阿爾法圍棋（AlphaGo）戰勝李

非監督學習之混合高斯模型和EM演算法——Andrew Ng機器學習筆記（十）

0、內容提要這篇博文主要介紹： - 混合高斯模型（mixture of Gaussians model） - EM演算法（Expectation-Maximization algorithm） 1、引入假設給定一個訓練集{x(1),...,x(m)

Andrew Ng 機器學習筆記（二）

監督學習的應用：梯度下降梯度下降演算法思想：先選取一個初始點，他可能是0向量，也可能是個隨機點。在這裡選擇圖中這個+點吧。然後請想象一下：如果把這個三點陣圖當成一個小山公園，而你整站在這個+

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

內容提要這篇部落格主要的內容有： 1. 模型選擇 2. 貝葉斯統計和規則化（Bayesian statistics and regularization）最為核心的就是模型的選擇，雖然沒有那麼多複雜的公式，但是，他提供了更加巨集觀的指導，而且很多時候

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

寫在前面的話在聚類問題中，我們給定一個訓練集，演算法根據某種策略將訓練集分成若干類。在監督式學習中，訓練集中每一個數據都有一個標籤，但是在分類問題中沒有，所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於：監督式學習有正確答

Andrew Ng機器學習筆記+Weka相關演算法實現（四）SVM和原始對偶問題

這篇部落格主要講解了Ng的課第六、七個視訊，涉及到的內容包括，函式間隔和幾何間隔、最優間隔分類器（ Optimal Margin Classifier）、原始/對偶問題（ Primal/Dual Problem）、 SVM 的對偶問題幾個部分。函式間