Andrew Ng 機器學習筆記 14 :異常檢測
異常檢測問題
異常檢測問題的定義如下:
假設我們有m個正常的樣本資料
我們要採取的方法是:給定無標籤的訓練集,對資料集
建立一個概率分佈模型
。當我們建立了
的概率模型之後,我們就會說,對於新的樣本
,如果概率
低於閾值
:
那麼就將其標記為異常,反之,我們就認為它是正常的。
高斯分佈
假設x是一個實數隨機變數(即:x∈R),如果x的概率分佈服從高斯分佈:其中均值為μ,方差為
,那麼將它記作:
這裡的∼符號讀作:”服從…分佈”。大寫字母N表示Normal (正態),有兩個引數,其中μ表示均值, 表示方差。
如果我們將高斯分佈的概率密度函式繪製出來,它看起來將是這樣一個鐘形的曲線:
這個鐘形曲線有兩個引數,分別是μ和σ。其中μ控制這個鐘形曲線的中心位置,σ控制這個鐘形曲線的寬度。
從圖中可以看出來,x取中心區域的值的概率相當大,因為高斯分佈的概率密度在這裡很大;而x取遠處和更遠處數值的概率將逐漸降低,直至消失。
高斯分佈中,μ和σ的關係
- 值得提醒的是,在高斯分佈的影象中,不管曲線的形狀如何,曲線圍城的總面積都是1。
- 所以如果σ很大,就意味著資料的離散化程度越大,中間區域就會變寬,但由於總概率為1,所以高度會降低。
- 反之如果σ很小,就意味著資料的離散化程度越小,中間區域就會變窄,但由於總概率為1,所以高度會升高。
異常檢測的具體演算法
假如說我們有一個無標籤的訓練集,其中共有m個訓練樣本,並且這裡的訓練集裡的每一個樣本都是n維的特徵,因此你的訓練集應該是m個n維的特徵構成的樣本矩陣:
對於我們的異常檢測演算法,我們要從資料中建立一個p(x)概率模型。由於x是一個向量,因此:
假定特徵
都服從高斯正態分佈:
其中 (讀作pai,是 的大寫形式)類似 符號,只不過這裡將連加換成了連乘。順便要說的是,估計 的分佈問題,通常被稱為密度估計問題。
異常檢測演算法步驟總結
- 從樣本中選擇一些能體現出異常行為的特徵 。
分別計算出每個特徵的引數
相關推薦
Andrew Ng 機器學習筆記 14 :異常檢測
異常檢測問題 高斯分佈 高斯分佈中,μ和σ的關係 異常檢測的具體演算法 異常檢測演算法步驟總結 異常檢測 VS 監督學習 對不服從高斯分佈的資料進行
Andrew Ng 機器學習筆記 16 :照片OCR
OCR的大概步驟 機器學習流水線(machine learning pipeline) 滑動窗體 上限分析 照片OCR是指照片光學字元識別(photo optical ch
Andrew Ng 機器學習筆記 15 :大資料集梯度下降
隨機梯度下降 隨機梯度下降原理 小批量梯度下降 小批量梯度下降vs隨機梯度下降 隨機梯度下降的收
Andrew Ng 機器學習筆記 13 :降維(dimensionality reduction)
資料壓縮 二維降到一維 三維降到二維 視覺化資料 主成分分析(PCA) PCA的執行過程2D -&
Andrew Ng 機器學習筆記 12 :聚類
K均值 (K-means)演算法 K-Means的規範化描述 異常情況 K均值的代價函式 隨機初始化 肘部法則 (Elbow Method)
Andrew Ng 機器學習筆記 11 :支援向量機(Support Vector Machine)
構建支援向量機 1.替換邏輯迴歸函式 2.去除多餘的常數項 1/m 3.正則化項係數的處理 大間距分類器 SVM決
Andrew Ng 機器學習筆記 10 :評價學習演算法
評估假設函式 模型選擇 正則化引數λ對假設函式的影響 λ 在訓練集上的變化 λ在交叉驗證集上的變化 學習曲線(Lear
Andrew Ng 機器學習筆記 09 :神經網路
非線性假設 神經網路邏輯單元 激勵函式 輸入層,輸出層,隱藏層 前向傳播(forward propagation)的向量化實現 AND、OR、NOT、XNOR的實
Andrew Ng 機器學習筆記 07 :Octave/Matlab 使用說明
數學運算 邏輯運算 賦值運算 矩陣的表示 繪製直方圖 獲取矩陣的尺寸 載入檔案 清空變數 擷取矩陣部分元素
斯坦福Andrew Ng---機器學習筆記(二):Logistic Regression(邏輯迴歸)
內容提要 這篇部落格的主要內容有: - 介紹欠擬合和過擬合的概念 - 從概率的角度解釋上一篇部落格中評價函式J(θ)” role=”presentation” style=”position: relative;”>J(θ)J(θ)為什麼用最
Andrew NG 機器學習 筆記-week11-應用例項:圖片文字識別(Application Example:Photo OCR)
1、問題描述和流程圖(Problem Description and Pipeline) photo OCR:photo Optical Character Recognition 影象文字識別,要求從一張給定的圖片中識別文字。 為了完成這樣的工作,需
Andrew Ng機器學習筆記+Weka相關算法實現(四)SVM和原始對偶問題
優化問題 坐標 出了 變量 addclass fun ber 找到 線性 這篇博客主要解說了Ng的課第六、七個視頻,涉及到的內容包含,函數間隔和幾何間隔、最優間隔分類器 ( Optimal Margin Classifier)、原始/對偶問題 ( Pr
Andrew Ng機器學習筆記2——梯度下降法and最小二乘擬合
今天正式開始學習機器學習的演算法,老師首先舉了一個例項:已知某地區的房屋面積與價格的一個數據集,那麼如何預測給定房屋面積的價格呢?我們大部分人可以想到的就是將畫出房屋面積與價格的散點圖,然後擬合出價格關於面積的曲線,那麼對於一個已知的房屋面積,就可以在擬合的曲線上得到預測的
Andrew Ng機器學習筆記ex4 神經網路學習
nnCostFunction.m function [J grad] = nnCostFunction(nn_params, ... input_layer_size, ...
Andrew Ng機器學習筆記+Weka相關演算法實現(三)神經網路和引數含義
神經網路是一種非常重要的機器學習模型,人們從生物學中大腦神經元連線方式得到啟發,提出了神經網路的概念,它從資訊處理角度對人腦神經元網路進行抽象, 建立某種簡單模型,按不同的連線方式組成不同的網路。 最近幾年深度學習大熱,尤其是阿爾法圍棋(AlphaGo)戰勝李
非監督學習之混合高斯模型和EM演算法——Andrew Ng機器學習筆記(十)
0、內容提要 這篇博文主要介紹: - 混合高斯模型(mixture of Gaussians model) - EM演算法(Expectation-Maximization algorithm) 1、引入 假設給定一個訓練集{x(1),...,x(m)
Andrew Ng 機器學習筆記(二)
監督學習的應用:梯度下降 梯度下降演算法思想: 先選取一個初始點,他可能是0向量,也可能是個隨機點。在這裡選擇圖中這個+點吧。 然後請想象一下:如果把這個三點陣圖當成一個小山公園,而你整站在這個+
學習理論之模型選擇——Andrew Ng機器學習筆記(八)
內容提要 這篇部落格主要的內容有: 1. 模型選擇 2. 貝葉斯統計和規則化(Bayesian statistics and regularization) 最為核心的就是模型的選擇,雖然沒有那麼多複雜的公式,但是,他提供了更加巨集觀的指導,而且很多時候
非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記(九)
寫在前面的話 在聚類問題中,我們給定一個訓練集,演算法根據某種策略將訓練集分成若干類。在監督式學習中,訓練集中每一個數據都有一個標籤,但是在分類問題中沒有,所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於:監督式學習有正確答
Andrew Ng機器學習筆記+Weka相關演算法實現(四)SVM和原始對偶問題
這篇部落格主要講解了Ng的課第六、七個視訊,涉及到的內容包括,函式間隔和幾何間隔、最優間隔分類器 ( Optimal Margin Classifier)、原始/對偶問題 ( Primal/Dual Problem)、 SVM 的對偶問題幾個部分。 函式間