[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

阿新 • • 發佈：2018-09-11

閾值訓練集 jpg -a 情況 color 訓練 ase 需要

15.異常檢測 Anomaly detection

覺得有用的話,歡迎一起討論相互學習~Follow Me

15.1問題動機 Problem motivation

飛機引擎異常檢測

假想你是一個飛機引擎制造商，當你生產的飛機引擎從生產線上流出時，你需要進行 QA(質量控制測試)，而作為這個測試的一部分，你測量了飛機引擎的一些特征變量，比如引擎運轉時產生的熱量，或者引擎的振動等等。如下圖所示：$x_1,x_2,x_3...$ 用以表示測量得到的飛機引擎的特征。而數據集中的m個數據用${x^{(1)},x^{(2)},x^{(3)}...x^{(m)}}$表示
這樣一來，你就有了一個數據集，從 $x^{(1)}到x^{(m)}$，如果你生產了 m 個引擎的話，你將這些數據繪制成圖表，看起來就是這個樣子：
這裏的每個點、每個叉，都是你的 無標簽數據 。這樣，異常檢測問題可以定義如下：假設後來有一天，你有一個新的飛機引擎從生產線上流出，而你的新飛機引擎有特征變量$x^{test}$。所謂的異常檢測問題就是：希望知道這個新的飛機引擎是否有某種異常，或者說，我們希望判斷這個引擎是否需要進一步測試。因為，如果它看起來像一個正常的引擎，那麽我們可以直接將它運送到客戶那裏，而不需要進一步的測試。
給定一個訓練集，然後對訓練數據進行建模即$p^{(x)}$,即對飛機引擎的特征進行建模，然後當給定一個新的數據即$x^{(test)}$,如果概率$P^{(test)}$低於閾值ε-- 那麽就將其標記為異常，如果概率$P^{(test)}$大於等於閾值ε-- 那麽就將其標記為正常
觀察模型，將會發現在中心區域的這些點概率相當大，而稍微遠離中心的點概率會少些，而離中心更遠的點，其概率會更小即出現異常的概率會更大，而最外的標記點就是 異常點(anomaly) ,而中心區域的點P(x)很大即是 正確的點
這種方法稱為 密度估計 表達如下：
$$if p(x)\begin{cases}\le\epsilon anomaly\> \epsilon normal\
\end{cases}$$

欺騙識別
使用$x^{(i)}表示第i個用戶的行為特征$，通過檢測是否有$p(x)<\epsilon$來斷定用戶是否是一個非正常用戶。
異常檢測主要用來識別欺騙。例如在線采集而來的有關用戶的數據，一個特征向量中可能會包含如：$x_1$用戶多久登錄一次，$x_2$訪問過的頁面，$x_3$在論壇發布的帖子數量，甚至是$x_4$打字速度等。嘗試根據這些特征構建一個模型，可以用這個模型來識別行為異常的用戶。

數據中心異常檢測
特征可能包含：$x_1$內存使用情況，$x_2$被訪問的磁盤數量，$x_3$CPU的負載，$x_4$網絡的通信量等。根據這些特征可以構建一個模型，用來是否有$p(x)<\epsilon$來判斷某些計算機是不是有可能出錯了

15.2高斯分布 Gaussian Distribution

通常如果我們認為變量 x 符合高斯分布 x~N(μ,σ2)則其概率密度函數為：

其中$\mu $表示數據的平均值而$\sigma^2$表示樣本的方差，橫軸表示數據的值，而縱軸則表示此值出現的概率密度，圖像與一段範圍內的橫軸包圍的面積即為x的取值落在此範圍內的概率，其圖像如下圖所示：

其中$\mu$控制圖像的中線所在位置，而$\sigma$控制圖像的寬度，並且對於概率密度函數而言，其與坐標軸包圍的區域的面積始終為1
利用已有的數據來預測總體中的$\mu 和 \sigma^2$的計算方法如下：

其中統計學家認為計算方法中的分母應該為(m+1),而機器學習學者則認為其中的分母為m也很合適，當時數據量十分巨大時，分母為m或者為(m+1)實質上沒有很大的區別。

15.3非監督學習的異常檢測算法

假定有共m個樣本的無標簽訓練集，訓練集中的每個樣本都是一個$R^n$維的特征向量。
則處理異常檢測的方法是 使用數據集建立起概率模型p(x) 試圖通過特征量的乘積來對樣本的異常狀況進行檢測。
假設特征量之間是相互獨立的，則概率模型可表示為特征量的概率的乘積：$$P(x)=p(x_1)p(x_2)p(x_3)...p(x_n)$$
假設特征都是分散的，並且 服從高斯正態分布 則概率模型可表示為$$p(x)=p(x_1;\mu_1,\sigma_1)p(x_2;\mu_2,\sigma_2)p(x_3;\mu_3,\sigma_3)...p(x_n;\mu_n,\sigma_n)$$即$$\prod^{n}_{j=1}p(s_j;\mu_j,\sigma_j^2)$$

異常檢測算法概述

挑選對異常檢測有用的特征$x_i$
計算每個特征的均值和方差$\mu_1,\mu_2,,u_3...,\mu_n,\sigma_1^{2},\sigma_2^{2},\sigma_3^{2}...\sigma_n^{2}$
給定樣本x,計算概率p(x),$如果概率小於\epsilon$,則判斷這個樣本存在異常

異常檢測示例

此時選定$\epsilon$大小為0.02，則計算樣本點$x_{test}^{(1)}$的概率為0.0426，而計算樣本點$x_{test}^{(2)}$的概率為0.0021。因此樣本1可以被視為正常樣本，而樣本2則被視為異常樣本。

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

閾值訓練集 jpg -a 情況 color 訓練 ase 需要 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測假想你是一個飛機引擎制造

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.1問題動機 Problem motivation 飛機引擎異常檢測

吳恩達DeepLearning.ai筆記（1-4）-- 深層神經網路

神經網路和深度學習—深層神經網路1.深度網路中的前向傳播2. 核對矩陣的維度DNN結構示意圖如圖所示：對於第L層神經網路，單個樣本其各個引數的矩陣維度為：W[l]：(n[l],n[l−1])b[l]：(n[l],1)dW[l]：(n[l],n[l−1])db[l]：(n[l]

【吳恩達機器學習】學習筆記——1.5無監督學習

分類哪些 rep epm 朋友工作 style class 客戶 1 無監督學習：在不知道數據點的含義的情況下，從一個數據集中找出數據點的結構關系。 2 聚類算法：相同屬性的數據點會集中分布，聚集在一起，聚類算法將數據集分成不同的聚類。也就是說，機器不知道這些數據點具體

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

工作方式樣本 body 聚類屬性 bsp 定義算法信息 1 回顧1.1 監督學習定義：給定正確答案的機器學習算法分類：（1）回歸算法：預測連續值的輸出，如房價的預測（2）分類算法：離散值的輸出，如判斷患病是否為某種癌癥1.2 非監督學習定義：不給定數據的信息的情況下

吳恩達機器學習筆記1-機器學習概述

可能 perf hat 定義視頻 nbsp 這樣的 spec 學習能力今天看了視頻的第一章-緒論：初識機器學習（Machine Learning） 1、定義： Arthur Samuel（1959）.Machine Learning:Field of study tha

[吳恩達機器學習筆記]15非監督學習異常檢測7-8使用多元高斯分布進行異常檢測

進行平均值 info 錯誤 blog 占用 ron 關系 http 15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.7-8 多變量高斯分布/使用多元高斯分布進行異常檢測 -Multivariate Gaus

[吳恩達機器學習筆記]16推薦系統1-2基於內容的推薦系統

16.推薦系統 Recommender System 覺得有用的話,歡迎一起討論相互學習~Follow Me 16.1 問題形式化Problem Formulation 推薦系統的改善

吳恩達-機器學習筆記(1)-模型表示、損失函式、梯度下降

無監督學習：一個程式被認為能從經驗E中學習，解決任務T，達到效能度量值P，當且僅當，有了經驗E，經過P的評判，程式在處理T時效能有所提升。 A computer program is said to learn from experience E with respect to some t

【吳恩達機器學習筆記】week3：1/2邏輯迴歸

第三週六、邏輯迴歸(Logistic Regression) 這裡首先區分一下線性迴歸和邏輯迴歸，線性迴歸就是擬合，邏輯迴歸是分類。 6.2 假說表式（Hypothesis Representation）下面一個部分主要講的是假設函式h（x）在分類問題中輸出只能是0/

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第1,2周

Linear’regression 發現這個教程是最入門的一個教程了，老師講的很好，也很通俗，每堂課後面還有程式設計作業，全程用matlab程式設計，只需要填寫核心程式碼，很適合自學。 1.1 Model representation 起始給出了

學習筆記——吳恩達-機器學習課程-1.3 用神經網路進行監督學習

神經網路有時媒體炒作的很厲害，考慮到它們的使用效果，有些說法還是靠譜的，事實上到目前為止，幾乎所有的神經網路創造的經濟價值都基於其中一種機器學習，我們稱之為“監督學習”，那是什麼意思呢？我們來看一些例子，在監督學習中輸入x，習得一個函式

吳恩達機器學習筆記1——學習資源整合

資源地址：感謝有吳恩達這樣樂於分享的前沿科學家，讓我們在學習前沿科技的道路上事半功倍。如果你在此之前尚未學過任何機器學習課程，請勿先學習本課程。最好的起點是吳恩達最初的ML課程。（http://suo.im/2o1uD）完成該課程後，請嘗試完成Jer

吳恩達機器學習筆記 —— 15 降維

本章重點講述了降維方法以及其中最主要的PCA主成分分析的原理、使用降維的作用：資料壓縮與視覺化降維的第一個作用就是進行資料的壓縮，解決磁碟和計算的問題。比如把二維資料降維到一維：或者資料從三維降維到2維。降維的另一個作用就是進行視覺化，比如我們的資料有很多維度，如果想要在圖形上展示各個資料，

吳恩達機器學習筆記 —— 1 緒論：初識機器學習

機器學習目前已經應用在很多領域，比如網頁搜尋、垃圾郵件過濾、點選率預測、生物資訊、無人駕駛、無人機、手寫體識別、自然語言處理、計算機視覺。什麼是機器學習 1 機器學習一些比較難以變成的能力——Arthur Samuel 2 通過給定任務T以及效能度量P以及經驗E，計算機程式從經驗E中學習，用學習的結果

[吳恩達機器學習筆記]14降維1-2降維的應用資料壓縮與資料視覺化

14.降維覺得有用的話,歡迎一起討論相互學習~Follow Me 14.1動機一：資料壓縮降維也是一種無監督學習的方法，降維並不需要使用資料的標籤。降維的其中一個目的是資料壓

[吳恩達機器學習筆記]15非監督學習異常檢測4-6構建與評價異常檢測系統

15.異常檢測 Anomaly detection 覺得有用的話,歡迎一起討論相互學習~Follow Me 15.4開發和評價一個異常檢測系統 Developing and Evaluati

Coursera 斯坦福吳恩達機器學習課程筆記 (1)

看了課程一週後發現忘光了，決定做一個筆記用作複習。如果涉及到侵權問題請聯絡我，我會立馬刪除並道歉。同時，禁止任何形式的轉載，包括全文轉載和部分轉載。如需使用請聯絡本人 [email protected]。如若發現侵權行為，我學過智慧財產權法的，嘿嘿第一週：基礎概念和

學習筆記——吳恩達-機器學習課程 1.2 什麼是神經網路

1.2 什麼是神經網路 “深度學習”指的是訓練神經網路，有的時候規模很大，那麼神經網路是什麼呢？我們從一個房價預測的例子開始，假設有一個六間房屋的資料集已知房屋的面積，單位是平房英尺或者平方米，已知房屋價格，想要找到一個函式，根據房屋面積，預測房價的函式，

吳恩達機器學習筆記10-梯度下降法實踐1-特征縮放

alt style span 技術分享嘗試最簡學習梯度下降法實踐　　在我們面對多維特征問題的時候，我們要保證這些特征都具有相近的尺度，這將幫助梯度下降算法更快地收斂。　　以房價問題為例，假設我們使用兩個特征，房屋的尺寸和房間的數量，尺寸的值為 0-2000 平方

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

15.異常檢測 Anomaly detection

覺得有用的話,歡迎一起討論相互學習~Follow Me

15.1問題動機 Problem motivation

飛機引擎異常檢測

欺騙識別

數據中心異常檢測

15.2高斯分布 Gaussian Distribution

15.3非監督學習的異常檢測算法

異常檢測算法概述

異常檢測示例

相關推薦