1. 程式人生 > >機器學習——異常值檢測

機器學習——異常值檢測

機器學習——異常檢測

在生產生活中,由於裝置的誤差或者人為操作失當,產品難免會出現錯誤。然後檢查錯誤對人來說又是一個十分瑣碎的事情。利用機器學習進行異常值檢測可以讓人類擺脫檢錯的煩惱。

檢測演算法

  • 1.選定容易出錯的\(n\)個特徵\(\{x_1^{(i)},x_2^{(i)},\ldots,x_n^{(i)}\}\)作為變數。
  • 2.計算m個樣本的平均值和方差。
    \[{\mu_j} = {1 \over m}\sum\limits_{i = 1}^m {x_j^{(i)}}\]

\[ {\sigma ^2} = {1 \over m}\sum\limits_{i = 1}^m {(x_j^{(i)}} - {\mu _j}{)^2} \]

  • 3.給定監測點\(x\).計算\(p(x)\)
    \[p(x) = \prod \limits_{j = 1}^n {p({x_j};{\mu_j},\sigma_j^2)}\]

  • 4.如果\(p(x)< \epsilon\),則為異常值;反之,不是。

開發和評價一個異常檢測系統

異常檢測演算法是一個非監督學習演算法,意味著我們無法通過結果變數判斷我們的資料是否異常。所以我們需要另一種方法檢測演算法是否有效。當我們開發一個系統時,我們從有標籤(知道是否異常)的資料入手,從中找出一部分正常資料作為訓練集,剩餘的正常資料和異常資料作為交叉檢驗集和測試集。

具體評價方法如下:

  • 根據測試集資料,估計出特徵的平均值和方差,構建\(p(x)\)
    函式
  • 對於交叉檢驗集,嘗試使用不同的\(\epsilon\)最為閾值,並預測資料是否異常,根據F1值或者查準率與查全率的比例來選擇\(\epsilon\)
  • 選出\(\epsilon\)後,針對測試集進行預測,計算異常檢驗系統的F1值或者查準率與查全率之比

異常檢測與監督學習對比

異常檢測 監督學習
大量的正常值(y=0)和少量的異常值(y=1) 大量的正向類(y=0)和少量的負向類(y=1)
異常資料太少,只能根據少量資料進行訓練 有足夠多的正向和負向資料以供訓練
舉例:1.欺詐行為檢測;2.生產廢品檢測;3.檢測機器執行狀態 舉例:1.郵箱過濾器;2.天氣預報;3.腫瘤分類

分佈的處理

  • 對於高斯分佈的資料,直接運用以上演算法就好。
  • 但是對於非高斯分佈的資料,雖然也可是使用上面的演算法,但是效果不是很好,所以我們儘量將非高斯分佈轉化成(近似)高斯分佈,然後再進行處理。
  • 資料整體偏小,可以求\(ln(x)\)或者\(x^a,0<a<1\)
  • 資料整體偏大,可以求\(e^x\)或者\(x^a,a>1\)

誤差分析

在誤差分析中,如果我們可以發現我的選定的變數是否合適,進而進行相應的改正。如左圖所示,異常點\(x\)對應的概率很高,顯然這種分佈方式不能很好地識別出異常值。所以我們嘗試增加變數或者改變變數的型別來識別異常值。如右圖所示,通過增加一個變數,我們能夠更好地識別異常點。所以,誤差分析對於一個問題來說還是很重要的。

相關推薦

機器學習——異常檢測

機器學習——異常檢測 在生產生活中,由於裝置的誤差或者人為操作失當,產品難免會出現錯誤。然後檢查錯誤對人來說又是一個十分瑣碎的事情。利用機器學習進行異常值檢測可以讓人類擺脫檢錯的煩惱。 檢測演算法 1.選定容易出錯的\(n\)個特徵\(\{x_1^{(i)},x_2^{(i)},\ldots,x_n^

python 機器學習實戰:信用卡欺詐異常檢測

    今晚又實戰了一個小案例,把它總結出來:有些人利用信用卡進行詐騙等活動,如何根據使用者的行為,來判斷該使用者的信用卡賬單涉嫌欺詐呢?資料集見及連結:  在這個資料集中,由於原始資料有一定的隱私,因此,每一列(即特徵)的名稱並沒有給出。     一開始,還是匯入庫:

吳恩達機器學習 - 異常檢測 吳恩達機器學習 - 異常檢測

原 吳恩達機器學習 - 異常檢測 2018年06月25日 21:09:33 離殤灬孤狼 閱讀數:69

Stanford機器學習-異常檢測和多元高斯分佈

一、異常檢測 這章主要學習異常檢測問題,它是機器演算法的一個常見應用,同時也對於我們生活中的很多問題有很大的幫助,總的來說,它主要用於非監督的學習問題。 那我們怎麼來理解異常檢測是一個怎麼樣的問題呢?我們來看一個相關的問題:飛機引擎的檢測。因為引擎對於飛機來說

機器學習缺失處理方法匯總

www. 導致 -m 缺少 噪聲 分析方法 答案 出發點 爆炸 來源網址:http://blog.csdn.net/w352986331qq/article/details/78639233 缺失值處理方法綜述 缺失值是指粗糙數據中由於缺少信息而造成的數據的聚類、分組、刪失

【Python數據分析基礎】: 異常檢測和處理

是否 以及 結合 分析 開發者 上下 理解 統計學方法 數據分析 在機器學習中,異常檢測和處理是一個比較小的分支,或者說,是機器學習的一個副產物,因為在一般的預測問題中,模型通常是對整體樣本數據結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這

【火爐煉AI】機器學習048-Harris檢測圖像角點

dea numpy 重要 其他 tco cnblogs 有一個 一個 none 【火爐煉AI】機器學習048-Harris檢測圖像角點 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplo

機器學習之----目標檢測與目標跟蹤的區別

1.目標檢測就是檢測出一個圖片或者一個視訊中目標的位置(靜態或者動態)如yolo檢測目標 2.目標追蹤是給視訊中第一幀目標以及它的位置,然後跟蹤這個目標,以及預測它的軌跡,(如果出現一些遮擋,也可以根據軌跡來跟蹤這個目標,假如是yolo檢測出的目標,有時候還會出現丟幀的情況,如果用了跟蹤演算法,

[Xcode10 實際操作]七、檔案與資料-(20)CoreML機器學習框架:檢測和識別圖片中的物體

本文將演示機器學習框架的使用,實現對圖片中物體的檢測和識別。 首先訪問蘋果開發者網站關於機器學習的網址: https://developer.apple.com/cn/machine-learning/ 點選右側的滾動條,跳轉到模型知識區域。 點選頁面最下方的【Learn about working

R中異常檢測

data1=complete.cases(selectdata) #布林判斷 # true代表1,false代表0 sum(complete.cases(selectdata)) #完整資料200條 sum(!complete.cases(selectdata)) #不完整資料1條 m

一種異常檢測方法、原理 (基於箱線圖)

先介紹使用到的方法原理,也就是一種異常檢測的方法。  首先要先了解箱線圖。 箱線圖 箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用資料中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法,它也可以粗略地看

異常檢測

通過分位點來進行異常值檢測: def detect_outliers(df,n,features): """ Tuckey演算法 """ outlier_indices = [] # iterate over features(columns)

iforest 異常檢測

python 的應用方式: # IsolationForest 異常值檢測;   from sklearn.ensemble import IsolationForest def use_iforest_to_get_normal_data(data):  &nbs

資料分析:異常檢測--箱型圖

在做資料分析時,我們免不了要檢查資料中的異常值,但是什麼樣的資料算作異常呢。有人說很大或者很小的值,那到底多大多小的值算異常。箱型圖就可以很好的解決這個問題。我們都知道折線圖、柱狀圖等,但很少使用過箱型圖。關於箱型圖,百度百科的解釋為: 箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是

【Scikit-Learn 中文文件】新異類和異常檢測

2.11. 新異類和異常值檢測 許多應用需要能夠判斷新觀測是否屬於與現有觀測相同的分佈(它是一個非線性的),或者應該被認為是不同的(這是一個異常值)。 通常,這種能力用於清理實際的資料集。 必須做出兩個重要的區別: 新奇檢測: 訓練

python異常檢測與相關係數

下面對不同年月的銷售量進行異常值檢測。部分資料如下: 程式碼如下: #-*- coding: utf-8 -*- import pandas as pd catering_sale =

java虛擬機器學習異常篇一

虛擬機器產生異常的原由與處理產生原因:1。由於不正常的語句背虛擬機器檢測到。丟擲異常在語句執行點。可能情況有:違反語義的操作如陣列過界;資源越界;連線程式時出錯 2。java程式碼執行throws語句 3。非同步異常:ThreadGroup的stop()方法呼叫與虛擬機器內部

【特徵工程】一種異常檢測方法、原理、程式碼實現 (基於箱線圖)

先介紹使用到的方法原理,也就是一種異常檢測的方法。 首先要先了解箱線圖。 箱線圖 箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用資料中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法,它也可以

個推異常檢測和實戰應用

日前,由又拍雲舉辦的大資料與 AI 技術實踐|Open Talk 杭州站沙龍在杭州西溪科創園順利舉辦。本次活動邀請了有贊、個推、方得智慧、又拍雲等公司核心技術開發者,現場分享各自領域的大資料技術經驗和心得。以下內容整理自個推資深演算法工程師令狐沖現場分享: 令狐沖(花名),個推資深演算法工程師,目前負責個推

吳恩達《機器學習》課程總結(15)異常檢測

是否 5.6 問題 com 結果 平移 分享 出現問題 計算過程 15.1問題的動機 將正常的樣本繪制成圖表(假設可以),如下圖所示: 當新的測試樣本同樣繪制到圖標上,如果偏離中心越遠說明越可能不正常,使用某個可能性閾值,當低於正常可能性閾值時判斷其為異常,然後做進一步的