1. 程式人生 > >資料探勘中的離群點檢測

資料探勘中的離群點檢測

離群點的定義:離群點是一個數據物件,它顯著不同於其他資料物件,好像它是被不同的機制產生一樣。

離群點的來源:

(1)客體的異常行為導致,如欺詐、入侵、不尋常的實驗結果

(2)資料測量和收集誤差 (3)資料變數內在特性引起,如顧客新的購買模式、基因突變等 離群點檢測的必要性:

(1)去除某些異常資料

(2)“一個人的噪聲也許是其他人的訊號”,可以提供新的視角。

離群點檢測的應用領域:

(1)電信、保險、銀行中的欺詐檢測和風險分析
(2)醫學研究中藥品產生的異常反應
(3)稅務局檢測交稅記錄
(4)檢測誤差

離群點檢測的方法:

(1)基於統計的方法

假定正常的資料物件由一個統計模型(如正太分佈)產生,而不遵守該模型的資料是離群點。

應用基於統計分佈的離群點檢測方法依賴於

a.資料分佈 b.引數分佈 (如均值或方差) c.期望離群點的數量(置信度區間)

優點:

離群點檢測的統計學方法具有堅實的基礎,建立在標準的統計學技術(如分佈引數的估計)之上。

當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非常有效。

缺點:

a.大部分統計方法是針對單個屬性的,對於多元資料技術方法較少。

b.在許多情況下,資料分佈是未知的。

c.對於高維資料,很難估計真實的分佈。

d.這類方法不適合混合型別資料

(2)基於距離的方法

基本思想:一個物件是離群的,如果它遠離大部分其它物件。

例如使用k近鄰進行檢測

優點: 基於距離的離群點檢測方案簡單
缺點: a檢測結果對引數k的選擇較敏感 b時間複雜度為o(n^2),難以用於大規模資料集,這裡n為資料集的規模; c需要有關離群因子閾值或資料集中離群點個數的先驗知識,在實際使用中有時由於先驗知識的不足會造成一定的困難。 d因為它使用全域性閾值,不能處理不同密度區域的資料集。 (3)基於密度的方法

當資料集含有多種分佈或資料集由不同密度子集混合而成時,資料是否離群不僅僅取決於它與周圍資料的距離大小,而且與鄰域內的密度狀況有關。

使用每個物件到第k個最近鄰的距離大小或給定鄰域範圍內其他物件的個數來度量密度。

DBSCAN:是一種簡單的,基於密度的聚類演算法。本次實現中,DBSCAN使用了基於中心的方法。在基於中心的方法中,每個資料點的密度通過對以該點為中心EPs的鄰域內的其他資料點的個數來度量。根據資料點的密度分為三類點:
(1)核心點 (2)邊界點 (3)離群點

(4)基於聚類的方法

把離群點檢測為不屬於任何簇的物件。

基於聚類的方法有兩個共同特點:

a.先採用特殊的聚類演算法處理輸入資料而得到聚類,再在聚類的基礎上來檢測離群點。

b.只需要掃描資料集若干次,效率較高,適用於大規模資料集。

相關推薦

資料檢測

離群點的定義:離群點是一個數據物件,它顯著不同於其他資料物件,好像它是被不同的機制產生一樣。 離群點的來源: (1)客體的異常行為導致,如欺詐、入侵、不尋常的實驗結果 (2)資料測量和收集誤差 (

[資料]檢測---基於kNN的檢測、LOF演算法和CLOF演算法

參考文獻 [1]. 陶晶. 基於聚類和密度的離群點檢測方法[D]. 華南理工大學, 2014. [2].王雪英. 離群點預處理及檢測演算法研究[D]. 西南交通大學, 2009. [3].胡婷婷. 資料探勘中的離群點檢測演算法研究[D]. 廈門大

資料--檢測

離群點檢測R實現 ##設定工作空間 #先用setwd設定工作空間,如D盤,並將相關資料拷貝到該目錄下 setwd("("D:/discrete") #讀入資料 Data=read.csv("D:/di

資料筆記十二】檢測

12.離群點檢測離群點檢測或異常檢測,是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現數據集中的多數模式並據此組織資料,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。12.1 離群點和離群點分析離群點顯著不同

檢測與序列資料異常檢測以及異常檢測大殺器-iForest

1. 異常檢測簡介     異常檢測,它的任務是發現與大部分其他物件不同的物件,我們稱為異常物件。異常檢測演算法已經廣泛應用於電信、網際網路和信用卡的詐騙檢測、貸款審批、電子商務、網路入侵和天氣預報等領域。這些異常物件的主要成因有:來源於不同的模式、自然變異、資料測量以及

資料的異常檢測

資料探勘中異常檢測 最近在做聚類,是利用出租車上車下車地點資訊聚類商圈和生活區域,在實戰過程中,遇到了很多問題 其一:聚類中心點的確定,我們聚類結果要返回一個經緯度資訊,或者說這是一個商圈的中心地點的一個顯示,最初是想用K-means做個簡單的展示版本,不得不感嘆K-mea

資料分析 第五篇:檢測

離群點(outlier)是指和其他觀測點偏離非常大的資料點,離群點是異常的資料點,但是不一定是錯誤的資料點。確定離群點對於資料分析會帶來不利的影響,比如,增大錯誤方差、影響預測和影響正態性。 從散點圖上可以直觀地看到離群點,離群點是孤立的一個數據點;從分佈上來看,離群點遠離資料集中其他資料點。  

異常/檢測算法——LOF

實現 div 剔除 註意 out 兩種 們的 title clas http://blog.csdn.net/wangyibo0201/article/details/51705966 在數據挖掘方面,經常需要在做特征工程和模型訓練之前對數據進行清洗,剔除無效數據和

檢測(Novelty Detection, Outlier Detenction)

適合問題: 對於無標籤的資料, 又想找出壞使用者,完成業務目標。 參考: https://scikit-learn.org/stable/modules/outlier_detection.html 演算法: one class SVM, 原理: 特徵空間中, 分割平面離原點的距離大

資料基本概念--資料型別的屬性與度量

當我們在學習資料探勘演算法或者機器學習演算法時,我們都會發現某些演算法只能應用於特定的資料型別,所以在學習資料探勘演算法或者機器學習演算法前我們需要對資料型別的屬性度量有一個很清晰的瞭解,如果在資料型別這一步就出現問題,不管演算法再怎麼優異肯定也是白搭!! 2.1.1  屬性

資料易犯的錯誤

缺乏資料(Lack Data ) 對於分類問題或預估問題來說,常常缺乏準確標註的案例。例如:欺詐偵測(Fraud Detection):在上百萬的交易中,可能只有屈指可數的欺詐交易,還有很多的欺詐交易沒有被正確標註出來,這就需要在建模前花費大量人力來修正;信用評分(Cred

基於正太分佈的一元檢測

以下為Matlab實現程式: clc; clear; %利用最大似然估計,檢測一元離群點 %氣溫測試資料,單位為攝氏度,這裡假設資料服從正太分佈 TData=[24,24.1,28.9,28.9,29.0,29.1,29.1,29.2,29.2,29.3,29.4,29

DAY 42 機器學習-風控-檢測(異常檢測)

Isolation Forest 演算法: https://zhuanlan.zhihu.com/p/27777266 Local Outlier Factor 演算法: https://zhuanl

資料的模式發現(六)挖掘序列模式

序列模式挖掘 序列模式挖掘(sequence pattern mining)是資料探勘的內容之一,指挖掘相對時間或其他模式出現頻率高的模式,典型的應用還是限於離散型的序列。。 其涉及在資料示例之間找到統計上相關的模式,其中資料值以序列被遞送。通常假設這些值是

拉格朗日插值法對資料缺失值處理

本文參考《Python資料分析與挖掘實戰》一書。 對於資料探勘的缺失值的處理,應該是在資料預處理階段應該首先完成的事,缺失值的處理一般情況下有三種方式:1.刪掉缺失值資料。2不對其進行處理 3.利用插補法對資料進行補充第一種方式是極為不可取的,如果你的樣本數夠多,刪掉資料較少

資料的模式發現(五)挖掘多樣頻繁模式

挖掘多層次的關聯規則(Mining Multi-Level Associations) 定義 項經常形成層次。 如圖所示 那麼我們可以根據項的細化分類得到更多有趣的模式,發現更多細節的特性。 Level-reduced min-support

資料針對缺失值的處理

 一、缺失值產生的原因   缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集(對於定時資料採集而言)。人為原因是由於人的主觀失誤、歷

資料的模式發現(八)軌跡模式挖掘、空間模式挖掘

這是模式挖掘、資料探勘的一部分應用。 空間模式挖掘(Mining Spatiotemporal Patterns) 兩個空間實體之間存在若干拓撲關係,這些關係基於兩個實體的位置: 分離 相交 包含 如圖所示地表示位置資訊,可以提取類似下面的規

資料的模式發現(七)GSP演算法、SPADE演算法、PrefixSpan演算法

這前兩個演算法真是出人意料地好理解 GSP演算法 GSP演算法是AprioriAll演算法的擴充套件演算法,其演算法的執行過程和AprioriAll類似。 其核心思想是:在每一次掃描(pass)資料庫時,利用上一次掃描時產生的大序列生成候選序列,並在掃

資料的分類和聚類

分類(classification ):有指導的類別劃分,在若干先驗標準的指導下進行,效果好壞取決於標準選取的好壞。   它找出描述並區分資料類或概念的模型(或函式),以便能夠使用模型預測類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務, 目前在商業上應用最多