1. 程式人生 > >【資料探勘筆記十二】離群點檢測

【資料探勘筆記十二】離群點檢測

12.離群點檢測

離群點檢測或異常檢測,是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現數據集中的多數模式並據此組織資料,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。

12.1 離群點和離群點分析

離群點顯著不同於其他物件。離群點型別包括全域性離群點、情境離群點、集體離群點。離群點檢測的挑戰來自:正常物件和離群點的有效建模、針對應用的離群點檢測、在離群點檢測中處理噪聲、可理解性。

12.2 離群點檢測方法

如果得到專家標記的正常和離群點物件例項,可以建立離群點檢測模型,包括監督方法、無監督方法、半監督方法。

離群點檢測方法對離群點與其他資料做出假定,根據所做的假定,可以把離群點檢測方法分為三類:統計學方法、基於鄰近性的方法和基於聚類的方法。

12.3 統計學方法

離群點檢測的統計學方法假定資料集中的正常物件由一個隨機過程(生成模型)產生,因此,正常物件出現在該隨機模型的高概率區域中,而低概率區域中的物件是離群點。

離群點檢測的統計學方法一般思想是:學習一個擬合給定資料集的生成模型,然後識別該模型低概率區域中的物件,把它們作為離群點。根據如何指定和如何學習模型,離群點檢測的統計學方法可劃分為兩個主要型別:引數方法和非引數方法。

引數方法假定正常的物件唄一個以Θ為引數的引數分佈產生,該引數分佈的概率密度函式f(x,Θ)給出物件x被該分佈產生的概率,該值越小,x越可能是離群點。

非引數方法並不假定先驗統計模型,而是試圖從輸入資料確定模型。

引數方法包括:基於正態分佈的一元離群點檢測、多元離群點檢測(馬哈拉諾比斯距離)、使用混合引數分佈。

非引數方法包括:直方圖。

12.4 基於鄰近性的方法

基於鄰近性的方法假定:離群點物件與它最近鄰的鄰近性顯著偏離資料集中其他物件與它們近鄰之間的鄰近性。

有兩種方法:基於距離的和基於密度的。基於距離的考慮物件給定半徑的鄰域。基於密度的考察物件和它近鄰的密度。CELL是一種基於距離的離群點檢測的基於網格的方法。

12.5 基於聚類的方法

基於聚類的方法通過考察物件與簇之間的關係檢測離群點。離群點是一個物件,屬於小的偏遠簇,或不屬於任何簇。

12.6 基於分類的方法

基於分類的離群點檢測方法的思想是,訓練一個可以區分正常資料離群點的分類模型。

12.7 挖掘情境離群點和集體離群點

情境屬性包括空間屬性、時間、網路位置和複雜結構的屬性。行為屬性定義物件的特徵,並用於估計物件在它所屬的情境下是否是離群點。

一組資料物件形成一個集體離群點,如果這些物件作為一個整體顯著地偏離整個資料集。儘管該組群中的每個物件可能並非離群點。

12.8 高維資料中的離群點檢測

高維資料離群點檢測面臨離群點解釋、資料稀疏性、資料子空間、維度可伸縮性的挑戰。

擴充的傳統離群點檢測方法,使用傳統的基於近鄰性的離群點模型,為克服高維空間鄰近性度量惡化問題,使用其他度量或構造子空間在其中檢測離群點。

搜尋各種子空間中的離群點的優點是,如果發現一個物件是很低維度的子空間中的離群點,則該子空間提供了重要資訊,解釋了物件為什麼以及在何種程度上是離群點。

為高維離群點建立一個新模型,避免鄰近性度量,而採用新的啟發式方法來檢測離群點。

12.9 小結

1)假定一個給定的統計過程用來產生資料物件集。離群點是顯著偏離其餘物件的資料物件,彷彿它是被不同的機制產生。

2)離群點的型別包括全域性離群點、情境離群點、集體離群點。一個物件可能是多種型別的離群點。

3)全域性離群點是最簡單的離群點形式,並且最容易檢測。情境離群點是關於物件的特定情境顯著地偏離其他物件。資料物件是一個子集形成集體離群點,如果這些物件顯著偏離整個資料集,儘管個體資料物件可能不是離群點。集體離群點檢測需要背景資訊來對物件之間聯絡建模,以便發現離群點的組群。

4)離群點檢測的挑戰包括髮現合適的資料模型、離群點檢測系統對應用的依賴性、找到區別離群點與噪聲的方法、提供為什麼物件唄識別為離群點的解釋。

5)離群點檢測方法可以根據用於分析的資料樣本是否是專家提供的、可以用來建立離群點檢測模型的標號來分類。在這種情況下,檢測方法可以是監督的、無監督的、半監督的。或者,離群點檢測方法可以根據它們對正常物件和離群點的假定來組織,這種類別包括統計學方法、基於鄰近性的方法和基於聚類的方法。

6)統計學離群點檢測方法或基於模型的方法,假定正常的資料物件遵守一個統計學模型,而不遵守該模型的資料被視為離群點。這種模型可以是引數的(假定資料被一個引數分佈產生)和非引數的(由資料學習模型,而不是先驗地假定一個)。多元資料的引數方法可以使用馬哈拉諾比斯距離、x2統計量或多個引數模型的混合。直方圖和核密度估計都是非引數模型的例子。

7)基於鄰近性的離群點檢測方法,假定一個物件是離群點,如果該物件與它最近鄰的鄰近性顯著偏離相同資料集中大部分其他物件與它們最近鄰的鄰近性。基於距離的離群點檢測方法考慮被半徑定義的物件的鄰域。一個物件是離群點,如果它的鄰域沒有足夠多的其他點。在基於密度的離群點檢測方法中,一個物件是離群點,如果它的密度比它的近鄰相對低得多。

8)基於聚類的離群點檢測方法,假定正常的資料物件屬於大的、稠密的簇,而離群點屬於小的或稀疏的簇,或不屬於任何簇。

9)基於分類的離群點檢測方法,使用一類模型,構建一個僅描述正常類的分類器,不屬於正常類的任何樣本都被視為離群點。

10)情境離群點和集體離群點檢測探索資料中的結構。在情境離群點檢測,結構是使用情境屬性定義的情境。在集體離群點檢測,結構是蘊涵的,並且作為挖掘過程的一部分來探索。為了檢測這類離群點,一種方法是把該問題轉換成傳統的離群點檢測問題,另一種方法直接對結構建模。

11)高維資料的離群點檢測方法可以劃分為三種主要方法,這些包括擴充的傳統離群點檢測、找出子空間中的離群點和對高維離群點建模。