【資料異常校驗】格拉布斯準則（Grubbs Criterion）處理資料異常

阿新 • • 發佈：2019-01-25

簡介

Grubbs測試（以1950年發表測試的Frank E. Grubbs命名），也稱為最大歸一化殘差測試或極端學生化偏差測試，是一種統計測試，用於檢測假設的單變數資料集中的異常值來自正常分佈的人口。

定義

格拉布斯的測試基於正態假設。也就是說，在應用Grubbs測試之前，應首先驗證資料是否可以通過正態分佈合理地近似。

格拉布斯的測試一次檢測到一個異常值。從資料集中刪除該異常值，並且迭代測試直到沒有檢測到異常值。但是，多次迭代會改變檢測概率，並且測試不應該用於六個或更少的樣本大小(n>6)，因為它經常將大多數點標記為異常值。

Grubbs測試是根據假設定義的：

$H_{0}$ ：資料集中沒有異常值

$H_{a}$ ：資料集中只有一個異常值

公式

$G = {\ frac {\ displaystyle \ max _ {{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i} - {\ bar {Y}} \ right \ vert} {s}}$

${\ overline {Y}}$ 和 $小號$ 分別表示樣本均值和標準差。

Grubbs檢驗統計量是樣本標準差的單位與樣本均值的最大絕對偏差。

這是測試的雙邊版本。

Grubbs測試也可以定義為單側測試。

要測試最小值是否為異常值

公式：

$G = {\ frac {{\ bar {Y}} - Y _ {\ min}} {s}}$

要測試最大值是否為異常值

公式：

$G = {\ frac {Y _ {\ max} - {\ bar {Y}}} {s}}$

$Y_{min}$ 表示最小值。

$Y_{max}$ 表示最大值。

對於雙邊測試，沒有異常值的假設在顯著級別a級被拒絕

$G> {\ frac {N-1} {{\ sqrt {N}}}} {\ sqrt {{\ frac {t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}$

$t_{a/(2N),N-2)}$ 表示的上臨界值的的t分佈與N - 2 自由度和顯著性水平a/(2N)。對於單側檢驗，用a/N代替a/(2N)。

t分佈可用於構建真實均值的置信區間。

缺點

格拉布斯和和狄克遜法均給出了嚴格的結果，但存在狄克遜法同樣的缺陷。

優化

朱巨集等人採用資料值的中位數取代平均值，改進得到了更為穩健的處理方法，有效消除了同側異常值的遮蔽效應。

國際上常推薦採用格拉布斯準則法。

【資料異常校驗】格拉布斯準則（Grubbs Criterion）處理資料異常

簡介

定義

公式

缺點

優化

【資料異常校驗】格拉布斯準則（Grubbs Criterion）處理資料異常

格拉布斯準則（java程式碼）

利用格拉布斯準則，剔除異常資料

【資料異常校驗】拉依達準則( PauTa Criterion 或 3σ準則) 處理異常資料

【資料結構與演算法】棧——棧的應用舉例（3例）

【root-me CTF練習】Web伺服器安全-SSTI攻擊（模板注入）

【笨方法學PAT】1038 Recover the Smallest Number （30 分）

【笨方法學PAT】1140 Look-and-say Sequence （20 分）

【Java TCP/IP Socket】基於NIO的TCP通訊（含程式碼）

使用Java、hibernate validator註解校驗入參，格式化出參（入參）

【知了堂學習筆記】_JavaScript之DOM操作案例（ATM機）

【網站支付PHP篇】thinkPHP整合支付寶支付（擔保交易）

【Easyui】解決未對form表單資料進行校驗直接就可以提交的問題

SpringMVC教程3【檔案上傳下載，靜態資源處理及資料校驗】

【五 form提交及校驗】 1. form表單提交

【微信小程序】下拉刷新真機測試無效

【PAT】B1037 在霍格沃茨找零錢（20 分）

怎麼計算crc16校驗資料的校驗碼

對時間為“yyyyMMdd”格式的時間資料進行校驗，判斷其合法性

C 使用拉依達準則（3σ準則）剔除異常資料（ Net剔除一組資料中的奇異值）

【資料異常校驗】格拉布斯準則（Grubbs Criterion）處理資料異常

簡介

定義

公式

缺點

優化

相關推薦