1. 程式人生 > >數據挖掘——統計學分析(三:數據的概括性度量)

數據挖掘——統計學分析(三:數據的概括性度量)

none osi 計算公式 中位數 數據的分布 bsp 適用於 對稱 數組

數據的概括性度量

數據的分布特征可從三方面去描述:1)分布的集中趨勢,反映各數據向其中心值靠攏或聚集的程度; 2)分布的離散程度,反映各數據遠離其中心值的趨勢; 3)分布的形狀,反映數據分布的偏態和峰態。

集中趨勢的度量

分類數據:眾數

一組數據中出現次數最多的變量值,主要用於測度分類數據的集中趨勢,當然也適用於作為順序數據以及數值型數據集中趨勢的測度值。

順序數據:中位數、分位數

中位數、四分位數、十分位數、百分位數

數值型數據:平均數

主要適用於數值型數據,根據所掌握數據的不同,平均數的計算形式和計算公式:

簡單平均數和加權平均數

眾數、中位數和平均數的比較

單峰分布的大多數據:眾數、中位數和平均數之間的關系如下—數據分布是對稱的,眾數、中位數和平均數必定相等。

離散程度的度量

分類數據:異眾比率

非眾數據的頻數占總頻數的比例,主要用於衡量眾數對一組數據的代表程度。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。

適用於測度分類數據的分散程度。

順序數據:四分位差

反映中間50%數據的離散程度,其值越小,說明中間的數據越集中;其值越大,說明中間的數據越分散。

主要適用於順序數據的離散程度。

數值型數據:方差和標準差

極差易受極端值的影響。

平均差全面地反映一組數據的離散程度。

方差:較好地反映數據的離散程度,實際中應用最廣。

標準差:比方差更具實際意義。

相對離散程度:離散系數。

離散系數->變異系數,是一組數據的標準差與其相應平均數之比。離散系數越大說明數據的離散程度也大;離散系數越小,說明數據的離散程度也小。

偏態與峰態的度量

偏態及其測度

對數據分布對稱性地測度,用偏態系數來表示,偏態系數=0,說明數據分布是對稱的。

偏態系數不等於0,說明數據分布非對稱的;若偏態系數大於1或小於1,稱為高度偏態分布;若偏態系數在0.5~1-1~0.5之間,被認為是中等偏態分布;

峰態及其測度

峰態是相對於標準正態分布而言的。如果一組數據服從標準正態分布,則峰態系數的值等於

0,若峰態系數的值明顯不等於0,則表明分布比正態分布更平或更尖。

數據挖掘——統計學分析(三:數據的概括性度量)