1. 程式人生 > >資料探勘:資料(資料的基本統計描述)

資料探勘:資料(資料的基本統計描述)

一、概述

  1. 對應成功的資料預處理而言,把握資料的全貌至關重要。
  2. 基本統計描述可以用來識別資料的性質,凸顯哪些資料值應該視為噪聲或離群點

 

二、中心趨勢度量:均值、中位數、眾數、中列數

  • 也就是度量資料分佈的中部或中心位置。(給定一種屬性,它的值大部分落在何處)

 1)均值(mean)

  • 資料集“中心”的最常用、最有效的數值度量是均值。
  • 均值對應於關係資料庫系統提供的內建聚集函式 average(SQL 的 avg() )。
  • 加權平均值加權平均
  1. 加權(ω):即權重,反應它們所依附的對應值的意義、重要性或出現的頻率。
  2. 計算:xmean
    = ( ω1x1 + ω2x2 + ... +ωNxN ) / ( ω1 + ω2 + ... + ωN )
  • 缺點
  • 對極端值(例如:離群點)很敏感。(例如,公司的平均薪水會被少數幾個高收入的經理顯著推高)
  • 方法
  • 使用截尾均值:丟棄高低極端值後的均值。

 2)中位數(median)

  • 定義:有序資料值的中間值。
  • 計算:N 個數值,若 N 是奇數,第 (N + 1) / 2 個數據為中位數,若 N 是偶數,則中位數不唯一,它是最中間的兩個值和它們之間的任意值(在數值屬性的情況下,中位數取最中間連個值的平均值)。
  • 特點
  1. 主要度量傾斜(非對稱)資料。
  2. 把資料較高的一半與較低的一半分開的值。