1. 程式人生 > >大資料探勘之資料預處理

大資料探勘之資料預處理

資料預處理

資料探勘的第一步就是先對資料進行預處理。既然對資料進行處理,我們就需要先認識一下資料。

資料屬性

資料帶有屬性(attribute),屬性使用屬性值(attribute)去表示。例如身高屬性,屬性值為高度
屬性的型別分類一般有四種,Nominal(名字的)(例如西瓜重量),Ordinal(時序的)(例如分數),Interval(間隔的)(例如 日曆的日期)Ratio(比例的)(例如 溫度)
下面的圖片總結了資料的屬性特點:
資料的屬性特點

資料集的型別

普通型別:

  • 記錄資料(檔案資料,交易資料)
  • 有序的 (基因序列)
  • 圖 (圖資料)
    一般的特點:
  • 降維 dimensionality
  • 稀疏化 sparsity
  • 偏度 skewness

資料的描述概括

描述資料一般會用到資料的幾個特點:均值 Mean、中值 Median、眾數 Mode、方差 Variance (描述資料離散度)

測量集中趨勢

馬爾可夫不等式(Markov’s inequality)

P(Xa)E(X)aifX0,a0 P(X\gg a)\ll\frac{E(X)}{a} \qquad ifX\gg0,a\gg0
切比雪夫不等式(chebychev inequality)
P(Xμa)σ2a2 P(|X-\mu|\gg a)\ll \frac{\sigma^{2}}{a^{2}}


切比雪夫不等式可以利用馬爾可夫不等式證明。
(Xμ)2(X-\mu)^{2}作為XX,a2a^{2}作為aa代入馬爾可夫不等式,很容易進行證明
霍夫丁不等式(Hoeffding’s inequality)
P((XE(X))>c)e2nc2(ba)2c>0 P((X-E(X))>c)\ll e^{-2\frac{nc^{2}}{(b-a)^{2}}}\qquad c>0
變數X1,X2...XnX_1,X_2...X_n
互相獨立,並且aXib(i=1,....n)a\ll X_i\ll b(i=1,....n),X=i=1nXinX=\frac{\sum_{i=1}^nX_i}{n}

資料統計的圖形化描述

箱型圖分析(Boxplot Analysis)、直方圖分析(Histogram Analysis)、分位數圖(Quantile plot) 、分位數-分位數圖(Q-Q圖)、散點圖(Scatter Plot)、迴歸曲線擬合

資料預處理的主要任務

  • Data cleaning 資料清洗
  • Data integration 資料整合
  • Data transformation 資料轉換
  • Data reduction 資料簡化
  • Data discretization 資料離散化