大資料探勘之資料預處理
阿新 • • 發佈:2019-02-02
資料預處理
資料探勘的第一步就是先對資料進行預處理。既然對資料進行處理,我們就需要先認識一下資料。
資料屬性
資料帶有屬性(attribute),屬性使用屬性值(attribute)去表示。例如身高屬性,屬性值為高度
屬性的型別分類一般有四種,Nominal(名字的)(例如西瓜重量),Ordinal(時序的)(例如分數),Interval(間隔的)(例如 日曆的日期)Ratio(比例的)(例如 溫度)
下面的圖片總結了資料的屬性特點:
資料集的型別
普通型別:
- 記錄資料(檔案資料,交易資料)
- 有序的 (基因序列)
- 圖 (圖資料)
一般的特點: - 降維 dimensionality
- 稀疏化 sparsity
- 偏度 skewness
資料的描述概括
描述資料一般會用到資料的幾個特點:均值 Mean、中值 Median、眾數 Mode、方差 Variance (描述資料離散度)
測量集中趨勢
馬爾可夫不等式(Markov’s inequality)
切比雪夫不等式(chebychev inequality)
切比雪夫不等式可以利用馬爾可夫不等式證明。
將作為,作為代入馬爾可夫不等式,很容易進行證明
霍夫丁不等式(Hoeffding’s inequality)
變數互相獨立,並且,
資料統計的圖形化描述
箱型圖分析(Boxplot Analysis)、直方圖分析(Histogram Analysis)、分位數圖(Quantile plot) 、分位數-分位數圖(Q-Q圖)、散點圖(Scatter Plot)、迴歸曲線擬合
資料預處理的主要任務
- Data cleaning 資料清洗
- Data integration 資料整合
- Data transformation 資料轉換
- Data reduction 資料簡化
- Data discretization 資料離散化