資料探勘複習筆記---02.資料
資料
四個問題
- 資料型別(用什麼型別,用什麼工具)
- 資料質量(噪聲,離散點,缺失值,異常點,重複)
- 預處理(提高資料質量,使資料可以被特定的工具處理)
- 相似性和距離度量
本節大綱
- 關於資料的基本概念
- 如何用統計學方法描述資料
- 度量資料之間的相似性和距離
基本概念
-
資料集
特性:維度,稀疏程度
型別:結構化記錄,影象,時間序列資料
-
屬性
種類:分類資料(Categorical),數值型/量化資料(Quantitative),離散、連續
統計學描述
- Median, 中位數
- Midrange, 中列數 =
(min + max) / 2
對稱性
-
Skewness, 傾斜程度 = Mean - Mode, Skewness
Skewness = 0, 對稱, Symmetric
Skewness > 0, 均值大於眾數, 正向傾斜, Positively skewness
Skewness < 0, 均值小於眾數, 負向傾斜, Negatively skewness
Divergence, 差異性
-
Q 分位數(有序序列, %)
Q0 = min, Q1 = 25%, Q2 = 50%(中位數), Q3 = 75%, Q5 = max
- Boxplot 盒子圖, 實線盒子的上中下邊界是 Q3, Q2, Q1, 虛線上下邊界是 max, min
- 方差, Variance
- 標準差, standard deviation = sqrt(variance)
視覺化, Visualization
- 更加方便直觀地體驗資料,觀察趨勢,相關性
-
直方圖
不同的顏色 --- 不同類別
不同的高度,寬度 --- 數量
-
散點圖
To describe whether there are relationships, patterns or trends between two numerical variables, 揭示兩個變數之間是否存在關聯
正相關,負相關,不相關
-
高維資料
很難同時展示所有維度的資料
分層展示,樹形結構
-
非數值型資料
文字:標籤,詞雲,大小顏色
圖:結點的顏色,大小,邊的粗細
距離度量
- 街區距離,曼哈頓距離
- 歐式距離,歐幾里得距離
-
閔可夫斯基距離, Minkowski Distance
p = 1 時 變成街區距離, p = 2 時變成歐式距離