1. 程式人生 > >《資料探勘導論》讀書筆記(三)—— 探索資料

《資料探勘導論》讀書筆記(三)—— 探索資料

書名:資料探勘導論(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範巨集建
出版年: 2010-12-10
ISBN: 9787115241009

第3章 探索資料

鳶尾花資料集

  • 資料介紹
    包含150種鳶尾花資訊,每50種取自三個鳶尾花品種之一:Setosa、Versicolour、Virginica。
    花的特徵有以下五種:
    1. 萼片長度(釐米)
    2. 萼片寬度(釐米)
    3. 花瓣長度(釐米)
    4. 花瓣寬度(釐米)
    5. 類(Setosa、Versicolour、Virginica)

彙總統計

彙總統計(summary statistics)是量化的(如均值和標準差),用單個數或數的小集合表示可能很大的值集的各種特徵。

頻率和眾數

考慮m個物件,這m個物件具有屬性x,x的取值集合為{v1,...,vi,...,vk}。
則vi對應的頻率: frequency(vi) = 具有屬性vi的物件數/m
分類屬性的眾數(mode)是具有最高頻率的值。

百分位數

對於有序資料,考慮值集的百分位數(percentile)更有意義。具體來說,給定一個有序的或連續的屬性x和0與100之間的數p,屬性x的第p個百分位數xp是一個x值,使得x的p%的觀測值小於xp。

位置度量:均值和中位數

對於連續資料,兩個使用最廣泛的彙總統計是均值(mean)和中位數(median),它們是值集位置的度量。
考慮m個物件,這m個物件具有屬性x,x的取值集合為{v1,...,vi,...,vk},且vi <= v(i+1),則
均值:
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]


中位數:
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
概括地說,如果奇數個值,則中位數是中間值;如果有偶數個值,則中位數是中間兩個值的平均值。
由於均值對離群值敏感,所以有時採用截斷均值(trimmed mean)。指定0和100之間的百分位數p,丟棄高階和低端的(p/2)%的資料,然後用常規的方法計算均值。中位數就是p=100時的截斷均值。

散佈度量:極差和方差

度量資料的集中程度。
最簡單的度量是極差(range)。給定屬性x,它具有m個值{\(x_1\),..,\(x_m\)},則極差:
\[ range(x) = max(x) - min(x) \tag{3-3} \]


更常用的度量是方差(variance)和標準差(standard deviation)。方差記作\(s_x^{2}\),標準差是方差的平方根,記作\(s_x\)。標準差和x具有相同的單位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意,式(3-4)表示的是樣本方差,注意與總體方差進行區別。
由於方差對離群值敏感,所以有時會用到以下三種度量。
絕對平均偏差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位數絕對偏差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位數極差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]

多元彙總統計

包含多個屬性的資料的位置度量,可以通過分別計算每個屬性的均值或中位數得到。
對於每個屬性的散佈情況,更多的使用協方差矩陣(covariance matrix)S表示,其中,S的第ij個元素\(s_{ij}\)是資料的第i個和第j個屬性的協方差。這樣,如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中,
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中,\(x_{ki}\)和\(x_{kj}\)分別是第k個物件的第i和第j個屬性的值。
協方差的值接近於0,表明兩個變數不具有(線性)關係。
資料的相關性,可以用相關矩陣(correlation matrix)來度量。相關矩陣的第ij個元素是資料的第i和第j個屬性之間的相關性。如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分別是\(x_i\)和\(x_j\)的方差。

視覺化

動機

  1. 讓人們能夠快速吸取大量視覺化資訊,並發現其中的模式。
  2. 利用“鎖在人腦袋中”的領域知識,用非視覺化的方式分析,用視覺化的方式提供結果,由領域專家進行評估。

一般概念

  • 表示:將資料對映到圖形元素
    將資料物件、屬性,資料物件之間的聯絡表示成諸如點、線、形狀、顏色等圖形元素。
  • 安排
    正確合理地安排各項元素。
  • 選擇
    刪除或不突出某些物件和屬性。

技術

少量屬性的視覺化

  • 莖葉圖(stem and leaf plot)
  • 直方圖(histogram)
  • 條形圖(bar plot)
  • 相對頻率直方圖(relative frequency histogram)
  • Pareto直方圖(Pareto histogram)
  • 二維直方圖(two-dimensional histogram)
  • 盒狀圖(box plot)
  • 餅圖(pie chart)

    視覺化時間空間資料

  • 等高線圖(contour plot)
  • 曲面圖(surface plot)
  • 向量圖(vector plot)
  • 低維切片
  • 動畫

    視覺化高維資料

  • 矩陣
  • 平行座標系(parallel coordinates)
  • 星形座標(star coordinates)
  • Chernoff臉(Chernoff face)

注意事項

ACCENT原則:

  • 理解(Apprehension)
    正確察覺變數之間的關係。圖形能夠最大化對變數之間關係的理解嗎?
  • 清晰性(Clarity)
    以目視識別圖形中所有元素。重要的元素或關係在視覺上最突出嗎?
  • 一致性(Consistency)
    根據以前的圖形的相似性解釋圖形。元素、符號形狀、顏色等與以前的圖形使用的一致嗎?
  • 有效性(Efficiency)
    用盡可能簡單的方法描繪複雜關係。圖形元素的使用經濟嗎?圖形容易解釋嗎?
  • 必要性(Necessity)
    對圖形和圖形元素的需要。與其他替代方法(表、文字)相比,圖形是提供資料的更有用形式嗎?為了表示關係,所有的圖形元素都是必要的嗎?
  • 真實性(Truthfulness)
    通過圖形元素的大小,確定圖形元素所代表的的真實值。圖形元素可以準確地定位和定標嗎?