1. 程式人生 > >資料探勘概念與技術——讀書筆記(2)

資料探勘概念與技術——讀書筆記(2)

原書第三版
Jiawei Han   Micheline Kamber   Jian Pei 著

第二章 認識資料

在進行資料探勘之前,首先需要準備好資料,熟悉資料。

資料物件與屬性型別

一個數據物件代表一個實體,又稱樣本、例項、資料點或物件。
屬性是一個數據欄位,表示資料物件的一個特徵,又稱維、特徵和變數。

  • 標稱屬性:一些符號或事物的名稱。
    • 例如:hair_color(黑色,金色,棕色,白色)
    • 也可能是數值,例如用1表示頭髮黑色,2表示頭髮白色等,或者使用者的User_ID為數值,但是這些都不具有數值屬性,也就是說,數學運算是沒有意義的。
  • 二元屬性:一種標稱屬性(又稱布林屬性)

    • 0或1
    • 例如:男或女;有病或沒病
    • 對稱的:兩種狀態具有同等價值,攜帶相同的權重
    • 非對稱的:結果不是同樣重要。如HIV的檢查結果,用1對最重要的結果編碼(如HIV陽性)
  • 序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。

    • 例如:飲料容量:大、中、小。等級評定:優、良、中、差。
    • 這些值具有有意義的先後次序,但是我們不能說“大”比“中”多多少。

以上三種屬性都是定性的,即它們描述物件的特徵,而不給出實際大小或數量

  • 數值屬性:定量的

    • 區間標度屬性屬性
      • 用相等的單位尺度度量。區間屬性的值有序,但是不能用比率談論這些值。
      • 例如:不能說10℃比5℃暖兩倍
    • 比率標度屬性
      • 具有固有零點的數值屬性。
  • 離散屬性與連續屬性

資料的基本統計描述

把握資料的全貌

  • 中心趨勢度量:均值、中位數和眾數

    • 均值(mean)
      這裡寫圖片描述 均值
      這裡寫圖片描述 加權算術平均

      • 均值對極端值(例如:離群點)很敏感
      • 為了抵消影響,採用截尾均值(去掉頭尾x%的資料)
    • 中位數(median):有序資料值的中間值

      • 若為個數為偶數,則取中間兩個值中的任意值,如果為數值屬性,一般取兩者的均值。
      • 若觀測的數量很大,可以用差值計算近似值
        這裡寫圖片描述
    • 眾數(mode):集合中出現最頻繁的值
      • 對於適度傾斜(非對稱)的單峰數值資料,有以下近似
        這裡寫圖片描述
    • 中列數(midrange):資料集中最大和最小值的平均值。
      這裡寫圖片描述
  • 度量資料散佈:極差、四分位數、方差、標準差和四分位數極差

    • 極差:最大值與最小值之差
    • 分位數:取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合

      • 四分位數:3個數據點,把資料劃分成4個相等的部分。
      • 四分位數極差:IQR = Q3 – Q1(第3個和第1個四分位數之差)
      • IQR可用於挑選離群點,挑選落在第3個四分位數之上或第1個四分位數之下至少1.5*IQR處的值。
    • 盒圖:體現了五數概括

      • 分佈的五數概括:最小值、四分位數Q1、中位數、四分位數Q3和最大值(按次序寫出,其中中位數也是四分位數Q2
      • 盒圖的端點一般在四分位數上,即盒的長度為IQR
      • 中位數用盒內的線表示
      • 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值(僅當最高和最低觀測值超過四分位數不到1.5*IQR時,鬍鬚擴充套件到它們,否則鬍鬚出現在四分位數的1.5*IQR之內的最極端的觀測值處終止,剩下情況單獨繪出)
        這裡寫圖片描述
    • 方差和標準差:指出資料分佈的散步程度
      這裡寫圖片描述 方差
      • 標準差是方差的平方根
      • 標準差度量關於均值的發散,僅當選擇均值作為中心度量時使用。
  • 資料的基本統計描述的圖形顯示

    • 分位數圖

      • X按遞增序排序,每個觀測值xi與一個百分數fi配對。這裡寫圖片描述
      • 意思是大約fi * 100%的資料小於值xi
        這裡寫圖片描述
    • 分位數-分位數圖(又稱q-q圖)

      • 對著另一個對應的分位數,繪製一個單變數分佈的分位數。
      • 觀察從一個分佈到另一個分佈是否有漂移
        這裡寫圖片描述
        例如Q1這個點表示,在部門1中,25%的價格資料低於60美元,在部門2中,25%的價格資料低於64美元。
    • 直方圖

      • 對於X的每個已知值,條的高度表示該X值出現的概率(即計數)
      • 如果X是數值的,X的值域被劃分成不想交的連續子域(稱作桶或者箱)。
    • 散點圖

      • 不同於以上三者是衡量單變數的,散點圖確定兩個數值變數之間是否存在聯絡、模式或趨勢
        這裡寫圖片描述

資料視覺化

通過圖形清晰有效地表達資料

  • 基於畫素的視覺化技術

    • 值越小,顏色越淡
      這裡寫圖片描述

    • 對於寬視窗,以線性方法填充的效果不夠好。第一個元素與前一行的最後一個元素相隔太遠,但是在全域性序下他們是彼此貼近的。這種情況下,可以採用空間填充曲線。
      這裡寫圖片描述

    • 另外,視窗不必是矩形的。圓弓分割技術使用圓弓形視窗。

  • 幾何投影視覺化技術
    理解多維空間的資料分佈

    • 散點圖:使用笛卡爾座標顯示多維資料點。

      • 對於維數超過4的資料集,散點圖一般不太有效。採用散點圖矩陣。
      • 散點圖矩陣是二維散點圖的n*n網路
        這裡寫圖片描述

      • 隨著維數的繼續增加,另一種技術稱為平行座標。繪製n個等距離,相互平行的軸,每維一個。缺點是當資料集大時,可讀性較差,視覺上重疊較多。

  • 基於圖符的視覺化技術

    • 切爾諾夫臉:用眼、耳、口、鼻等的形狀、大小、位置和方向表示維的值。
      這裡寫圖片描述

      • 缺點:在表示多重聯絡的能力方面存在侷限性。而且未顯示具體的資料值。資料在面部位置的對映需謹慎選擇。
      • 眼睛的大小和眉毛的歪斜是重要的。
    • 人物線條畫:把多維資料對映到5段人物線條畫上。每個畫都有四肢和一個軀體。兩個維被對映到顯示軸,其餘維被對映到四肢角度和(或)長度。

  • 層次視覺化技術:把所有維劃分成子空間,這些子空間按層次視覺化。

    • 世界中的世界(n-Vision)
    • 樹圖
  • 視覺化複雜物件和關係

    • 標籤雲

度量資料的相似性和相異性

相似性和相異性都稱為鄰近性

  • 資料矩陣(物件-屬性結構):採用關係表的形式或n*p(n個物件,p個屬性)矩陣
  • 相異性矩陣(物件-物件結構):n個物件兩兩之間的鄰近度
    這裡寫圖片描述
    d(i,j)是物件i和物件j之間的相異性,數值越大差異越大(最下為0,無差異)。d(i,j) = d(j,i),矩陣是對稱的。
    對於標稱資料,相似性sim(i,j) = 1 - d(i,j)

  • 標稱屬性的鄰近性度量
    這裡寫圖片描述

  • 二元屬性的鄰近性度量
    對於標稱屬性可以進行二元屬性編碼,為M種狀態的每個狀態建立一個二元屬性(即該狀態的二元屬性值為1,其餘為0)
    這裡寫圖片描述
    q:物件i和j都取1的屬性數
    r:物件i取1,物件j取0的屬性數
    s:物件i取0,物件j取1的屬性數
    t:物件i和j都取0的屬性數

    • 對稱二元屬性
      這裡寫圖片描述

    • 非對稱的二元屬性
      這裡寫圖片描述
      負匹配數t被認為是不重要的。
      相似性這裡寫圖片描述被稱為Jaccard係數

  • 數值屬性的相異性
    在某些情況下,計算距離之前資料應該規範化,試圖給所有屬性相同的權重

    • 歐幾里得距離
      這裡寫圖片描述

    • 曼哈頓距離
      這裡寫圖片描述

    • 閔可夫斯基距離(Lp範數)
      這裡寫圖片描述
      Lp範數中的p,在上面公式中寫為h,p=1即為曼哈頓距離,p=2表示歐幾里得距離。

    • 上確界距離(切比雪夫距離)
      這裡寫圖片描述
      是h趨於無窮時,閔可夫斯基距離的推廣。

      這裡寫圖片描述

  • 序數屬性的鄰近性度量
    這裡寫圖片描述
  • 混合型別屬性的相異性
    可能包含上面列舉了所有屬性型別
    這裡寫圖片描述
  • 餘弦相似性

    • 有時會出現稀疏的數值資料(0很多),採取傳統的距離度量,可能會因為過多的0項導致彼此不相似,例如詞頻統計,可能很多詞在兩句話中都沒有出現,需要關注的是它們共有的詞,以及這些詞出現的頻率。
      這裡寫圖片描述
      餘弦值越接近1,意味著夾角越小,也就是匹配度越大。

    • 當屬性是二值屬性時,簡單變化如下:
      這裡寫圖片描述
      這個函式被稱為Tanimoto係數。

自己加油加油 笨鳥後飛也要飛呀飛