資料探勘概念與技術——讀書筆記(2)
原書第三版
Jiawei Han Micheline Kamber Jian Pei 著
第二章 認識資料
在進行資料探勘之前,首先需要準備好資料,熟悉資料。
資料物件與屬性型別
一個數據物件代表一個實體,又稱樣本、例項、資料點或物件。
屬性是一個數據欄位,表示資料物件的一個特徵,又稱維、特徵和變數。
- 標稱屬性:一些符號或事物的名稱。
- 例如:hair_color(黑色,金色,棕色,白色)
- 也可能是數值,例如用1表示頭髮黑色,2表示頭髮白色等,或者使用者的User_ID為數值,但是這些都不具有數值屬性,也就是說,數學運算是沒有意義的。
二元屬性:一種標稱屬性(又稱布林屬性)
- 0或1
- 例如:男或女;有病或沒病
- 對稱的:兩種狀態具有同等價值,攜帶相同的權重
- 非對稱的:結果不是同樣重要。如HIV的檢查結果,用1對最重要的結果編碼(如HIV陽性)
序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。
- 例如:飲料容量:大、中、小。等級評定:優、良、中、差。
- 這些值具有有意義的先後次序,但是我們不能說“大”比“中”多多少。
以上三種屬性都是定性的,即它們描述物件的特徵,而不給出實際大小或數量
數值屬性:定量的
- 區間標度屬性屬性
- 用相等的單位尺度度量。區間屬性的值有序,但是不能用比率談論這些值。
- 例如:不能說10℃比5℃暖兩倍
- 比率標度屬性
- 具有固有零點的數值屬性。
- 區間標度屬性屬性
離散屬性與連續屬性
資料的基本統計描述
把握資料的全貌
中心趨勢度量:均值、中位數和眾數
均值(mean)
均值
加權算術平均- 均值對極端值(例如:離群點)很敏感
- 為了抵消影響,採用截尾均值(去掉頭尾x%的資料)
中位數(median):有序資料值的中間值
- 若為個數為偶數,則取中間兩個值中的任意值,如果為數值屬性,一般取兩者的均值。
- 若觀測的數量很大,可以用差值計算近似值
- 眾數(mode):集合中出現最頻繁的值
- 對於適度傾斜(非對稱)的單峰數值資料,有以下近似
- 對於適度傾斜(非對稱)的單峰數值資料,有以下近似
- 中列數(midrange):資料集中最大和最小值的平均值。
度量資料散佈:極差、四分位數、方差、標準差和四分位數極差
- 極差:最大值與最小值之差
分位數:取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合
- 四分位數:3個數據點,把資料劃分成4個相等的部分。
- 四分位數極差:IQR = Q3 – Q1(第3個和第1個四分位數之差)
- IQR可用於挑選離群點,挑選落在第3個四分位數之上或第1個四分位數之下至少1.5*IQR處的值。
盒圖:體現了五數概括
- 分佈的五數概括:最小值、四分位數Q1、中位數、四分位數Q3和最大值(按次序寫出,其中中位數也是四分位數Q2
- 盒圖的端點一般在四分位數上,即盒的長度為IQR
- 中位數用盒內的線表示
- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值(僅當最高和最低觀測值超過四分位數不到1.5*IQR時,鬍鬚擴充套件到它們,否則鬍鬚出現在四分位數的1.5*IQR之內的最極端的觀測值處終止,剩下情況單獨繪出)
- 方差和標準差:指出資料分佈的散步程度
方差
- 標準差是方差的平方根
- 標準差度量關於均值的發散,僅當選擇均值作為中心度量時使用。
資料的基本統計描述的圖形顯示
分位數圖
- X按遞增序排序,每個觀測值xi與一個百分數fi配對。
- 意思是大約fi * 100%的資料小於值xi
分位數-分位數圖(又稱q-q圖)
- 對著另一個對應的分位數,繪製一個單變數分佈的分位數。
- 觀察從一個分佈到另一個分佈是否有漂移
例如Q1這個點表示,在部門1中,25%的價格資料低於60美元,在部門2中,25%的價格資料低於64美元。
直方圖
- 對於X的每個已知值,條的高度表示該X值出現的概率(即計數)
- 如果X是數值的,X的值域被劃分成不想交的連續子域(稱作桶或者箱)。
散點圖
- 不同於以上三者是衡量單變數的,散點圖確定兩個數值變數之間是否存在聯絡、模式或趨勢
- 不同於以上三者是衡量單變數的,散點圖確定兩個數值變數之間是否存在聯絡、模式或趨勢
資料視覺化
通過圖形清晰有效地表達資料
基於畫素的視覺化技術
值越小,顏色越淡
對於寬視窗,以線性方法填充的效果不夠好。第一個元素與前一行的最後一個元素相隔太遠,但是在全域性序下他們是彼此貼近的。這種情況下,可以採用空間填充曲線。
另外,視窗不必是矩形的。圓弓分割技術使用圓弓形視窗。
幾何投影視覺化技術
理解多維空間的資料分佈散點圖:使用笛卡爾座標顯示多維資料點。
- 對於維數超過4的資料集,散點圖一般不太有效。採用散點圖矩陣。
散點圖矩陣是二維散點圖的n*n網路
隨著維數的繼續增加,另一種技術稱為平行座標。繪製n個等距離,相互平行的軸,每維一個。缺點是當資料集大時,可讀性較差,視覺上重疊較多。
基於圖符的視覺化技術
切爾諾夫臉:用眼、耳、口、鼻等的形狀、大小、位置和方向表示維的值。
- 缺點:在表示多重聯絡的能力方面存在侷限性。而且未顯示具體的資料值。資料在面部位置的對映需謹慎選擇。
- 眼睛的大小和眉毛的歪斜是重要的。
人物線條畫:把多維資料對映到5段人物線條畫上。每個畫都有四肢和一個軀體。兩個維被對映到顯示軸,其餘維被對映到四肢角度和(或)長度。
層次視覺化技術:把所有維劃分成子空間,這些子空間按層次視覺化。
- 世界中的世界(n-Vision)
- 樹圖
視覺化複雜物件和關係
- 標籤雲
度量資料的相似性和相異性
相似性和相異性都稱為鄰近性
- 資料矩陣(物件-屬性結構):採用關係表的形式或n*p(n個物件,p個屬性)矩陣
相異性矩陣(物件-物件結構):n個物件兩兩之間的鄰近度
d(i,j)是物件i和物件j之間的相異性,數值越大差異越大(最下為0,無差異)。d(i,j) = d(j,i),矩陣是對稱的。
對於標稱資料,相似性sim(i,j) = 1 - d(i,j)標稱屬性的鄰近性度量
二元屬性的鄰近性度量
對於標稱屬性可以進行二元屬性編碼,為M種狀態的每個狀態建立一個二元屬性(即該狀態的二元屬性值為1,其餘為0)
q:物件i和j都取1的屬性數
r:物件i取1,物件j取0的屬性數
s:物件i取0,物件j取1的屬性數
t:物件i和j都取0的屬性數對稱二元屬性
非對稱的二元屬性
負匹配數t被認為是不重要的。
相似性被稱為Jaccard係數
數值屬性的相異性
在某些情況下,計算距離之前資料應該規範化,試圖給所有屬性相同的權重歐幾里得距離
曼哈頓距離
閔可夫斯基距離(Lp範數)
Lp範數中的p,在上面公式中寫為h,p=1即為曼哈頓距離,p=2表示歐幾里得距離。上確界距離(切比雪夫距離)
是h趨於無窮時,閔可夫斯基距離的推廣。
- 序數屬性的鄰近性度量
- 混合型別屬性的相異性
可能包含上面列舉了所有屬性型別
餘弦相似性
有時會出現稀疏的數值資料(0很多),採取傳統的距離度量,可能會因為過多的0項導致彼此不相似,例如詞頻統計,可能很多詞在兩句話中都沒有出現,需要關注的是它們共有的詞,以及這些詞出現的頻率。
餘弦值越接近1,意味著夾角越小,也就是匹配度越大。當屬性是二值屬性時,簡單變化如下:
這個函式被稱為Tanimoto係數。
自己加油加油 笨鳥後飛也要飛呀飛