1. 程式人生 > >【資料探勘筆記二】認識資料

【資料探勘筆記二】認識資料

2.認識資料

提出一些問題來開啟資料的認識。資料由什麼型別的屬性或欄位組成?每個屬性具有何種型別的資料值?那些屬性是離散的,那些事連續值的?資料值如何分佈?什麼方法更好地視覺化資料可看出離群點?如何度量資料物件之間的相似性或相異性?

2.1資料物件與屬性型別

資料集是由資料物件組成。一個數據物件代表一個實體。資料物件用屬性描述。資料物件也稱樣本、例項、資料點或物件。如果資料物件存放在資料庫中,則是資料元組,資料庫的行對應於資料物件,而列對應於屬性。

1) 什麼是屬性

屬性(attribute)是一個數據欄位,表示資料物件的一個特徵。

屬性、維(dimension)、特徵(feature)和變數(variable)表示同樣概念。

“維”一般用在資料倉庫中。

“特徵”用在機器學習中。

“變數”用在統計學中。

“屬性”用在資料探勘和資料庫中。

給定屬性的觀測值稱做觀測。用來描述一個給定物件的一組屬性稱做屬性向量(或特徵向量)。設計一個屬性(或變數)的資料分佈稱做單變數的(univariate)。雙變數(bivariate)分佈涉及兩個屬性。

一個屬性的型別由該屬性可能具有的值的集合決定。屬性可以是標稱的、二元的、序數的或數值的。

2)標稱屬性

標稱意味與名稱相關。標稱屬性(nominal attribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性也被看做是分類的(categorical),這些值不必具有有意義的序,在計算科學中,這些值也可看做是列舉的(enumeration)。

標稱屬性值並不具有有意義的序,並且不是定量的。對於標稱屬性來說,要描述其集中趨勢,就是通過眾數(mode)來。

3)二元屬性

二元屬性(binaryattribute)是一種標稱屬性,只有兩個類別或狀態:0或1。二元屬性也稱布林屬性。如果兩種狀態具有同等價值或相同權重,則是對稱的;如果其狀態的結果不是同樣重要的,則是非對稱的。

4)序數屬性

序數屬性(ordinalattribute),其可能的值之間具有有意義的序或秩平頂(ranking),但是相繼值之間的差是未知的,適用於記錄不能客觀度量的主管質量評估,通常用於等級評定調查。

在資料歸約中,序數屬性可通過把數值量的值域劃分為有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值。

標稱、二元和序數屬性都是定性的,即它們描述物件的特徵,但不給出實際大小或數量。

5)數值屬性

數值屬性(numericattribute)是定量的,是可度量的量,用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。

區間標度(interval-scaled)屬性用相等的單位尺度度量。區間屬性的值有序,可以為正、0或負。除了值的秩評定之外,該屬性還允許比較和定量評估值之間的差。區間標度屬性是數值的,可計算均值。

比率標度(ratio-scaled)屬性具有固有零點的數值屬性。就是說,如果度量是比率標度的,則可以說一個值是另一個的倍數(或比率)。值是有序的,可計算值之間的差,也可以計算均值、眾數和中位數。

6)離散屬性與連續屬性

屬性分類標稱、二元、序數和數值型別。機器學習領域通常把屬性分成離散的或連續的。離散屬性具有有限或無限個數,可以用或不用整數表示。數值屬性和連續屬性是等同的,連續屬性一般用浮點變量表示。

2.2資料的基本統計描述

參考:http://blog.csdn.net/fjssharpsword/article/details/74911180

資料的基本統計描述可識別資料的性質,發現數據值中的噪聲或離群點,提供對資料總體情況的價值洞察,對資料清理非常有用。

1)中心趨勢度量:均值、中位數、眾數

均值對極端值敏感,可使用截尾均值(trimmed mean)。

中位數更好度量傾斜(非對稱)資料,是有序資料值的中間值,把資料較高的一半與較低的一半分開的值。

眾數(mode)是集合中出現最頻繁的值,有單峰(unimodal)、雙峰(bimodal)、三峰(trimodal)。

中列數(midrange)是資料集的最大值和最小值的平均值。

在完全對稱的資料分佈的單峰頻率曲線中,均值、中位數和眾數都是相同的中心值。在資料不對稱情況下,正傾斜或負傾斜下三者則不同。

2)度量資料散步:極差、四分位數、方差、標準差和四分位數極差

極差(range)是最大值和最小值之差。

分位數(quantile)是取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。四分位數(quartile)把資料分佈劃分成4個相等的部分,使得每部分表示資料分佈的四分之一。100分位數稱做百分位數(percentile),把資料分佈劃分成100個大小相等的連貫集。

四分位數極差(IQR):第1個和第3個四分位數之間的距離,描述被資料的中間一半所覆蓋的範圍。

分佈的五數概括(five-number summary)由中位數、四分位數的第1個和第3個、最小和最大值五個觀測值組成,按min、q1、median、q3、max輸出。

盒圖(boxplot)是一種流行的分佈的直觀表示。盒圖體現了五數概括:盒的端點一般在四分位數上,使得盒的長度是四分位數極差IQR;中位數用盒內的線標記;盒外的兩條線(鬍鬚)延伸到最小和最大值。

方差和標準差指出資料分佈的離散程度,低標準差意味著資料觀測趨向於非常靠近均值,而高標準差表示資料散步在一個大的值域中。標準差是資料集發散的指示器。大型資料庫中方差和標準差的計算是可伸縮的。

3)資料基本統計描述的圖形顯示

分位數圖適用觀察單變數資料分佈。

直方圖(histogram)或頻率直方圖(frequency histogram)概括給定屬性X的分佈的圖形方法。

散點圖(scatterplot)是確定兩個數值變數之間存在聯絡、模式或趨勢的有效圖形方法,適用觀察雙變數資料分佈,存在正相關、負相關、不相關三種情形。

2.3資料視覺化

資料視覺化(datavisualization)是通過圖形表示清晰有效地表達資料。

1)基於畫素的視覺化技術

基於畫素的技術(pixel-oriented technique)在螢幕上為每一維建立一個視窗,記錄的m個維值對映到視窗中對應位置上的m個畫素,畫素的顏色反映對應的值。

空間填充曲線(space-filling curve),其範圍覆蓋了整個n維單位超立方體。視覺化視窗是二維的,因此使用二維空間填充曲線。

圓弓分割技術(circle segment technique)使用圓弓形視窗,可以改善維比較,將諸維視窗並肩形成一個圓。

2)幾何投影視覺化技術

基於畫素的視覺化技術不能理解多維空間的資料分佈;幾何投影技術可幫助使用者發現多維資料集的有趣投影。幾何投影技術首要是解決如何在二維顯示上視覺化高維空間。

二維散點圖使用笛卡爾座標顯示二維資料點;使用不同顏色或現狀表示不同的資料點,可以增加第三維。

三維散點圖使用笛卡爾座標的三個座標軸,如加上顏色,則可以顯示4維資料點。

超過四維的資料集,二維和三維散點圖都無效。

散點圖矩陣是是二維散點圖的n*n網格,提供每個維與所有其他維的視覺化,支援n維資料集的視覺化。

隨著維數增加,散點圖矩陣也將無效。平行座標可以處理更高緯度。

平行座標(parallelcoordinates)繪製n個等距離、相互平行的軸,每維一個;資料記錄用折線表示,與每個軸在對應於相關維值上相交。平行座標技術的主要侷限是不能有效地顯示具有很多記錄的資料集。即便對於數千個記錄的資料集,視覺上的簇和重疊都會降低視覺化的可讀性,自然就很難發現模式。

3)基於圖符的視覺化技術

基於圖符的(icon-based)視覺化技術使用少量圖符表示多維資料值。

切爾諾夫臉(Chernofffaces)是統計學家赫爾曼∙切爾諾夫於1973年引入,把多達18個變數(維)的多維資料以卡通人臉顯示。切爾諾夫臉利用人的思維能力,識別面部特徵的微小差異並立即消化理解許多面部特徵。通過濃縮資料,切爾諾夫臉使得資料容易被使用者消化理解,有助於資料的規律和不規律性的視覺化。不過在表示多重聯絡的能力上存在侷限性,且未能顯示具體的資料值。非對稱的切爾諾夫臉做了技術擴充套件。因為臉具有垂直對稱性,兩邊是相同的,對稱就浪費,所以採用非對稱可以使面部特徵加倍,允許現實多達36維。

人物線條畫(stickfigure)視覺化技術把多維資料對映到5-段人物線條畫,其中每個畫都有四肢和一個軀體;兩個維對映到現實軸(x和y),其餘的維對映到四肢角度或長度。

4)層次視覺化技術

層次視覺化技術把所有維劃分成子集(即子空間),這些子空間按層次視覺化。

世界中的世界(worlds-within-worlds),也稱n-Vision,是一種具有代表性的視覺化方法。假定6維資料集視覺化,先固定三維的資料值,然後對其他三維建立三維圖觀察,這樣構成一個內世界的三維和外世界的三維。

樹圖(tree-map),把層次資料顯示成巢狀矩形的集合。

5)視覺化複雜物件和關係

視覺化技術主要用於數值資料,但現在非數值資料,如文字和社會網路也要視覺化和分析。

標籤雲(tagcloud)是使用者產生的標籤的統計量的視覺化。標籤雲可分單個標籤的大小表示和多個標籤的人氣表示。

除了複雜的資料,資料項之間的複雜關係也對視覺化提出了挑戰。

視覺化為探索資料提供了有效的工具。

2.4度量資料的相似性和相異性

資料物件的相似性和相異性都稱鄰近性(proximity)。

1)資料矩陣和相異性矩陣

資料矩陣用於存放資料物件,相異性矩陣用於存放資料物件對的相異性值。物件是關係資料庫的元組,也稱資料樣本或特徵向量。相似性和相異性主要基於記憶體的聚類和最近鄰演算法並在資料矩陣和相異性矩陣兩類資料結構上執行。

資料矩陣(datamatrix)或稱物件-屬性結構,用矩陣n*p表示(n個物件p個屬性)存在n個數據物件。

相異性矩陣(dissimilaritymatrix)或稱物件-物件結構:存放n個物件兩兩之間的鄰近度(proximity),用n*n矩陣表示;其中d(i,j)是物件i和物件j之間的相異性或差別的度量,是一個非負值,物件i和j高度相似或接近時,值接近0,d(i,j)=d(j,i)矩陣是對稱的。相似性度量可以表示稱相異性度量的函式,如對於標稱資料,sim(i,j)=1-d(i,j)是物件i和j之間的相似性。

資料矩陣由兩種實體或事物組成,即行(代表物件)和列(代表屬性),因而資料矩陣經常被稱為二模(two-mode)矩陣;相異性矩陣只包含一類實體,因此稱為單模(one-mode)矩陣。

2)標稱屬性的鄰近性度量

設一個標稱屬性的狀態數目是M,狀態可以用字母、符號或者一組整數表示(整數只用於資料處理,不代表任何特定的順序)。

兩個物件i和j之間的相異性根據不匹配率來計算:d(i,j)=(p-m)/p,其中m是匹配的數目(即i和j取值相同狀態的屬性數),而p是刻畫物件的屬性總數。可通過賦予m較大的權重,或賦給有較多狀態的屬性的匹配更大的權重來增加m的影響。相似性公式sim(i,j)=1-d(i,j)=m/p。

3)二元屬性的鄰近性度量

基於對稱二元屬性(每個狀態同等重要)的相異性稱做對稱的二元相異性;如果兩個狀態不是同等重要的,則稱為非對稱的二元相異性。

物件j

物件i

1

0

sum

1

q

r

q+r

0

s

t

s+t

sum

q+s

r+t

p


其中q是物件i和物件j都取1的屬性數,r是物件i取1、物件j取0的屬性數,r是物件i取0、物件j取1,t是物件i和j都取0的屬性數,屬性總數是p=q+r+s+t。

對稱的二元相異性:d(i,j)=(r+s)/(q+r+s+t)。

非對稱的二元相異性:d(i,j)=(r+s)/(q+r+s),假設0值是不重要的,則t可認為是不重要而被忽略。

非對稱的二元相似性:sim(i,j)=1-d(i,j)=q/(q+r+s),同樣假設0值是不重要的,忽略t值,稱做Jccard係數。

4)數值屬性的相異性:閔可夫斯基距離

數值屬性刻畫的物件的相異性的距離度量,包括歐幾里得距離、曼哈頓距離和閔可夫斯基距離。


5)序數屬性的鄰近性度量

序數屬性的值之間是有意義的序或排位,而相繼值之間的量值未知。序數屬性也可以通過把數值屬性的值域劃分成有限個類別,對數值屬性離散化得到。

令序數屬性可能的狀態數為M,這些有序的狀態定義一個排位1,…,Mf。在計算物件間的相異性時,序數屬性的處理與數值屬性類似。假設f是用於描述n個物件的一組序數屬性之一,關於f的相異性計算步驟如下:

第一:第i個物件的f值為xif,屬性f有Mf個有序的狀態,表示排位1,…, Mf,用對應的排位rif∈{1,…, Mf}取代xif

第二:每個序數屬性都有不同的狀態數,所以將每個屬性的值域對映到[0,1]上,以便每個屬性都有相同的權重。用zif代替第i個物件rif來實現資料規格化,zif=(rif-1)/( Mf-1);

第三:相異性計算可以參照數值屬性的距離度量來計算,使用zif作為第i個物件的f值。

6)混合型別屬性的相異性

一般情況下,一個物件是由混合多種型別屬性所刻畫的。如果對每種型別單獨分析,獨立結果的整合並不有效的。因此需要將所有屬性型別一起處理,將不同的屬性組合在單個相異性矩陣中,把所有有意義的屬性轉換到共同區間[0,1]上。


2.5小結

1)資料集是由資料物件組成。資料物件代表實體。資料物件用屬性描述。屬性可以使標稱的、二元的、序數的或數值的。

2)標稱(或分類)屬性的值是符號或事物的名字,其中每個值達標某種類別、編碼或狀態。

3)二元屬性是僅有兩個可能狀態(如1和0,真和假)的標稱屬性。如果兩個狀態同等重要,則該屬性是對稱的,否則它是非對稱的。

4)序數屬性是其可能的值之間具有有意義的序或排位,但相繼值之間的量值未知的屬性。

5)數值屬性是定量的(即可測量的量),用整數或實數值表示。數值屬性的型別可以是區間標度的或比率標度的。區間標度屬性的值用固定的、相等的單位測量。比率標度屬性是具有固有0點的數值屬性。

6)基本統計描述為資料預處理提供了分析基礎。資料概括的基本統計度量包括度量資料中心趨勢的均值、加權平均、中位數和眾數,以及度量資料散佈的極差、分位數、四分位數、四分位數極差、方差和標準差。圖形表示(如盒圖、分位數圖、分位數-分位數圖、直方圖和散點圖)有助於資料的視覺化考察,因為對資料預處理和挖掘是有用的。

7)資料視覺化技術可以是基於畫素的、基於幾何學的、基於圖示的或層次的。這些方法用於多維關係資料。已經提出了可用於複雜資料(如文字和社會網路)視覺化的技術。

8)物件相似性和相異性度量用於諸如聚類、離群點分析、最近鄰分類等資料探勘應用中。這種鄰近性度量可用每種屬性型別或混合屬性型別的計算方法計算,如用於非對稱二元屬性的Jaccard係數、用於數值屬性的歐幾里得距離、曼哈頓距離、閔可夫斯基距離和上確界距離。對於涉及稀疏數值資料向量(如詞頻向量)的應用,餘弦度量和Tanimoto係數通常用於相似性評估。