1. 程式人生 > >資料探勘--資料篇(學習心得)

資料探勘--資料篇(學習心得)

 資料探勘是一種技術,它將傳統的資料分析方法與處理大量資料的複雜演算法相結合,在一個大型資料庫中,自動的發現有用資訊的過程,還具有預測未來觀測結果的能力。資料探勘的物件是資料,所以離開資料,挖掘無從談起。現將我學習《資料探勘導論》的筆記寫出來,鞏固一下知識。

一、資料型別。

資料物件有其它的名字,如記錄,點,向量,模式,事件,案例,樣本,觀測或實體

1、屬性與度量

屬性是物件的性質或特性,因物件而異,或隨時間而變化。

測量標度是將數值或符號與物件的屬性相關聯的規則。

屬性有四種類型:標稱、序數、區間、比率。其中標稱和序數屬性統稱分類的或定性的。區間和比率是數值的或定量的。

2、資料集的型別

資料集有三個重要的特性:維度、稀疏性、解析度。

資料集有以下的型別:

*記錄資料,包括:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣。

*基於圖形的資料,包括:帶有物件之間聯絡的資料、具有圖形物件的資料。

*有序資料,包括:時序資料、序列資料、時間序列資料、空間資料。

二、資料質量

 1。測量和資料收集問題

測量誤差和資料收集錯誤:

噪聲和偽像:其中偽像是確定性失真,如一組照片同一地方上的條紋。

精度、偏倚和準確率:精度通常用值集合的標準差度量,而偏倚用值集合的均值與被測量的已知值之間的差度量。

離群點:是某種意義上具有不同於資料集中其它大部分資料物件的特徵的資料物件,或者相對於該屬性的典型值不尋常的屬性值,也稱異常物件。

遺漏值:是對一個物件中,其中一個或幾個屬性的資訊未收集。有許多處理遺漏值的策略,如刪除資料物件或屬性、估計遺漏值、在分析時忽略遺漏值。

重複資料:資料集中可能包含重複或者幾乎重複的資料物件。

2。關於應用的問題

資料在應用時除了考慮質量問題之外,同時也要考慮如下幾個性質:時效性、相關性。

三、資料預處理

1、聚集

 聚集是將兩個或多個物件合併成單個物件。

2、抽樣

抽樣是一種選擇資料子集進行分析的常用方法,主要基於這樣的思想:如果樣本是有代表性的,則使用樣本與使用整個資料集的效果幾乎一樣。

抽樣有如下幾個方法:無放回抽樣、有放回抽樣、分層抽樣、漸進抽樣。

3、維歸約

維歸約不同於聚集,聚集是合併物件,維歸約是減少屬性的個數,即降低維度。維歸約通過建立新屬性,將一些舊屬性合併在一起來降低資料集的維度。

維災難:是指這樣一種現象,隨著資料維度的增加,許多資料分析變得非常困難。

用於維歸約的線性代數技術:主成分分析(PCA)、奇異值分解(SVD)。

4、特徵子集選擇

降低維度的另一種方法是僅使用特徵的一個子集,用這個特徵子集代替原來的屬性集合,更能有效的捕獲資料集中的重要資訊。有三種標準的特徵選擇方法:嵌入、過濾、包裝。

 特徵加權:特徵越大(屬性),所賦予的權值越大,而不太重要的特徵賦予較小的權值。

5、離散化和二元化

在資料探勘中,經常需要將連續屬性變換成分類屬性(離散化),並且連續和離散屬性可能都需要變換成一個或多個二元屬性(二元化)。      

6、變數變換

變數變換是指用於變數的所有值的變換,也就是屬性變換。有兩種重要的變數變換型別:簡單函式、規範化或標準化。

四、相似性和相異性度量

1、相似性和相異性的高層定義是術語鄰近性。而相似度是兩個對像相似程度的數值度量。相異度(經常也稱距離)是兩個物件差異程度的數值度量。

2、資料物件之間的相異度

比較經典的是歐幾里德距離(歐式距離)。

3、資料物件之間的相似性

二元資料的相似性度量也稱相似係數。一般採用如下方法度量:簡單匹配係數:SMC=值匹配個數/屬性個數。Jaccard係數:J=匹配的屬性的個數/不涉及0-0匹配的屬性的個數。

餘弦相似度:比較常見用於比較兩個向量。在Web挖掘中經常用於比較兩個網面的相似性。

廣義Jaccard係數(Tanimoto係數):是對Jaccard係數的擴充套件,可以用於文件資料。

4、鄰近度計算問題

組合異種屬性的相似度:可以分別計算出每個屬性之間的相似度,然後使用一種導致0和1之間相似度的方法組合這些相似度。如果某些屬性是非對稱屬性,則可以這樣處理:如果兩個物件在非物件屬性上的值都是0,則在計算機相似度是可以忽略他們。