1. 程式人生 > >資料探勘技術(一)——預處理

資料探勘技術(一)——預處理

1、資料預處理

資料預處理技術包括:聚集、抽樣、維規約、特徵子集選擇、特徵建立、離散化和二元化、變數變換。

屬性的型別:標稱(定性的)(值僅僅是不同的名字,即只提供足夠的資訊以區分物件, 如僱員ID,性別)、序數(定性的)(值提供足夠資訊確定物件的序, ,如成績,街道號碼)、區間(定量的)(值之間的差別是有意義的,即存在測量單位 如日曆日期,攝氏和華氏溫度比率(定量的)(差和比率都是有意義的如:年齡,長度,電流時序資料(也叫時間資料)是對記錄資料的擴充,其中,每個記錄包含一個與之相關聯的時間。序列資料是一個數據集合,它是個體項的序列,如詞或字母的系列,處沒有時間戳之外,它與時序資料非常相似。時間序列資料

是一種特殊的時序資料,其中每個記錄都是一個時間序列,即一段時間的測量序列。

聚集:將兩個或多個物件合併成單個物件。如將表的兩列併成一列(刪除屬性),將表的多行併成一行。將按天的記錄併成按月的記錄(這種聚集常用於聯機分析處理OLAP)。聚集動機:(1)導致需要較小的記憶體和處理時間;(2)通過高層而不是低層資料檢視,聚集起到了轄域和標度轉換的作用;(3)物件或屬性群的性質通常比單個物件或屬性的性質更加穩定;(4)缺點是:丟失有趣的細節。

抽樣:分層抽樣:從預先指定的組開始抽樣。在最簡單的情況下,儘管每組的大小不同,但是從每組抽取的物件個數相同。另一種變形是從每一組抽取的物件的數量正比於該組的大小。合適的樣本容量可能很難確定,因此有時需要使用自適應和漸進抽樣的方法:從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。

二元化:發現關聯模式的演算法要求資料是非對稱的二元屬性(只有屬性的出現才是重要的)。一種分類屬性二元化的技術如下:如果有m個分類值,將每個原始值唯一地賦予區間[0,m-1]中的一個整數。如果屬性是有序的,則賦值必須保持序關係。然後,將這m個整數的每一個都變換成一個二進位制數。由於需要個二進位制位表示這些整數,使用n個二元屬性表示這些二進位制數。但是該方法不適合於非對稱的二元屬性,對於它必須為每一個分類值引入一個二元屬性。

非監督離散化:連續屬性的離散化:等寬(等寬區間)、等頻或等深(每個區間的點一樣多)、使用(諸如K均值等)聚類後的結果來離散化

監督離散化:一種概念上的方法是以極大化區間純度的方式確定分割點。然而,實踐中這種方法可能需要任意確定區間純度和最小化的區間大小。為了解決這一問題,一些基於統計學的方法用每個屬性值來分割區間,並通過合併類似於根據統計檢驗的相鄰區間來建立較大的區間。如果一個區間只包含一個類的值(該區間非常純),則其熵為0,如果一個區間中的值類出現的頻率相等(該區間儘可能不純),則其熵最大。

一種劃分連續屬性的簡單方法是:開始,將初始值切分成兩個部分,使得兩個結果區間產生最小熵。該技術只需要把每個值看作可能的分割點,因為假定區間包含有序值的集合。然後,取一個區間,通常選取具有最大熵的區間,重複分割過程,知道區間的個數達到使用者指定的個數,或滿足終止條件。OLAP的分析功能集中在從多維資料陣列中建立彙總表的各種方法。 OLAP技術包括在不同的維上或在不同的屬性上聚集資料。

眾數:具有最高頻率的數。對於多元資料,每個屬性的散佈可以獨立於其他屬性。資料的散佈更多地用協方差矩陣表示。兩個屬性的協方差矩陣是兩個屬性一起變化並依賴於變數大小的度量。協方差接近於0表明兩個變數不具有(線性)關係。

用多維陣列表示資料需要兩個步驟:維的識別和分析所關注的屬性的識別。

從表形式表示的資料集建立多維資料表示的過程:首先確定用作維的分類屬性以及用作分析目標的定量屬性(目標屬性是定量的,因為多維資料分析的關鍵目標是觀察聚集量,如總和和平均值),然後將表的每一行(物件)對映到多維資料的一個單元,單元的下標由被選作維的屬性的值指定,而單元的值是目標屬性的值,假定沒有被資料定義的單元的值為0。

從多維角度看待資料的主要動機就是需要以多種方式聚集資料。計算聚集總合涉及固定某些屬性(維)的值,在其餘屬性(維)的所有可能的值上求和。資料的多維表示,連同所有可能的總和(聚集)稱作資料立方體(儘管叫立方體,每個維的大小(屬性的個數)卻不必相等,此外,資料立方體可能多餘或少於三個維)。資料立方體是稱為交叉表的統計學技術的推廣。轉軸:在除兩個維之外的所有維上聚集,結果是一個二維交叉表,只有兩個指定的維作為留下的維;切片:通過對一個或多個維指定特定的值,從整個多維陣列中選擇一組單元。切塊:通過指定屬性區間選擇單元子集,這等價於由整個陣列定義子陣列;上卷:如將按天的資料按月聚集;下鑽:按月的資料分解為按天的。上卷和下鑽與聚集有關,然而不同於其他聚集,它是在一個維內聚集單元,而不是在整個維上聚集。多維資料分析將資料看作多維陣列,並聚集資料,以便更好地分析資料的結構。

1.1、 維規約

維規約可以刪除不相關的特徵並降低噪聲。術語維規約通常用於這樣的技術:通過建立新屬性,將一些舊屬性合併在一起來降低資料集的維度。通過選擇舊屬性的子集得到新屬性稱為特徵子集選擇或特徵選擇。維規約的一些常用的方法是使用線性代數的技術,將資料由高維空間投影到低維空間,特別是對於連續資料。主成分分析(PCA)是一種用於連續屬性的線性代數技術,並且捕獲資料的最大變差。奇異值分解是一種線性代數技術,它與PCA有關,並且也用於維規約。

1.2、 特徵子集選擇

降低維度的另一種方法是近使用特徵的一個子集。特徵現在的理想方法是:將所有可能的特徵子集作為感興趣的資料探勘演算法的輸入,然後選取產生最好結果的子集。這種方法在大部分情況下行不通,所以有三種標準的特徵選擇方法:嵌入、過濾和包裝。嵌入方法:特徵選擇作為資料探勘演算法的一部分自然地出現。特殊地,在資料探勘演算法執行期間,演算法本身決定使用哪些屬性和忽略哪些屬性。過濾方法:使用某種獨立於資料探勘任務的方法,在資料探勘演算法執行前進行特徵選擇。例如:我們可以選擇屬性的集合,它的屬性對之間的相關度儘可能低。包裝方法:將目標資料探勘演算法作為黑盒,使用類似於前面介紹的理想演算法的方法,但通常不列舉所有可能的子集來找出最佳屬性子集。過濾方法和包裝方法的唯一不同是它們使用了不同的特徵子集評估方法。對於包裝方法,子集評估使用目標資料探勘演算法;對於過濾方法,子集評估技術不同於目標資料探勘演算法。特徵子集產生的結果將比所有特徵產生的結果更好,或者至少幾乎一樣好。

1.3、 特徵建立

常常可以由原來的屬性建立新的屬性集,更有效的捕獲資料集中的重要資訊。此外,新屬性的數目可能比原屬性少。三種建立新屬性的相關方法:特徵提取、對映資料到新的空間和特徵構造。特徵提取:由原始資料建立新的特徵集稱作特徵提取。最常使用的特徵提取技術都是高度依賴於特定領域的。所以,一旦資料探勘用於一個相對較新的領域,一個關鍵的任務就是開發新的特徵和特徵提取方法。對映資料到新的空間:通過對時間序列實施傅立葉變換,將它轉換成頻率資訊明顯的表示,就能檢測到這些模式。除傅立葉變換外,對於時間序列和其他型別的資料,已經證實小波變換也是非常有用的。特徵構造:原始資料集的特徵具有必要的資訊,但其形式不適合資料探勘演算法。在這種情況下,一個或多個由原始特徵構造的新特徵可能比原始特徵更有用。儘管有一些努力試圖通過考察已有特徵的簡單數字組合來自動地進行特徵構造,但是最常見的方法還是使用專家意見構造特徵。