1. 程式人生 > >資料預處理初步解釋

資料預處理初步解釋

一、資料預處理

總結資料預處理的主要作用:提高資料計算的效果和效率,資料預處理需要考慮資料的質量要求和計算要求,

質量要求:資料預處理可以把對最終分析結果影響較大的不一致資料、虛假資料、錯誤資料等等資料排除在外,保證了資料分析結果具有較大的準確性,大資料分析分析出來的結果是作為決策方面的依據,故結果的正確性對決策方面具有巨大的影響,必須認真對待。

計算要求:資料預處理不僅僅要求資料的準確性,也要保證分析資料所得的結果具有時效性,因此,分析所用到的資料應具有一定的要求,使其符合分析演算法的結構、標註等有關方面,縮短分析所用時間,便於決策。

總結資料預處理的方法:

在質量要求上,可能會出現:

1
不一致資料 →資料審計(具體方法)

1.1
預定義審計:當來源資料具有自描述性驗證規則時:

可以依據以下四種方法或資料:

a)
資料字典

b)
使用者自定義的完整性約束條件,如欄位“年齡”的取值範圍為20~40

c)
資料的自描述性資訊,如數字指紋(數字摘要)、校檢碼、XML、Schema定義

d)
屬性的定義域與值域

e)
資料自包含的關聯資訊

1.2
自定義審計:當來源資料缺乏自描述性驗證規則或自描述性驗證規則無法滿足資料預處理,需要資料預處理者自定義驗證規則來判斷是否為“問題資料”。

a)
變數規則:在單個(多個)變數上直接定義的驗證規則;

i.
一個有效值(或無效值)的取值範圍

ii.
列舉所有的有效值(或無效值)

b)
函式規則:相對於簡單變數規則,函式規則更為複雜需要對變數進行函式計算。

1.3
視覺化審計:利用圖表的形式能夠很容易發現問題資料。

2
錯誤\虛假資料、無效資料、資料缺失、重複資料→資料清洗

2.1
缺失資料的處理:完全隨機缺失、隨機缺失、非隨機缺失

a)
識別缺失資料:主要採用資料審計的方法發現缺失資料

b)
缺失資料的分析:特徵分析、影響分析以及原因分析→需要利用資料所屬領域知識進一步分析其背後原因,為應對策略的選擇提供依據

c)
缺失資料的處理:忽略、刪除處理或插值處理

2.2
冗餘資料的處理:重複出現的資料以及與特定資料分析任務無關的資料識別、分析和過濾

a)
重複過濾:重複記錄是相對概念,根據資料分析需求來決定是否為重複資料

i.
直接過濾:選擇其中的任何代表資料項保留,過濾其他冗餘資料

ii.
間接過濾:對重複資料進行一定的校檢、調整、合併操作後,形成一條新的記錄

b)
條件過濾:根據某種條件進行過濾,對一個或多個屬性設定過濾條件

2.3
噪聲資料(資料平滑:去噪聲)的處理:測量變數中的隨機錯誤或偏差→錯誤資料、虛假資料以及異常資料(對資料分析結果具有重要影響:離群資料或孤立資料)

a)
分箱:將資料集放入若干個“箱子”,用均值(或邊界值)替換該箱內部每個資料成員

i.
對原始資料集的分箱策略:等深分箱(成員個數相等)、等寬分箱(取值範圍相等)

ii.
箱內成員資料的替換方法:均值平滑技術(均值替換)、中值平滑技術(中值替換)、邊界值(每個值被最近的邊界值替換)

b)
聚類:聚類分析方法找出離群點/孤立點替換/刪除處理

c)
迴歸:迴歸分析法進行平滑處理

3
資料的變換:當原始資料的形態不符合目標演算法的要求

3.1
資料變換策略:

a)
平滑處理:噪聲處理方法

b)
特徵構造(屬性構造):採用一直的特徵(屬性)構造出新的屬性用於描述客觀事實

c)
聚集:對資料進行彙總或聚合處理,進而進行粗粒度計算

d)
標準化(規範化):將特徵(屬性)值按比列縮放,使之落入一個特定的區間→0.0~1.0、Min-Max標準化和z-score標準化

e)
離散化:將數值型別的屬性值用區間標籤或概念標籤表示

3.2
大小型別 :資料標準化處理是將資料按比列縮放,使之落入一個特定區間

a)
0-1標準化:x*=(x-min)/max(max-min) max和min是樣本資料最大最小值;x與x*標準化處理前的值和處理後的值(存在缺陷:當有新資料加入時,可能導致最大最小值的變化,需要重新定義min和max的取值)

b)
Z-scoer標準化:經過處理的資料符合標準正態分佈,即均值為0,標準差為1,:z=(x-µ)/σ µ是平均數 σ是標準差 x與z代表處理前的值和處理後的值

3.3
型別變換:來源資料型別轉換為目標資料集型別

a)
一對一轉換:將變數資料型別直接轉換為目標資料集,存在一對一的對應關係

b)
多對一轉換:變數資料型別對映為另一資料型別時進行多對一的對映

4
資料整合:對來自不同資料來源的資料進行整合處理,整合後進行資料處理(可以在物理上實現或邏輯上實現)

4.1
基本型別:

a)
內容整合:目標資料集與來源資料集結構相同時,對來源資料集中的內容進行合併處理,實現前提是:來源資料集中存在相同結構或可通過變數對映等方式視為相同結構

b)
結構整合:目標資料集與來源資料集結構不同時,對各來源資料集的結構進行合併處理的結果,因此,還分為兩個階段:結構層次的整合和內容層次的整合,在結構整合過程中可以進行屬性選擇操作,不一定是簡單合併

4.2
主要問題:

a)
模式整合:如何使來自多個數據源的現實世界的實體相互匹配,即是實體識別問題→資料庫與資料倉庫以元資料為依據進行實體識別

b)
資料冗餘:一個屬性可以從其他屬性中推演出來,利用相關分析來分析它們之間的相關度(詳細內容見課本)

c)
衝突檢測與消除:被整合資料的語義差異的存在是資料提成的主要挑戰之一

5
其他預處理辦法

5.1
資料脫敏:在不影響資料分析結果的準確性的前提下,對原始資料進行一定的變換操作,對其中的個人(或組織)敏感資料進行替換、過濾或刪除操作,降低資訊的敏感性,減少相關主體的資訊保安隱患和個人隱私風險資料脫敏處理不能停留在簡單地將敏感資訊遮蔽掉或匿名處理,必須滿足以下三個要求:

a)
單向性:無法從脫敏資料推匯出原始資料

b)
無殘留:保證使用者無法通過其他途徑還原敏感資訊

c)
易於實現:需要利用易於計算的簡單方法

d)
需要三個基本活動:識別敏感資訊、脫敏處理【可以用替換(hash函式的方法進行單向對映)和過濾】和脫敏處理的評價

5.2
資料歸約:不影響資料的完整性和資料分析結果的正確性的前提下,通過減少資料規模的方式達到提升資料分析的效果與效率的目的,因此,資料歸約不應對後續資料分析結果產生影響

a)
維歸約:避免維災難的發生(指隨著根據維度的增加,資料分析變得困難)減少所考慮的隨機變數或屬性的個數,採用線性代數的方式

b)
值歸約:在不影響資料的完整性和資料分析結果的正確性的前提下,使用引數模型或非引數模型近似表示資料分佈

c)
資料壓縮:通過資料重構方法得到原始資料的壓縮表現方法

5.3
資料標註:通過對目標資料補充必要的詞性、顏色、紋理、形狀、關鍵字或予以資訊等標籤類元資料,提高其檢索、洞察、分析和挖掘的效果與效率

a)
自動化程度:分為手工標註、自動化標註和半自動化標註

b)
標註的實現層次:

c)
語法標註:主要採用語法層次上的資料計算技術,特點在於標籤內容的生成過程並不建立在語義層次的分析處理技術上,且標籤資訊的利用過程並不支援語義層次的分析推理
例如:文字資料的詞性、句法、局勢等語法標籤;影象資料的顏色、紋理和形狀等視覺標籤

d)
主要採用語義層次上的資料計算技術,語義標註的過程及標註內容應均建立在語義Wed和關聯資料技術上,例如對資料對出其主體、情感傾向、意見選擇等語義資訊