1. 程式人生 > >資料質量分析與預處理

資料質量分析與預處理

  • 資料預處理 2.1單個屬性/特徵預處理 (1)冗餘屬性、重複屬性處理 (2)歸一化(也就無量綱化,為了消除量綱和數值取值上的差異,講資料按照比例縮放) 主要方法有: ①最小、最大值規範(離差標準化),對原始資料進行線下變換,使其對映到[0,1]之間,公式為 x*=(x-min)/(max-min) ②零-均值規範(標準差標準化),處理後的資料均值為0,標準差為1。公式為 x*=(x-均值)/σ,其中,σ為原資料標準差 ③小數定標規範,通過移動屬性值的小數位數,講資料對映到[-1,1]之間,移動的小數位數取決於屬性值絕對值的最大值。公式為 x*=x/10k (3)連續屬性離散化(有些屬性需要轉化為分類屬性,如將收入情況分級) 具體方法如下: ①等寬法(根據屬性的值域對屬性劃分,需要人為劃分區間個數) ②等頻法(其實是按照記錄數的等寬法,需要人為劃分區間個數) ③基於聚類分析的方法(將資料進行聚類,再對聚類好的簇作標記,需要人為劃分區間個數) ④dummy coding(虛擬編碼) ⑤資料變換(對數變換、指數變換、小波變換、Box-Cox) 2.2多個屬性/特徵預處理 (1)降維(PCA、LDA、t-SNE) ①線性降維PCA ②LDA ③非線性降維t-SNE (2)特徵選擇 ①結合業務需求主觀判斷(可以選擇屬性/特徵,也可合併某些屬性/特徵) ②相關係數分析 ③卡方檢驗 ④資訊增益、互資訊 ⑤決策樹 ⑥未完待續……
    2.3根據分析需求自行計算新變數/屬性/特徵