1. 程式人生 > >資料探勘實驗(一)資料規範化【最小-最大規範化、零-均值規範化、小數定標規範化】

資料探勘實驗(一)資料規範化【最小-最大規範化、零-均值規範化、小數定標規範化】

本文程式碼均已在 MATLAB R2019b 測試通過,如有錯誤,歡迎指正。 [toc] ## 一、資料規範化的原理 資料規範化處理是資料探勘的一項基礎工作。不同的屬性變數往往具有不同的取值範圍,數值間的差別可能很大,不進行處理可能會影響到資料分析的結果。為了消除指標之間由於取值範圍帶來的差異,需要進行標準化處理。將資料按照比例進行縮放,使之落入一個特定的區域,便於進行綜合分析。 (1)最小-最大規範化 假定min和max分別為屬性A的最小值和最大值,則通過下面公式將屬性A上的值v對映到區間[new_min, new_max]中的v’: $$ v'=\frac {v-min} {max-min}(new\_max-new\_min)+new\_min $$ (2)零-均值規範化 將屬性A的值根據其平均值mean和標準差std進行規範化: $$ v'=\frac {v-mean} {std} $$ (3)小數定標規範化 通過移動屬性A的小數點位置進行規範化,小數點的移動依賴於A的最大絕對值: $$ v'=\frac {v} {10^j} $$ 其中,j是使 Max(| v' |)<1的最小整數。 ## 二、Matlab程式碼實現 ### 1.最小-最大規範化 Matlab的程式碼可以寫簡單一點,不用像C++那樣寫兩個for迴圈。 - `mi=min(A)`預設求矩陣A**每列**的最小值,返回一個行向量mi。 - `repmat(mi,n,1)`重複mi,重複行n次,重複列1次,從而形成與A相同大小的矩陣。 - `./`可直接將兩個矩陣所有相同位置的元素相除(不用寫兩個for迴圈)。 ```matlab clear;clc; %% 資料存入A A=[78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571]; fprintf("原資料:"); A new=input("請輸入需要對映到的新區間。輸入格式示例:[0,1]\n"); new_mi=new(1); new_mx=new(2); [n,m]=size(A); mi=min(A); % 求出A每列的最小值,形成行向量mi(不用for迴圈) mx=max(A); % 求出A每列的最大值,形成行向量mx mi=repmat(mi,n,1); % 將矩陣mi重複,行n次,列1次,調整到與A相同大小(之後就不用for迴圈了) mx=repmat(mx,n,1); % 將矩陣mx重複,行n次,列1次,調整到與A相同大小 B=(A-mi)./(mx-mi)*(new_mx-new_mi)+new_mi; % ./的含義是將兩個矩陣所有相同位置的元素相除 fprintf("\n經過最小最大規範化後:"); B ``` Matlab也有現成的`mapminmax()`函式直接實現最小-最大規範化: ```matlab B1=mapminmax(A')'; % 每列規範化到[-1,1] B2=mapminmax(A',0,1)'; % 每列規範化到[0,1] ``` 解釋一下: - `mapminmax()`函式,預設按行最小最大規範化到[-1,1]。 - 由於預設是按行,如果要按列規範化,傳參時需將A進行轉置,將`mapminmax()`函式返回的結果再轉置一下即可。 - `B2=mapminmax(A',0,1)'`,後面加上兩個引數表示新區間的左右端點。 ### 程式碼執行結果 輸入的新區間範圍為[0,1]: ```matlab 原資料: A = 78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571 請輸入需要對映到的新區間。輸入格式示例:[0,1] [0,1] 經過最小最大規範化後: B = 0.0744 0.9373 0.9235 1.0000 0.6198 0 0 0.8509 0.2149 0.1196 0.8133 0 0 1.0000 1.0000 0.5637 1.0000 0.9423 0.9967 0.8041 0.2645 0.8386 0.8150 0.9093 0.6364 0.8470 0.7862 0.9296 ``` ### 2.零-均值規範化 ```matlab clear;clc; %% 資料存入A A=[78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571]; A_mean=mean(A); % mean求的是每列的均值 A_std=std(A); % std求的是每列的標準差 [n,m]=size(A); B=(A-repmat(A_mean,n,1))./repmat(A_std,n,1); fprintf("原資料:"); A fprintf("經過零均值規範化後:"); B ``` Matlab也有現成的`zscore()`函式直接實現零-均值規範化: ```matlab [B,A_mean,A_std]=zscore(A); % 返回按列進行零均值規範化後的矩陣、每列均值、每列標準差 B=zscore(A); % 只返回按列進行零均值規範化後的矩陣 ``` ### 程式碼執行結果 ```matlab 原資料: A = 78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571 經過零均值規範化後: B = -0.9054 0.6359 0.4645 0.7981 0.6047 -1.5877 -2.1932 0.3694 -0.5164 -1.3040 0.1474 -2.0783 -1.1113 0.7846 0.6846 -0.4569 1.6571 0.6478 0.6752 0.2348 -0.3791 0.4018 0.1521 0.5373 0.6504 0.4216 0.0693 0.5956 ``` ### 3.小數定標規範化 ```matlab clear;clc; A=[78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571]; mx=max(abs(A)); % 求每列絕對值最大的數mx len=floor(log10(mx))+1; % 求mx的位數len B=A./(10.^len); % 將A中每個元素除以10^len fprintf("原資料:"); A fprintf("經過小數定標規範化後:"); B ``` ### 程式碼執行結果 ```matlab 原資料: A = 78 521 602 2863 144 -600 -521 2245 95 -457 468 -1283 69 596 695 1054 190 527 691 2051 101 403 470 2487 146 413 435 2571 經過小數定標規範化後: B = 0.0780 0.5210 0.6020 0.2863 0.1440 -0.6000 -0.5210 0.2245 0.0950 -0.4570 0.4680 -0.1283 0.0690 0.5960 0.6950 0.1054 0.1900 0.5270 0.6910 0.2051 0.1010 0.4030 0.4700 0.2487 0.1460 0.4130 0.4350 0.2