Matlab資料變換、統計、視覺化
阿新 • • 發佈:2018-12-10
資料變換
標準化
資料標準化主要功能就是消除變數間的量綱關係,從而使資料具有可比性
0-1標準化:將資料變換入0-1之間
x=[1 2 3 4 5 ]; [Y,PS]=mapminmax(x,0,1)
Z標準化:經過處理的資料符合標準正態分佈,即均值為0,標準差為1,
x=[1 2 3 4 5 ]; zscore(x)
離散化
為什麼需要離散化?有三個原因。一是演算法需要,二可以克服資料中的缺陷,排除異常值極端值影響,三有利於對非線性關係進行診斷或者描述,
資料統計
基本描述性統計
除平均數、中位數外,
- 表示資料散度的統計量有標準差、方差、極差(max-min)
range(x)
- 表示分佈形狀的統計量有:偏度(大於0右偏態,=0對稱,小於0反之)
skewness(x)
、峰度(=3正態分佈,>3說明分佈散)kurtosis(x)
分佈描述性統計
概率分佈函式和概率密度函式
資料視覺化
基本和分佈視覺化
plot(x)
and hist(x)
在柱狀分佈圖中,如果一組資料過於集中,則無區分效果,考慮刪除
資料關聯視覺化
X=xlsread('dataTableA2.xlsx'); Vars = X(:,7:12); % 繪製變數間相關性關聯圖 figure plotmatrix(Vars) % 繪製變數間相關性強度圖 covmat = corrcoef(Vars);%計算相關係數,越接近1線性相關性越強 figure imagesc(covmat); grid; colorbar;
imagesc(C)
將陣列 C 中的資料顯示為一個影象,該影象使用顏色圖中的全部顏色。C 的每個元素指定影象的 1 個畫素的顏色。生成的影象是一個 m×n 畫素網格,其中 m 和 n 分別是 C 中的列數和行數。這些元素的行索引和列索引確定了對應畫素的中心。
資料分組視覺化
X=xlsread('dataTableA2.xlsx');
dv1=X(:,2);
eva=X(:,12);
% Boxplot
figure
boxplot(X(:,2:12))
figure
boxplot(dv1, eva)
figure
boxplot(X(:,5))