1. 程式人生 > >Matlab資料變換、統計、視覺化

Matlab資料變換、統計、視覺化

資料變換

標準化

資料標準化主要功能就是消除變數間的量綱關係,從而使資料具有可比性

  1. 0-1標準化:將資料變換入0-1之間

       x=[1 2 3 4 5 ];
       [Y,PS]=mapminmax(x,0,1)
    
  2. Z標準化:經過處理的資料符合標準正態分佈,即均值為0,標準差為1,

        x=[1 2 3 4 5 ];
        zscore(x)
    

離散化

為什麼需要離散化?有三個原因。一是演算法需要,二可以克服資料中的缺陷,排除異常值極端值影響,三有利於對非線性關係進行診斷或者描述,

資料統計

基本描述性統計

除平均數、中位數外,

  • 表示資料散度的統計量有標準差、方差、極差(max-min)range(x)
  • 表示分佈形狀的統計量有:偏度(大於0右偏態,=0對稱,小於0反之)skewness(x)、峰度(=3正態分佈,>3說明分佈散)kurtosis(x)

分佈描述性統計

概率分佈函式和概率密度函式

資料視覺化

基本和分佈視覺化

plot(x) and hist(x) 在柱狀分佈圖中,如果一組資料過於集中,則無區分效果,考慮刪除

資料關聯視覺化

X=xlsread('dataTableA2.xlsx');
Vars = X(:,7:12);
%  繪製變數間相關性關聯圖
figure
plotmatrix(Vars)
%  繪製變數間相關性強度圖
covmat = corrcoef(Vars);%計算相關係數,越接近1線性相關性越強
figure
imagesc(covmat);
grid;
colorbar;

imagesc(C) 將陣列 C 中的資料顯示為一個影象,該影象使用顏色圖中的全部顏色。C 的每個元素指定影象的 1 個畫素的顏色。生成的影象是一個 m×n 畫素網格,其中 m 和 n 分別是 C 中的列數和行數。這些元素的行索引和列索引確定了對應畫素的中心。

資料分組視覺化

X=xlsread('dataTableA2.xlsx');
dv1=X(:,2);
eva=X(:,12);
% Boxplot
figure
boxplot(X(:,2:12))
figure
boxplot(dv1, eva)
figure
boxplot(X(:,5))