1. 程式人生 > >資料探索(2)資料特徵分析

資料探索(2)資料特徵分析

資料特徵分析

分佈分析

1.定量資料的分佈分析

對於定量變數而言,選擇組數和組寬是做頻率分佈分析時最主要的問題,一般按照以下步驟進行。
1)求極差
2)決定組距和組數
3)決定分店
4)列出頻率分佈表
5)繪製頻率分佈直方圖
遵循以下原則:
1)各組之間必須相互排斥
2)各組必須包含所有資料
3)各組的組寬最好相等

2.定性資料的分佈分析

對於定性變數,常常根據變數的分類型別來分組,可以採用餅圖和條形圖來描述定型變數的分佈。

3.對比分析

(1)絕對數比較
(2)相對數比較

統計量度量

1.集中趨勢度量

  • 均值
    均值對極端值很敏感
    截斷均值 去掉高、低極端值之後的平均數。
  • 中位數
  • 眾數
    眾數一般用於離散型變數而非連續型變數

2.離中趨勢度量

  • 極差
    對資料集的極端值非常敏感,並且忽略了位於最大值和最小值之間的資料的分佈情況
  • 標準差
  • 變異係數
  • 四分位數間距

週期性分析

週期性分析是探索某個變數是否隨著時間變化而呈現出某種週期變化趨勢。
比如年度週期性趨勢,季節性週期趨勢,周度週期趨勢,小時週期趨勢等等

貢獻度分析

共享度Fenix又稱帕累託分析,他的原理是帕累托法則,又稱20/80定律。
例如,對一個公司來講,80%的利潤常常來自原20%最暢銷的產品,而其他80%的產品只產生了20%的利潤。

相關性分析

分析連續變數之間線性相關的程度的強弱,並用適當的統計指標表示出來的過程稱為相關分析。
1.判斷兩個變數是否具有線性相關關係的最直觀的方法是直接繪製散點圖。
2.需要同時考察多個變數間的相關關係時,一一繪製它們間的簡單散點圖是十分麻煩的,此時可利用散點圖矩陣同時繪製各變數間的散點圖,從而發現多個變數間的主要相關性,這在進行多元線性迴歸時顯得尤為重要。