1. 程式人生 > >大資料學習——常用的資料分析法和模型

大資料學習——常用的資料分析法和模型

產品的基本資料指標

  • 新增:日新增、月新增
  • 活躍:如日活躍(DAU)、月活躍(MAU)等
  • 留存率:使用者會在多長時間內使用產品,如:次日留存率、周留存率等
  • 傳播:平均每位老使用者會帶來幾位新使用者
  • 流失率:一段時間內流失的使用者,佔這段時間內活躍使用者數的比例
  • 地域分佈
  • 使用時長分佈

常見的資料分析法和模型

直方圖(頻率分佈)分析

將某參量的數值範圍等分為若干區間,統計該參量在各個區間上出現的頻率,並用矩形條的長度表示頻率的大小。
這裡寫圖片描述

箱線圖(資料分佈)分析

箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用資料中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法,它也可以粗略地看出資料是否具有有對稱性,分佈的分散程度等資訊,特別可以用於對幾個樣本的比較。
這裡寫圖片描述

時間序列圖(趨勢)分析

描述流程特性值在一段時間內變化波動的趨勢和規律的統計工具,如整個流程大體在什麼範圍內執行、是否具有波動較大的時期或時點等。
這裡寫圖片描述

散點圖(相關性及資料分佈)分析

散點圖(scatter diagram),在迴歸分析中,資料點在直角座標系平面上的分佈圖。
散點圖表示因變數隨自變數而變化的大致趨勢,據此可以選擇合適的函式對資料點進行擬合。
百科對此有更詳細解釋:
百科連結

示例:
這裡寫圖片描述

對比圖分析(差異分析)

對比分析就是將兩個或兩個以上的資料進行比較,分析它們之間的差異,從而揭示這些資料所代表事物的發展變化情況和規律。通過對比,可以很直觀地看出事物在某方面的差距,並且可以準確、量化地表示出差距的多少。
實際使用中使用簡單的柱狀圖可進行對比圖分析。

算術平均分析(差異分析)

運用計算平均數的方法反應總體在一段時間、地點條件下,某一數量特徵的一般水平。平均指標既可用於同一現象在不同地區、不同部門間的橫向比較,也可用於同一現象在不同時間的對比。

移動平均分析(趨勢分析)

趨勢平均法是指以最近若干時期的平均值為基礎,來計算預測期預期值的一種方法。趨勢平均法指在移動平均法計算n期時間序列移動平均值的基礎上,進一步計算趨勢值的移動平均值,進而利用特定基期銷售量移動平均值和趨勢值移動平均值來預測未來銷售量的一種方法。
這裡寫圖片描述

漏斗圖分析(差異分析)

漏斗圖適用於業務流程比較規範、週期長、環節多的流程分析,通過漏斗各環節業務資料的比較,能夠直觀地發現和說明問題。
在網站分析中,通常用於轉化率比較。
示例:
這裡寫圖片描述