1. 程式人生 > >資料思維 第三篇:資料分析的三板斧

資料思維 第三篇:資料分析的三板斧

令狐沖在華山學藝時,雖然勤學苦練,但是終不得法,在機緣巧合之下,得到風清揚老前輩的真傳,練成獨孤九劍之後,才名震江湖。雖然笑傲江湖的故事情節是虛構的,但從令狐沖蛻變的過程可以看出,練武需要祕籍。資料分析也有一本傳世祕籍,只有六字,這就是《資料化管理》中提到的六字箴言、資料分析的三板斧:對比、細分、溯源,具體來說:

  • (1)對比就是成對的比較,分為橫向對比和縱向對比,橫比是指和“他人”比較,比如,兩家公司的離職率;縱比是指按照時間維度,和“自己”比較,比如,一家公司去年和今天的離職率。
  • (2)細分是指分維度、降低粒度來分析資料,分維度是指增加維度,比如,離職率按照部門維度來分析;降低粒度是指降低資料聚合的程度,比如,離職率不按年份,而按照月份來統計。
  • (3)溯源是指在對比、細分鎖定到具體維度和粒度之後,依然沒有結論,那就需要檢視原始資料,洞察資料,從資料中尋找靈感。

無對比,不分析

資料放在那裡,是沒有意義的,只有比較起來,才體現出資料分析的價值。無對比,不分析,對比在資料分析中地位,不言而喻。對比其實很簡單,就是把A和B比較,但是,沒有可對比性的對比一定是耍流氓。資料沒有可對比性,就沒有資料分析。指標的可對比性,可以從四個“一致”原則來評估:

  • 物件一致:比較的物件一致
  • 時間屬性一致:指標的時間屬性一致
  • 定義和演算法一致:對分析物件的定義和計算方法一致
  • 資料來源一致:統計的資料樣本一致

有時,指標的值不重要,是否具有可比性才是關鍵,這四個一致性原則分別是指:

1. 物件一致是可比的最基本原則,番茄的銷量和豬的銷量是不可比的,這其實就是因為比較的物件不一致。

2. 時間屬性比較特殊,物件所在的季節、月份等時間屬性要有可比性,例如,一家便利店冬季雪糕的銷量,和夏季沒有可比性,因為物件的時間屬性不同,但做銷量的同比是可以的。

3. 物件的定義和演算法要一致,舉個例子,青年的定義:

  • 中國國家統計局:15-34週歲
  • 中國共青團:14-28週歲

當統計青年人數佔總人數的比例時,中國國家統計局和中國共青團的做出的指標,肯定是不同的。

4. 所作的分析中,資料來源不同,資料的可比性就會大打折扣。

在做對比分析時,要記住三個“要”:對比要可比、差異要顯著、描述要全面。

  • 對比要可比:對比分析要有可比性
  • 差異要顯著:組間差異要顯著,組內差異要細微,常用的顯著性檢驗有T檢驗和方差分析;
  • 描述要全面:當刻畫一組資料時,不僅要描述這組資料的一般水平(均值),還要考慮到這組資料的波動水平。如果波動很大,一般水平對資料總體的代表性就會很差。只考慮一般水平而不考慮波動和差異,會使資料的可信度大大縮水。

細分,增加分析的深度

細分體現在增加維度和降低粒度上。一個維度是資料表的一列,通常情況下,維度是指定性資料,例如,產品提供的服務的型別、使用者分佈的地域等。在分析資料時,增加分析的維度,改變看待問題的視角,能夠在更細分的級別上分析資料,洞察到更多的知識,增加資料分析的深度。例如,新使用者的留存率,通過增加獲客來源的維度,可以監控各個來源的新使用者的留存率,把有限的經費使用到真正可以帶來有效轉化的地方。

粒度是資料的聚合程度,最細節的資料是不會聚合的原始資料。舉個例子,每日資料是原始資料,其粒度是日,資料的數量巨大,而每週的統計資料是對日資料的聚合,其粒度是周,資料的數量變成原來的1/7。

通過增加維度和降低粒度來細分資料,深挖資料,揭示資料中潛藏的規律。

溯源,從原始資料中獲得洞察

溯源,就是到細節資料中去,檢視原始資料,反思使用者的行為。在做資料分析時,一定要明白你分析得資料是二手的,還是一手的。一手資料是最原始的資料,包含的內容最豐富,但資料可能不規範。二手資料是經過處理的,甚至是分析之後的資料,這些資料可能是片面的、閹割的、面向特定主題的。由此得出的分析結果可能有失偏駁。

資料分析方法

基本的資料分析方法,主要有以下4個:

1. 對比分析

對比分析中,通常以時間和空間兩個維度選擇參照物,自我比較,從“歷史”到“現在”,形成時間序列,叫做縱向對比;時間屬性相同,與別的事物比較,空間不同,叫做橫向對比。

2. 分類分析

研究物件通常是由不同的分組,每個分組的屬性可能是不同的,一個分組也叫一個類別。如果能把所有的個體按照其特點和屬性分類,使類內的差異小、具有共性;使類間的差異大、具有個性,那麼分析的工作就是面向這幾個類別,而不是大量的個體。分類分析的價值就是用類別代替個體,找到個性所在。

3. 分佈分析

當對比的物件不是一個數值,而是一組資料值時,需要考察資料的集中和離散趨勢。

4. 相關分析

相關分析研究的是事物之間的聯絡,相關分析的價值,在於把關聯量化。發現事物之間的關聯,你發現了世界;而發現事物之間的因果關係,你能改變世界。

參考文件: