1. 程式人生 > >創業公司如何做好數據驅動的開發工作

創業公司如何做好數據驅動的開發工作

副本 表操作 質量 獲取數據 對數 監控 數據開發 定義 edas

創業公司如何做好數據驅動的開發工作

創業公司錢、開發資源有限,考究更少的工作產生更大的價值,更快的叠代mvp。
data -> info -> knowledge -> wisdom

盡量減少拍腦袋的決策。
決策要從過往經驗到數據驅動;當沒有經驗的時候,參考外部、常識、少量測試驗證。

數據驅動,不僅僅是采集數據,取數的效率,數據的質量,對數據的驗證都是非常關鍵的。

報表數據

輕量數據

系統架構復雜度決定采用的方式

  • 單體應用,單個應用DB:直接從應用的DB的副本集讀取,為防止報表數據的讀寫影響主系統。
    副本集根據線上應用DB壓力、報表DB壓力情況選擇:

    • 可以直接從DB集群中挑取只讀DB來做報表操作
    • 可以通過同步機制(oplog/binlog),同步另外的集群去操作。
  • 跨系統/微服務應用:

    • 通過調用微服務的api來獲取數據,缺點:大量數據操作的性能消耗應為來回的消耗在調用方與DB之間,數據操作慢。
    • 通過數據同步機制,同步多個DB源到一個報表DB(HBase/MongoDB)。

BI 報表

由於負責報表的開發的一般是熟悉 SQL/R/Python,所以考慮直接SQL類的數據直接查到時最合適的(投入時間少、熟悉度高)。[!img]圖
BI 報表我們可以選擇類似Redash/SuperSet 這類工具,來快速定制業務的報表。

數據分析系統建立的階段

stage 1: 有效利用第三方統計平臺
baidu/google

umeng
漏鬥、留存、熱點、bug、網絡、用戶的畫像(自己也要分析)

例如通過推廣活動熱點數據,可以發現有些用戶體驗(UX)上,設計與實際有用戶逾期有誤。

stage 2:
熱點、漏鬥、行為
fullstory/appsee/mouseflow
GrowingIO/諸葛IO

stage 3:
建立自己的數據分析平臺

基本漏鬥:訪問、註冊、下載、交易、復投
常見的業務指標:
獲客、留存率
生命周期:流失型、成長型、新用戶
金融的指標:標簽,欺詐分數(自定義),價值分數(自定義)

系統的指標監控

幾個需要關註的維度

  • Nginx
  • APP Log
  • DB Log 報表
  • ELK 報表
    • 定制自己的業務應用系統維度
  • Grafana 報表

    維度:

  • 機器的性能
  • 容器的性能

異常報警

數據可供業務方訪問

物理部署給報表DB到業務方
小量: excel/csv 導出,方便分析
BI自助:提供模板BI自取
大量:API SDK 調用方式,方便Python/R分析

excel ,自己lookup
界面自定義查詢
提供一定的sql,開發、業務方自主到查詢
提供一定的data sdk ,開發、業務方自主到查詢

AB test

金融公司,模型指標,不要猜測,去證實。
工具:
- ab test(https://github.com/xavimb/ab-testing)[!img]圖
- apphoc

數據質量

全公司的事:
防止錯誤數據進入prod
業務方與數據開發的同理配合

作為開發,需要關心業務

讀懂業務的指標 :
普通(DRU、DAU)
專業(ROC、AUC、GINI)
數據全棧工程師

需求

需求避免拍腦袋。

理想的情況下,除了有各種的報表維度,對數據可以導出or在線熱查詢,以便業務人員自己解決自己的需求。

叠代的效果回顧

ROI!!!

創業公司如何做好數據驅動的開發工作