創業公司如何做好數據驅動的開發工作
創業公司如何做好數據驅動的開發工作
創業公司錢、開發資源有限,考究更少的工作產生更大的價值,更快的叠代mvp。
data -> info -> knowledge -> wisdom
盡量減少拍腦袋的決策。
決策要從過往經驗到數據驅動;當沒有經驗的時候,參考外部、常識、少量測試驗證。
數據驅動,不僅僅是采集數據,取數的效率,數據的質量,對數據的驗證都是非常關鍵的。
報表數據
輕量數據
系統架構復雜度決定采用的方式
單體應用,單個應用DB:直接從應用的DB的副本集讀取,為防止報表數據的讀寫影響主系統。
副本集根據線上應用DB壓力、報表DB壓力情況選擇:- 可以直接從DB集群中挑取只讀DB來做報表操作
- 可以通過同步機制(oplog/binlog),同步另外的集群去操作。
跨系統/微服務應用:
- 通過調用微服務的api來獲取數據,缺點:大量數據操作的性能消耗應為來回的消耗在調用方與DB之間,數據操作慢。
- 通過數據同步機制,同步多個DB源到一個報表DB(HBase/MongoDB)。
BI 報表
由於負責報表的開發的一般是熟悉 SQL/R/Python,所以考慮直接SQL類的數據直接查到時最合適的(投入時間少、熟悉度高)。[!img]圖
BI 報表我們可以選擇類似Redash/SuperSet 這類工具,來快速定制業務的報表。
數據分析系統建立的階段
stage 1: 有效利用第三方統計平臺
baidu/google
漏鬥、留存、熱點、bug、網絡、用戶的畫像(自己也要分析)
例如通過推廣活動熱點數據,可以發現有些用戶體驗(UX)上,設計與實際有用戶逾期有誤。
stage 2:
熱點、漏鬥、行為
fullstory/appsee/mouseflow
GrowingIO/諸葛IO
stage 3:
建立自己的數據分析平臺
基本漏鬥:訪問、註冊、下載、交易、復投
常見的業務指標:
獲客、留存率
生命周期:流失型、成長型、新用戶
金融的指標:標簽,欺詐分數(自定義),價值分數(自定義)
系統的指標監控
幾個需要關註的維度
- Nginx
- APP Log
- DB Log 報表
- ELK 報表
- 定制自己的業務應用系統維度
Grafana 報表
維度:
- 機器的性能
容器的性能
異常報警
數據可供業務方訪問
物理部署給報表DB到業務方
小量: excel/csv 導出,方便分析
BI自助:提供模板BI自取
大量:API SDK 調用方式,方便Python/R分析
excel ,自己lookup
界面自定義查詢
提供一定的sql,開發、業務方自主到查詢
提供一定的data sdk ,開發、業務方自主到查詢
AB test
金融公司,模型指標,不要猜測,去證實。
工具:
- ab test(https://github.com/xavimb/ab-testing)[!img]圖
- apphoc
數據質量
全公司的事:
防止錯誤數據進入prod
業務方與數據開發的同理配合
作為開發,需要關心業務
讀懂業務的指標 :
普通(DRU、DAU)
專業(ROC、AUC、GINI)
數據全棧工程師
需求
需求避免拍腦袋。
理想的情況下,除了有各種的報表維度,對數據可以導出or在線熱查詢,以便業務人員自己解決自己的需求。
叠代的效果回顧
ROI!!!
創業公司如何做好數據驅動的開發工作