1. 程式人生 > >使用者點選行為實時分析系統spark

使用者點選行為實時分析系統spark

系統設計技術有:
Hadoop2.x
Zookeeper
Flume
Hive
Hbase
Kafka
Spark2.x
Spark Streaming
Structured Streaming
MySQL
Hue
JavaEE
WebSocket
Echarts

1.1案例需求分析:

主要是基於使用者瀏覽新聞的日誌資訊進行分析的.我們主要的業務需求有以下幾個方面:
完成使用者瀏覽日誌資訊的收集.
完成實時分析前20名流量最高的話題.
完成實時統計當前線上已經曝光的新聞的話題
完成資料報表的開發

 

1.2 系統架構圖設計

排程層:zookeeper 管理工具: 開發工具:IDEA 分析工具:HUE
展示層: 統計查詢/報表 hue 資料視覺化分析 h5+echarts
介面層:通訊協議 http/websocket 資料協議:xml/json
服務層: java/scala
計算層: 流式計算框架 streaming 離線計算框架 mapreduce 記憶體計算框架 spark
統一資源資源管理框架 HDFS
儲存層:分散式訊息佇列 kafka mysql hbase hive 分散式檔案系統hdfs
採集層:DB資料處理工具sqoop 日誌採集框架 flume
資料來源層: database logfile

 1.3 系統資料流程設計

實時流:
應用服務 ---- flume ----kafka zookeeper----yarn sparking streaming scala--- mysql hbase--websocket--h5+echarts頁面展示

離線流:
應用服務 ---- flume---hbase zookeeper--hdfs--mapreduce spark sql hive yarn --hue --mysql -java服務-bi報表