1. 程式人生 > >ETL的數據來源,處理,保存

ETL的數據來源,處理,保存

style ref 條件 ont 上傳 hive ase topic 我們

ETL的數據來源,處理,保存

1.ETL

  數據來源:HDFS

  處理方式:Mapreduce

  數據保存:HBase

  技術分享

2.為什麽保存在Hbase中

  數據字段格式不唯一/不相同/不固定,采用hbase的動態列的功能非常適合
  因為我們的分析一般情況下,是對於部分事件數據進行分析的,不需要所有的數據,希望將數據的初步過濾放到服務器上進行操作,所以采用hbase的regionserver來過濾初步的條件(scan的filter機制)
  技術分享

  技術分享

3.數據處理  

  MapReduce
    數據流: hbase -> mapreduce -> mysql
  Hive
    數據流:hbase -> hive -> hdfs -> sqoop -> mysql

4.來源HDFS

  這些數據是在flume中收集來的數據,這些數據在前面已經被上傳到HDFS。

  技術分享

ETL的數據來源,處理,保存