1. 程式人生 > >大數據項目相關技術棧(Hadoop周邊技術)

大數據項目相關技術棧(Hadoop周邊技術)

dbm bulk 日誌 數據交換 ack ssm spark 分布式系 Lucene

J2EE 框架
Spring 開發框架 + SSH or SSM

Lucene 索引和查詢
IKAnalyzer 分詞
Webmagic 爬蟲

ETL工具:
Kettle
Sqoop 結構化數據庫-hadoop數據萃取。可以將一個關系型數據庫(MySQL ,Oracle等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。

結構化數據庫
MySQL
Oracle

需要關註的大數據系統:
Hadoop HDFS 分布式文件系統
Hadoop HBASE or Cassandra 分布式列數據庫(在線查詢交互)
Hadoop Hive or Impala 數據倉庫框架(離線查詢)。可以將結構化的數據文件映射為一張數據庫表,通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用

Spark 分布式計算(MapReduce、SQL、流計算、機器學習ML)
Apache Mahout 是基於Hadoop的機器學習和數據挖掘的一個分布式框架,和Spark ML有重疊,但Mahout勝在是JAVA原生應用。


其他可以略微關註的技術,不算主幹:
Avro, Ambari, Chukwa, Hama, Flume, Giraph, Oozie, Crunch, Whirr, Bigtop, HCatalog, Hue

Apache Avro: 是一個數據序列化系統,設計用於支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制

Apache Ambari: 是一種基於Web的工具,支持Hadoop集群的供應、管理和監控。
Apache Chukwa: 是一個開源的用於監控大型分布式系統的數據收集系統,它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。
Apache Hama: 是一個基於HDFS的BSP(Bulk Synchronous Parallel)並行計算框架, Hama可用於包括圖、矩陣和網絡算法在內的大規模、大數據計算。
Apache Flume: 是一個分布的、可靠的、高可用的海量日誌聚合的系統,可用於日誌數據收集,日誌數據處理,日誌數據傳輸。
Apache Giraph: 是一個可伸縮的分布式叠代圖處理系統, 基於Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
Apache Oozie: 是一個工作流引擎服務器, 用於管理和協調運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務。
Apache Crunch: 是基於Google的FlumeJava庫編寫的Java庫,用於創建MapReduce程序。與Hive,Pig類似,Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫
Apache Whirr: 是一套運行於雲服務的類庫(包括Hadoop),可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。
Apache Bigtop: 是一個對Hadoop及其周邊生態進行打包,分發和測試的工具。
Apache HCatalog: 是基於Hadoop的數據表和存儲管理,實現中央的元數據和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關系視圖。
Cloudera Hue: 是一個基於WEB的監控和管理系統,實現對HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

大數據項目相關技術棧(Hadoop周邊技術)