1. 程式人生 > >Hadoop生態系統:Hadoop學習框架

Hadoop生態系統:Hadoop學習框架

關鍵技術

HDFS 完全整合,高 大容量、容錯性、可儲存非常大的資料集的廉價儲存
MapReduce 完全整合,高 一種處理大資料的程式設計正規化
YARN 完全整合,中 資料處理
Spark 完全整合,高 資料處理/儲存

資料庫及資料管理

Cassandra API相容,高 鍵值儲存
HBase 完全整合,高 列族資料庫
Accumulo 完全整合,高 基於cell-level安全的名-值資料庫
Memcached 不整合,中 在記憶體上快取
Blur 完全整合,中 文件倉庫
Solr API相容,高 文件倉庫
MongoDB API相容,高 JSON面向文件型資料庫
Hive 完全整合,高 資料互動
Spark SQL API相容,高 SQL訪問Hadoop上的資料
Graph 完全整合,高 圖表資料庫

序列化

Avro API相容,中 資料序列化
JSON 不整合,中 資料描述和傳遞
Protocol Buffers API整合,中 資料序列化
Parquet API整合,中 檔案格式

管理與監控

Ambari 完全整合,高 配置、監視和管理Hadoop叢集
HCatalog 完全整合,高 資料抽象層
Nagios 不整合,高 IT基礎設施監控
Puppet API相容,高 節點管理
Chef API相容,高 節點管理
ZooKeeper API相容,中 協調
Oozie 完全整合,高 一個管理複雜的Hadoop多部件工作的工作流排程
Ganglia API相容,中 監視

分析與輔助

Pig 完全整合,高 處理資料的高級別資料流語言
Hadoop Streaming 完全整合,中 使用Java外的其他語言來編寫MapReduce程式碼
Mahout API相容,高 機器學習和資料分析
MLLib 完全整合,高 Spark的機器學習工具
Hadoop影象處理介面(HIPI) API相容,中 影象處理
SpatialHadoop API相容,高 空間分析

資料傳輸

Sqoop 完全整合,高 在HDFS與關係資料庫之間傳遞資料
Flume 完全整合,中 資料收集和聚合,尤其針對日誌資料
DistCp 完全整合,低 在Hadoop叢集之間移動資料
Storm API相容,高 流攝取

安全、訪問控制和審計

Sentry API相容,高 為Hadoop提供一個基礎級授權
Kerberos API相容,高 安全認證
Knox 完全整合,中 安全閘道器

雲端計算和虛擬化

Serengeti 未整合,中 Hadoop虛擬化
Docker 未整合,高 執行應用程式的容器,也包括Hadoop節點
Whirr API相容,低 配置叢集