1. 程式人生 > >2、Hadoop 2.X 概述及生態系統

2、Hadoop 2.X 概述及生態系統

Hadoop官網

http://hadoop.apache.org/


Hadoop來源

  • GFS -> HDFS
  • MapReduce -> MapReduce
  • BigTable -> HBase

Common

The common utilities that support the other Hadoop modules.

  • 工具、基礎、為工程服務

HDFS

A distributed file system that provides high-throughput access to application data.

  • 儲存海量資料
  • 分散式
  • 安全性:副本資料
  • 資料是以block的方式進行儲存的

YARN

A framework for job scheduling and cluster resource management.

  • 分散式資源管理框架
  • 管理整個叢集的資源(記憶體、CPU核數)
  • 分配排程叢集的資源

MapReduce

A YARN-based system for parallel processing of large data sets.

  • 對海量資料的處理
  • 分散式
  • 思想:分而治之。
  • 大資料集分為小的資料集,進行邏輯業務處理(map),合併統計資料集結果(reduce)

Hadoop生態圈

image