1. 程式人生 > >二、Hadoop大資料處理架構

二、Hadoop大資料處理架構

一、概述

Hadoop是Apache軟體基金會旗下的一個開源分散式計算平臺。是一個能夠對大量資料進行分散式處理的軟體框架。由Java開發,但開發其應用可以使用多種語言,C,C++,跨平臺性非常好。

兩大核心:解決了分散式儲存和分散式處理兩大問題

  1. HDFS(Hadoop Distributed File System)
  2. MapRedue

Hadoop 2.0 (Apache免費開源,企業版可以選擇Cloudera,更方面都更優異(安裝,計算等))

  • MapReduce(離線計算,批處理,基於磁碟),Spark(與MapReduce類似,基於記憶體,所以效能更優)
  • YARN(資源分配,CPU,記憶體等等)
  • HDFS(分散式儲存)

下面是更詳細的Hadoop生態系統