hadoop不同版本有哪些
一、 Hadoop 是什麼?
首次聽到 hadoop 這次單詞,相信很多人跟我當時是一樣,不免心中畫上一個大大的問號——這是什麼東西? Hadoop 是什麼?百度百科的解釋是: ofollow,noindex">Hadoop 是一個由 Apache 基金會所開發的 分散式系統 基礎架構 。 換句話說就是 hadoop 是 一個能夠對大量資料進行 分散式處理 的 軟體 框架 。
Hadoopd 之所謂會誕生,主要是由於進入到大資料時代,計算機需要處理的資料量太過龐大。這時就需要將這些龐大資料切割分配到 N 臺計算機進行處理。當大量資訊被分配到不同計算機進行處理時,要確保最終得到的結果正確就需要對這些分佈處理的資訊進行管理, hadoop 就是這樣的一套解決方案。
通過一個簡單通俗的例子說明: 假如說你有一個籃子水果,你想知道蘋果和梨的數量是多少,那麼只要一個一個數就可以知道有多少了。如果你有一個集裝箱水果,這時候就需要很多人同時幫你數了,這相當於多程序或多執行緒。如果你很多個集裝箱的水果,這時就需要分散式計算了,也就是 Hadoop 。
二、 hadoop 的版本
隨著這幾年大資料浪潮的興起, hadoop 的各種版本也快速在國內流傳和使用。當前主要的 hadoop 版本有以下幾種:
1、 Apache hadoop 的 2.0 版本,它的模組主要有以下幾個:
(1) hadoop 通用模組,支援其他 hadoop 模組的通用工具集;
(2) Hadoop 分散式檔案系統,支援對應資料高吞吐量訪問的分散式檔案系統;
(3) 用於作業排程和叢集資源管理的 Hadoop YANRN 框架;
(4) Hadoop MapReduce ,基於 YARN 的大資料並行處理系統 。
2 、 Cloudera hadoop : Cloudera 版本層次更加清晰,且它提供了適用於各種作業系統的 Hadoop 安裝包,可直接使用 apt-get或者 yum 命令進行安裝,更加省事。
3 、 Hortonworks : Hortonworks 的主打產品是 Hortonworks Data Platform (HDP) ,也同樣是 100% 開源的產品, HDP 除了常見的專案外還包含了 Ambari ,一款開源的安裝和管理系統。 HCatalog ,一個元資料管理系統, HCatalog 現已整合到 Facebook 開源的 Hive 中。 Hortonworks 的Stinger 開創性地極大地優化了 Hive 專案。 Hortonworks 為入門提供了一個非常好的,易於使用的沙盒。 Hortonworks 開發了很多增強特性並提交至核心主幹,這使得 Apache Hadoop 能夠在包括 Windows Server 和 Windows Azure 在內的 Microsoft Windows 平臺上本地執行。加QQ群:834325294,免費領取資料
三、國產 hadoop 發行版有哪些
國內做 hadoop 發行版的像 華為 、 大快搜索 都有推出自己的發行版。華為在硬體上有天然的有事, 華為的 FusionInsight Hadoop 版本基於 Apache Hadoop ,構建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能,程序故障後系統自動 Failover ,無需人工干預,這個也是對Hadoop 的小修補,遠不如 MapR 解決的徹底。
大快搜索推出的 DKhaoop , 是目前已知的國產發行版中唯一一個純原生態的開發, 集成了整個 HADOOP生態系統的全部元件,並深度優化,重新編譯為一個完整的更高效能的大資料通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大資料平臺,在計算效能上有了高達5倍(最大)的效能提升。
