1. 程式人生 > >[ Hadoop ] Hadoop簡介

[ Hadoop ] Hadoop簡介

分散式的雲端計算技術通過整合資源,為降低成本和能源消耗提供了一種簡化、集中的計算平臺。這種低成本、髙擴充套件、髙效能的特點促使其迅速發展
Hadoop分散式框架提供了一個分散式系統的基礎架構,使使用者在不瞭解分散式底層的情況下也能夠開發分散式應用,充分利用由Hadoop統一起來的叢集儲存資源、 網路資源和計算資源,實現基於海量資料的髙速運算和儲存

什麼是Hadoop
Hadoop專案及其結構
Hadoop體系結構
Hadoop與分散式開發 
Hadoop計算模沒--- MapReduce
Hadoop資料管理
Hadoop叢集安全策略
什麼是Hadoop

Hadoop 概述
Hadoop是一個開源分散式計算平臺。以 Hadoop分散式檔案系統 (Hadoop Distributed FileSystem,HDFS )和 MapReduce 為核心的Hadoop為使用者提供了系統底層細節透明的分散式基礎架構。
HDFS的高容錯性、高伸縮性等優點允許使用者將Hadoop部署在低廉的硬體上,形成分散式系統;
MapReduce分散式程式設計模型允許使用者在不瞭解分散式系統底層細節的情況下開發並行應用程式。
所以使用者可以利用Hadoop輕鬆地組織計算機資源,從而搭建自己的分散式計算平臺, 並且可以充分利用叢集的計算和儲存能力,完成海量資料的處理

Hadoop 1.0版本已經發展成為包含HDFS、MapReduce子專案,與 Pig、ZooKecpcr, Hive、HBase等專案相關的大型應用工程(大型工程專案是指投資規模巨大的工程專案。工程專案是指一般的按設計檔案進行實施,經濟上統一核算,行政上有獨立組織並實行統一管理,完成後可獨立發揮設計檔案所要求的作用的專案)

Hadoop的功能與作用
大資料時代需要資料進行分析處理,以獲取有價值的資訊。那麼如何高效儲存管理這些資料、如何分析這些資料呢?這時可以選用Hadoop系統。在處理這類問題時,它採用分散式儲存方式來提高讀寫速度和擴大儲存容量:採用MapReduce整合分散式檔案系統上的資料,保證高速分析處理資料;與此同時還採用儲存冗餘資料來保證資料的安全性

Hadoop 的優勢
高可靠性:按位儲存和處理資料的能力值得信賴
高擴充套件性:hadoop在計算機集簇間分配資料完成計算任務,這些集簇可以方便的擴充套件節點
高效性:在節點之間動態的移動資料,保證動態平衡。所以處理速度很快
高容錯性:自動儲存資料的多份副本,並能自動將失敗的任務重新分配

Hadoop專案及其結構

現在Hadoop是一個多專案集合,以HDFS 和 MapReduce 為核心,Hive、HBase等專案也不可缺。她們提供了互補的服務或在核心層上提供了更高層的服務

Common: Common是為Hadoop其他子專案提供支援的常用工具,它主要包括FileSystem. RPC和序列化庫

Avro: Avro是用於資料序列化的系統

MapReduce : MapReduce是一種程式設計模型,用於大規模資料集(大於1T B )的並行
運算

HDFS : HDFS是一個分散式檔案系統

Chukwa : Chukwa是開源的資料收集系統,.用於監控ffl分析大型分散式系統的資料

Hive: 是一個建立在Hadodp基礎之上的資料倉庫,提供了一些對Hadoop檔案中的資料集進行資料整理、特殊査詢和分析儲存的工具

HBase : HBase是一個分散式的、面向列的開源資料庫

Pig ; Pig是一個對大型資料集進行分析、和評估的平臺

ZooKeeper : ZooKeeper是一個為分散式應用所設計的開源協調服務

Hadoop體系結構

Hadoop與分散式開發

Hadoop計算模型 MapReduce

Hadoop資料管理

HDFS的資料管理

HBase的資料管理

Hive的資料管理

Hadoop叢集安全策略