1. 程式人生 > >Hadoop架構介紹——HDFS的體系結構

Hadoop架構介紹——HDFS的體系結構

設計目標:

-(硬體故障是常態,而非偶然)自動快速檢測應對硬體錯誤

-流式訪問資料(資料批處理)

-轉移計算比移動資料本身更划算(減少資料傳輸)

-簡單的資料一致性模型(一次寫入,多次讀取的檔案訪問模型)

-異構平臺可移植

HDFS體系結構


採用Master-Slaver模式:

NameNode中心伺服器(Master):維護檔案系統樹、以及整棵樹內的檔案目錄、負責整個資料叢集的管理。

DataNode分佈在不同的機架上(Slaver):在客戶端或者NameNode的排程下,儲存並檢索資料塊,並且定期向NameNode傳送所儲存的資料塊的列表。

客戶端與NameNode獲取元資料;

與DataNode互動獲取資料。

預設情況下,每個DataNode都儲存了3個副本,其中兩個儲存在同一個機架的兩個不同的節點上。另一個副本放在不同機架上的節點上。

基本概念

機架:HDFS叢集,由分佈在多個機架上的大量DataNode組成,不同機架之間節點通過交換機通訊,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進資料的可靠性、可用性和網路頻寬的利用率。

資料塊(block):HDFS最基本的儲存單元,預設為64M,使用者可以自行設定大小。

元資料:指HDFS檔案系統中,檔案和目錄的屬性資訊。HDFS實現時,採用了 映象檔案(Fsimage) + 日誌檔案(EditLog)的備份機制。檔案的映象檔案中內容包括:修改時間、訪問時間、資料塊大小、組成檔案的資料塊的儲存位置資訊。目錄的映象檔案內容包括:修改時間、訪問控制權限等資訊。日誌檔案記錄的是:HDFS的更新操作。

NameNode啟動的時候,會將映象檔案和日誌檔案的內容在記憶體中合併。把記憶體中的元資料更新到最新狀態。

使用者資料:HDFS儲存的大部分都是使用者資料,以資料塊的形式存放在DataNode上。

在HDFS中,NameNode 和 DataNode之間使用TCP協議進行通訊。DataNode每3s向NameNode傳送一個心跳。每10次心跳後,向NameNode傳送一個數據塊報告自己的資訊,通過這些資訊,NameNode能夠重建元資料,並確保每個資料塊有足夠的副本。

HDFS寫入資料的流程:


HDFS讀取資料的流程:


相關推薦

Hadoop架構介紹——HDFS體系結構

設計目標: -(硬體故障是常態,而非偶然)自動快速檢測應對硬體錯誤 -流式訪問資料(資料批處理) -轉移計算比移動資料本身更划算(減少資料傳輸) -簡單的資料一致性模型(一次寫入,多次讀取的檔案訪問模

Hadoop架構介紹——MapReduce的體系結構

MapReduce的體系結構: -分散式程式設計架構 -以資料為中心,更看重吞吐率 -分而治之(把對大規模資料集的操作,分發給一個主節點管理下的各個分節點共同完成,然後整合各個節點的中間結果得到最終的

hadoop學習筆記(三):hdfs體系結構和讀寫流程(轉)

sim 百萬 服務器 發表 繼續 什麽 lose 基於 一次 原文:https://www.cnblogs.com/codeOfLife/p/5375120.html 目錄 HDFS 是做什麽的 HDFS 從何而來 為什麽選擇 HDFS 存儲數據 HDFS

HadoopHDFS通訊協議 與 HDFS體系結構

通訊協議:     上一篇談到SecondaryNameNode會定期與NameNode進行通訊,學過通訊原理的都知道要進行通訊,就得遵循某種協議,HDFS內的通訊也不例外,它的通訊協議都是構建在TCP/IP協議基礎之上的;     HDFS是一個部署在叢集上的分散式檔案

Hadoop中Hbase的體系結構

才會 right hmaster mar hbase 緩存 master 恢復數據 處理 HRegion 當一張表中的數據特別多的時候,HBase把表拆成多個塊,每個塊就是一個HRegion,每個region中包含這個表裏的所有行 HRegionServer 數據

Zigbee網路架構+ZigBee的體系結構+理解zigbee節點的實現的案例+“51微控制器” 和 “zigbee” 、 “cc2530晶片” 之間的關係+晶片cc2530

ZigBee技術具有強大的組網能力,可以形成星型、樹型和網狀網,可以根據實際專案需要來選擇合適的網路結構; 以下拓撲結構的節點,均是指支援zigbee協議的並以其通訊技術手段,實現節點處所需要功能的產品(例如,完整的電路板,參考後面)。 星形拓撲是最簡單的一種拓撲形

Hadoop:MapReduce程式設計介面體系結構

hadoop高階教程:MapReduce程式設計介面體系結構,MapReduce程式設計模型對外提供的程式設計介面體系結構如圖3-1所示,整個程式設計模型位於應用程式層和MapReduce執行器之間,可以分為兩層。第一層是最基本的Java API,主要有5個可程式設計元件

HADOOP docker(十):hdfs 結構體系

部署 web 修改 tail 利用 修復 文件名 編寫 為知 1.簡介2.namenode和datanode3.The File System Namespace 文件系統命名空間4.Data Replication 數據復制5.Replica Placement: T

Hadoop筆記三之Hdfs體系架構及各節點之間的Rpc通訊

前言:         Rpc協議就是Server實現一個聲明瞭很多方法的介面並對外暴露此介面,Client通過呼叫此介面中宣告的方法向server傳送資訊從而實現了與server的通訊。 介紹:         Hdfs是分散式部署的,分為nameNode,seconda

Flume的體系結構介紹以及Flume入門案例(往HDFS上傳資料)

# Flume的體系結構 對java有興趣的朋友可以加上面說的553175249這個群哦,一起學習,共同進步 . # Flume介紹 Flume是Cloudera提供的一個高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的系統,Flume支援在日誌系統中定製各

Hadoop體系結構之 Yarn

tle alt 隔離機制 實例 任務管理 方法 環境 兩種 管理系 1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每

Hadoop體系結構之 Mapreduce

框架 多個 不同 merge 單獨 ref order class task MR框架是由一個單獨運行在主節點上的JobTracker和運行在每個集群從節點上的TaskTracker共同組成。主節點負責調度構成一個作業的所有任務,這些任務分布在不同的不同的從節點上。主節

spring框架體系結構介紹

簡潔 之間 sta art 更多 multi 引入 nfa cti Spring框架學習(本人整理,非原創) 一、spring簡介 Spring是一個開源框架,Spring是於2003 年興起的一個輕量級的Java 開發框架,由Rod Johnson創建。簡單來說,Spri

HDFS主要特性和體系結構

管理 計時 保存 並且 高可用性 而且 gnu esp 數據源 Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點。但同時,它和其他的分布式文件系統的區別也是很明顯

Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)

消息 監控系統 mapreduce spa 文件系統 sql 平時 偽分布式 自己 第一天2.Hadoop框架介紹與搜索技術體系介紹1.大數據典型特性與分布式開發難點2.Hadoop框架介紹與搜索技術體系介紹3.Hadoop版本與特性介紹4.Hadoop核心模塊之HDFS分

數據庫介紹(MySQL安裝 體系結構、基本管理)

pat login 思路 第一個 配置 centos5 info 包括 shel 閱讀目錄 1.1 數據庫簡介 1.2 數據庫相關產品 1.3 Mysql簡介 1.4 mysql數據庫的安裝 1.5 mysql 5.7版本安裝說明 2.1 客戶端與服務器

數據庫介紹-1(體系結構、基本管理)

rom pro 進行 use 切換 能夠 含義 idc class 第2章 Mysql體系結構與基本管理 2.1 客戶端與服務器端模型 2.1.1 mysql服務結構 mysql是一個典型的c/s模式,服務端與客戶端兩部分組成 服務端程序 m

大數據筆記(二)——Apache Hadoop體系結構

大小 問題 擴展性 log hadoop1 檢查點 記錄 時機 二進制 一.分布式存儲 NameNode(名稱節點)     1.維護HDFS文件系統,是HDFS的主節點。     2.接收客戶端的請求:上傳、下載文件、創建目錄等。   

Oracle數據庫基本操作 —— Oracle數據庫體系結構介紹、DDL、DCL、DML

back 存儲 rop oracle數據 none run 單元 修改表 多列 一、Oracle數據庫介紹 1、基本介紹   Oracle數據庫系統是美國ORACLE公司(甲骨文)提供的以分布式數據庫為核心的一組軟件產品,是目前最流行的客戶/服務器(CLIENT/SERVE

Hive 體系結構介紹

led 一個 base 可擴展性 ask back pan 二進制格式 bject 下面是Hive的架構圖。 圖1.1 Hive體系結構 Hive的體系結構可以分為以下幾部分: (1)用戶接口主要有三個:CLI,Client 和 WUI。其中最常用的是C