1. 程式人生 > >HDFS分散式檔案系統學習總結

HDFS分散式檔案系統學習總結

結構:主從結構(Master/slave)名稱節點/資料節點;

缺點:不適合低延時資料訪問;

無法高效儲存大量小檔案;

不支援併發寫及任意修改檔案;

NN:儲存元資料;元資料儲存在記憶體中;儲存檔案,block,DN之間的對映關係;

DN:儲存檔案內容;檔案內容儲存在磁碟中;維護block ID到DN本地檔案的對映關係;

NN資料結構:

FSImage:用於維護檔案系統樹以及檔案樹中所有的檔案和資料夾的元資料;

EditLog:錄了所有針對檔案的建立、刪除、重新命名等操作;

註釋:FSImage中沒有記錄塊儲存在哪個資料節點。

NN啟動:載入FSImage,執行EditLog;

SecondaryNN:合併FSImage、EditLog;

過程:1)SecondaryNameNode會定期和NameNode通訊,請求其停止使用EditLog檔案,暫時將新的寫操作寫到一個新的檔案edit.new上來,這個操作是瞬間完成,上層寫日誌的函式完全感覺不到差別;
  (2)SecondaryNameNode通過HTTP GET方式從NameNode上獲取到FsImage和EditLog檔案,並下載到本地的相應目錄下;
  (3)SecondaryNameNode將下載下來的FsImage載入到記憶體,然後一條一條地執行EditLog檔案中的各項更新操作,使得記憶體中的FsImage保持最新;這個過程就是EditLog和FsImage檔案合併;
  (4)SecondaryNameNode執行完(3)操作之後,會通過post方式將新的FsImage檔案傳送到NameNode節點上

  (5)NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage檔案,同時將edit.new替換EditLog檔案,通過這個過程EditLog就變小了。

DN:負責儲存資料和讀取資料;

同性協議:

所有HDFS通訊協議都是構建在TCP/IP上的;

客戶端和資料節點使用資料節點協議 ,用火RPC遠端呼叫實現;

HDFS侷限性:

1、受限於記憶體大小;

2、受限於單個名稱節點效能;

3、無法對不同程式進行隔離;

4、單點故障;

HDFS儲存原理:

冗餘儲存:

優點:

1、加快資料傳輸速度------分別去取
2、容易檢查資料錯誤--互相檢查

3、保證資料可靠性--自動複製

存放方式:

第一副本存在上傳節點;第二副本在不同機架;第三副本在第一機架不同節點上;其他隨機;

讀取:

用API確認機架ID和客戶端ID,採用就近原則;沒用相同ID,則隨機;

資料錯誤與恢復:

三個:名稱節點出錯、資料節點出錯和資料出錯。

NN wrong:停機,從第二名稱節點拷貝恢復;1.0需要停機,2.X有熱備;

DN wrong:心跳資訊;標記資料節點宕機,資料不可讀;調整副本數量和位置;

Data wrong:MD5和sha1校驗;

讀資料:


寫資料:


學習記錄使用;

相關推薦

HDFS分散式檔案系統學習總結

結構:主從結構(Master/slave)名稱節點/資料節點;缺點:不適合低延時資料訪問;無法高效儲存大量小檔案;不支援併發寫及任意修改檔案;NN:儲存元資料;元資料儲存在記憶體中;儲存檔案,block,DN之間的對映關係;DN:儲存檔案內容;檔案內容儲存在磁碟中;維護blo

1、HDFS分散式檔案系統

1、HDFS分散式檔案系統 分散式儲存 分散式計算 2、hadoop hadoop含有四個模組,分別是 common、 hdfs和yarn。 common 公共模組。 HDFS hadoop distributed file system,hadoop分散式檔案系統,負責檔案的

hadoop[4]-hdfs分散式檔案系統的基本工作機制

一、Namenode 和 Datanode HDFS採用master/slave架構。一個HDFS叢集是由一個Namenode和一定數目的Datanodes組成。Namenode是一箇中心伺服器,負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。叢集中的Datanode一般是一個節點一

【Hadoop】HDFS分散式檔案系統

HDFS分散式檔案系統 HDFS基本知識 前言 目標 侷限性 HDFS相關概念 塊(Block) HDFS架構 名稱節點(NameNode) 資料

BigData_A_A_01-hdfs分散式檔案系統(2)高可用

楔子 Hadoop 3 高可用搭建記錄 1 zookeeper叢集 zoo.cfg 檔案配置資料檔案位置等資訊 #其他使用預設 dataDir=/opt/data/zk server.1=had2:2888:3888 server.2=had3:2888:3

BigData_A_A_01-hdfs分散式檔案系統(1)全分散式

楔子 學習 hadoop(基於hadoop3.1.1),學習視訊可以參看大資料第二階段:hadoop體系之離線計算 1 前期準備 1.1 hosts修改 win10修改hosts許可權 虛擬機器4 臺 ,分配如下

Hadoop HDFS分散式檔案系統設計要點與架構

Hadoop簡介:一個分散式系統基礎架構,由Apache基金會開發。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,並

HDFS分散式檔案系統架構

HDFS: Hadoop Distributed File System 特點:hadoop分散式的檔案系統,具備高容錯、部署方便的特點,master/slave架構 元件:NameNode和D

Hadoop 《一》,HDFS 分散式檔案系統

Hadoop-HDFS 儲存模型:位元組 -檔案線性切割成塊(Block):偏移量 offset -block分散儲存在叢集結點中 -單一檔案block大小一致,檔案與檔案可以不一致 -block可以設定副本數,副本無序分散在不同結點中 >副本數不要超過結點數量 -檔案上傳可以

hadoop hdfs分散式檔案系統工作原理

非HA下的namenode 工作原理 nameNode的作用:1.管理元資料 2.維護目錄樹 3.響應客戶請求(主要就是記錄一些 真實資料存放在 被切割後 放在了 哪些機器上,等客戶端下載時  找到這些檔案塊 在合併返回給客戶端) 1.當客戶端沒請求一次時  nameN

Mfs 分散式檔案系統學習

1.MFS 分散式檔案系統介紹: MFS 特性: 1. Free(GPL) 2. 2. 通用檔案系統,不需要修改上層應用就可以使用 3. 可以線上擴容,體系架構可伸縮性極強。#直接 chunkserver 4. 部署簡單。 5. 高可用,可設定任意的

HDFS分散式檔案系統簡介

HDFS(Hadoop Distributed File System)Hadoop 分散式檔案系統 基於流資料模式訪問 就是可以位元組序列化的資料,java.io.Serializable介面 分散式檔案系統處理的資料必須是流資料,可以寫IO

【史上最全】Hadoop 核心 - HDFS 分散式檔案系統詳解(上萬字建議收藏)

## 1. HDFS概述 Hadoop 分散式系統框架中,首要的基礎功能就是檔案系統,在 Hadoop 中使用 FileSystem 這個抽象類來表示我們的檔案系統,這個抽象類下面有很多子實現類,究竟使用哪一種,需要看我們具體的實現類,在我們實際工作中,用到的最多的就是HDFS(分散式檔案系統)以及Loca

hadoop分散式檔案系統HDFS)常用API學習

1、org.apache.hadoop.fs.FileSystem 範圍 方法 返回值 描述 addDelegationTokens(String renewer, Cre

Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性: 1 2.1.1. fastdfs是否可在

Atitit 分散式檔案系統 hdfs nfs fastfs   目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性: 1 2.1.1. fastdfs是否可在windows系統下安裝?可以的話,哪位可以..._百度知道 2

使用python的hdfs包操作分散式檔案系統HDFS

===================================================================================== 寫在前邊的話:         之前做的Hadoop叢集,組合

大資料-Hadoop-HDFS分散式檔案系統)環境搭建

1:Hadoop三大核心元件 A:分散式檔案系統HDFS B:分散式資源排程器 C:分散式計算框架MapReduce 2:HDFS簡介: HDFS架構:HDFS採用Master/Slave架構 即:一個Master(NameNode)對應多個Slave(DataNode)

Hadoop分散式檔案系統HDFS架構

1 Master(NameNode/NN) 帶 N個Slaves(DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block blocksize:128M 130M =

大資料筆記之分散式檔案系統HDFS筆記一

分散式檔案系統就是把檔案分佈儲存到多個計算機節點上,成千上萬的計算機節點構成計算機叢集。這些節點分為兩類。 一類叫做“主節點”(Master Node),也叫做“名稱節點”(Name Node) 另一

大資料筆記之分散式檔案系統HDFS筆記二

1. 通訊協議 HDFS是一個部署在叢集上的分散式檔案系統,因此,很多資料需要通過網路進行傳輸 , 所有的HDFS通訊協議都是構建在TCP/IP協議基礎之上的, 客戶端通過一個可配置的埠向名稱節點主動