1、HDFS分散式檔案系統

阿新 • • 發佈：2018-11-09

1、HDFS分散式檔案系統

分散式儲存
分散式計算

2、hadoop

hadoop含有四個模組，分別是 common、 hdfs和yarn。

common

公共模組。
HDFS

hadoop distributed file system，hadoop分散式檔案系統，負責檔案的儲存管理。HDFS包括Namenode程序、DataNode程序和Secondary Namenode程序。
1. NameNode
2. DataNode
3. Secondary Namenode
mapreduce

高度抽象的程式設計模型，包括對映和化簡兩個階段，是大資料計算技術的基礎。
yarn

資源排程框架，完成在job執行時，進行叢集整體資源的調配管理的。叢集中所有資源的配置都有ResourceManager完成。

HA

High availability，系統提供持續服務的能力，通常使用9的個數來衡量，例如5個9就是指99.999%。

high availability,高可用問題。
衡量系統持續提供服務的能力。通常使用幾個9衡量。
99.999%                 //摺合一年可以宕機5分鐘
99.9999%                //摺合一年可以宕機5分鐘

hadoop部署模式

1.local
    不會啟動任何程序。

2.pesudo
    一個節點啟動所有程序(5).

3.full
    在不同節點啟動不同程序。

4.HA模式
    active(宕機) + standby(待命)

webui

http://namenode:50070/
http://2nn:50090/
http://datanode:50075/

hadoop

start-all.sh
start-dfs.sh
start-yarn.sh

hadoop-daemon.sh start namenode
hadoop-daemons.sh start datanode

副本的放置策略(273)

不同的hadoop版本，對副本的放置策略也不用。

機架感知

按照ip地址返回網路拓撲樹形結構/a/b/c/xxx | /a/b/c/xxx

網路拓撲距離

每個節點到達共同交換機的躍點數的總和。

zookeeper

協同服務,HA服務支援。
容災能力 : (n - 1) / 2
奇數.

namenode配置多個目錄

每個目錄下的內容相同，用於備份。

datanode配置多個目錄

每個目錄下的內容不同，用於擴容。

spark

hadoop

1.配額管理
    1.1)空間配額
        限制
    1.2)目錄配額
        限制目錄或檔案的個數
        hdfs dfsadmin -setQuota 1 data2         //1保持目錄為空
        hdfs dfsadmin -clsQuota data2           //1保持目錄為空

2.快照
    瞬間照相(差異化儲存)。

3.OIV
    offline image viewer,離線映象檢視器
    fsimage(元資料)

4.OEV
    offline edit viewer,離線編輯日誌檢視器。
    edit存放的對dfs的操作過程。

映象控制(檢查點)

[hdfs-site.xml]
1.dfs.namenode.checkpoint.period=3600
    兩次檢查點的時間間隔.

2.操作記錄數=1000,000
    操作記錄超過該值，也會導致檢查點的建立。
    dfs.namenode.checkpoint.txns

3.檢查週期(預設60)
    dfs.namenode.checkpoint.check.period=60

4.設定檢查點檔案個數,預設是2
    dfs.namenode.num.checkpoints.retained=2

5.手動融合映象檔案(需要安全模式)
    hdfs dfsadmin -safemode enter
    hdfs dfsadmin -saveNamespace
    hdfs dfsadmin -safemode leave

6.從client可以下載映象檔案
    //下載叢集的映象檔案到當前目錄下
    hdfs dfsadmin -fetchImage .

metasave

儲存塊複製資訊等和datanode的心跳資訊到日誌檔案。
該日誌檔案在namenode的本地logs下。
hdfs dfsadmin -metasave 1.log

安全模式

hdfs dfsadmin -safemode get         //檢視
hdfs dfsadmin -safemode enter       //進入
hdfs dfsadmin -safemode leave       //退出
hdfs dfsadmin -safemode wait        //等待

快照

//啟用快照
hfds dfsadmin -allowSnapshot data
//禁用快照
hfds dfsadmin -disallowSnapshot data

//建立快照
hdfs dfs -createSnapshot data sp1
//刪除
hdfs dfs -deleteSnapshot data sp1
//重新命名
hdfs dfs -renameSnapshot data sp1 sp2

刪除目錄時，如果是可快照目錄並且有快照，無法刪除，需要
先刪除快照再刪除目錄。

舊節點退役(datanode下線)

1.描述
    hdfs的datanode下線由dfs.hosts.exclude屬性控制，yarn的nodemanager下線
    由yarn.resourcemanager.nodes.exclude-path控制。
2.dfs.hosts.exclude
    配置datanode黑名單檔案路徑名，名單中的節點不允許連線到nn。如果該屬性不配置，
    所有節點都可以連線。
3.dfs.hosts
    配置datanode白名單檔案路徑名，名單中的節點允許連線到nn。如果該屬性不配置，
    所有節點都可以連線。
4.規則
    
        dfs.hosts       dfs.host.exlucde        result
    ---------------------------------------------------
        NO                  NO                  Not
        NO                  YES                 Not
        YES                 NO                  Yes
        YES                 YES                 Yes並將退役


5.退役實操
    5.0)準備黑白名單
        dfs_exclude.conf
        dfs_include.conf

    5.1)配置hdfs-site.xml的黑白名單屬性
        <property>
                <name>dfs.hosts</name>
                <value>/soft/hadoop/etc/full/dfs_include.conf</value>
        </property>
        <property>
                <name>dfs.hosts.exclude</name>
                <value>/soft/hadoop/etc/full/dfs_exclude.conf</value>
        </property>
        
    5.2)新增退役節點地址到黑名單，不要更新白名單
        [dfs_exclude.conf]
        s102

    5.3)重新整理nn
        hdfs dfsadmin -refreshNodes
         
    5.4)進入webui，檢視退役的節點是否顯式為"退役中"，開始複製資料塊到其他節點。

    5.5)一旦複製完成，狀態顯式"Decommissioned",停止退役節點

    5.6)從白名單中刪除退役節點
        s103
        s104
        s106
    
    5.7)再次重新整理節點
        hdfs dfsadmin -refreshNodes

    5.8)從slaves中刪除退役節點
        s103
        s104
        s106

新節點上線(datanode)

1.準備環境
    克隆新虛擬機器
    配置ssh
    刪除本地臨時目錄

2.實操過程
    2.1)新增新地址到白名單
        s103
        s104
        s106
        s102
        [刪除黑名單記錄]
    2.2)重新整理名稱節點
        hdfs dfsadmin -refreshNodes

    2.3)更新slaves檔案
        s103
        s104
        s106
        s102

    2.4)啟動新節點的datanode程序
        [s102]
        hadoop-daemon.sh start datanode

    2.5)檢查webui

舊節點下線(nodemanager)

1.描述
    hdfs的datanode下線由dfs.hosts.exclude屬性控制，yarn的nodemanager下線
    由yarn.resourcemanager.nodes.exclude-path控制。
2.dfs.hosts.exclude
    配置datanode黑名單檔案路徑名，名單中的節點不允許連線到nn。如果該屬性不配置，
    所有節點都可以連線。
3.dfs.hosts
    配置datanode白名單檔案路徑名，名單中的節點允許連線到nn。如果該屬性不配置，
    所有節點都可以連線。
4.規則
    
        dfs.hosts       dfs.host.exlucde        result
    ---------------------------------------------------
        NO                  NO                  Not
        NO                  YES                 Not
        YES                 NO                  Yes
        YES                 YES                 Yes並將退役


5.退役實操
    5.0)準備黑白名單
        yarn_exclude.conf
        yarn_include.conf

    5.1)配置yarn-site.xml的黑白名單屬性
        <property>
                <name>yarn.resourcemanager.nodes.include-path</name>
                <value>/soft/hadoop/etc/full/yarn_include.conf</value>
        </property>
        <property>
                <name>yarn.resourcemanager.nodes.exclude-path</name>
                <value>/soft/hadoop/etc/full/yarn_exclude.conf</value>
        </property>
        
    5.2)新增退役節點地址到黑名單，不要更新白名單
        [yarn_exclude.conf]
        s102

    5.3)重新整理nn
        yarn rmadmin -refreshNodes
         
    5.4)進入webui，檢視退役的節點是否顯式為"退役中"，開始複製資料塊到其他節點。
        http://rm:8088/

    5.5)一旦複製完成，狀態顯式"Decommissioned",停止退役節點

    5.6)從白名單中刪除退役節點
        [yarn-include.conf]
        s103
        s104
        s106
    
    5.7)再次重新整理節點
        yarn rmadmin -refreshNodes

    5.8)從slaves中刪除退役節點
        s103
        s104
        s106

1、HDFS分散式檔案系統

1、HDFS分散式檔案系統分散式儲存分散式計算 2、hadoop hadoop含有四個模組，分別是 common、 hdfs和yarn。 common 公共模組。 HDFS hadoop distributed file system，hadoop分散式檔案系統，負責檔案的

BigData_A_A_01-hdfs分散式檔案系統（1）全分散式

楔子學習 hadoop(基於hadoop3.1.1)，學習視訊可以參看大資料第二階段：hadoop體系之離線計算 1 前期準備 1.1 hosts修改 win10修改hosts許可權虛擬機器4 臺，分配如下

hadoop[4]-hdfs分散式檔案系統的基本工作機制

一、Namenode 和 Datanode HDFS採用master/slave架構。一個HDFS叢集是由一個Namenode和一定數目的Datanodes組成。Namenode是一箇中心伺服器，負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。叢集中的Datanode一般是一個節點一

【Hadoop】HDFS分散式檔案系統

HDFS分散式檔案系統 HDFS基本知識前言目標侷限性 HDFS相關概念塊(Block) HDFS架構名稱節點(NameNode) 資料

BigData_A_A_01-hdfs分散式檔案系統（2）高可用

楔子 Hadoop 3 高可用搭建記錄 1 zookeeper叢集 zoo.cfg 檔案配置資料檔案位置等資訊 #其他使用預設 dataDir=/opt/data/zk server.1=had2:2888:3888 server.2=had3:2888:3

Hadoop HDFS分散式檔案系統設計要點與架構

Hadoop簡介：一個分散式系統基礎架構，由Apache基金會開發。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集的威力高速運算和儲存。Hadoop實現了一個分散式檔案系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，並

HDFS分散式檔案系統架構

HDFS: Hadoop Distributed File System 特點：hadoop分散式的檔案系統，具備高容錯、部署方便的特點，master/slave架構元件：NameNode和D

Hadoop 《一》，HDFS 分散式檔案系統

Hadoop-HDFS 儲存模型：位元組 -檔案線性切割成塊（Block）：偏移量 offset -block分散儲存在叢集結點中 -單一檔案block大小一致，檔案與檔案可以不一致 -block可以設定副本數，副本無序分散在不同結點中 >副本數不要超過結點數量 -檔案上傳可以

hadoop hdfs分散式檔案系統工作原理

非HA下的namenode 工作原理 nameNode的作用：1.管理元資料 2.維護目錄樹 3.響應客戶請求（主要就是記錄一些真實資料存放在被切割後放在了哪些機器上，等客戶端下載時找到這些檔案塊在合併返回給客戶端） 1.當客戶端沒請求一次時 nameN

HDFS分散式檔案系統學習總結

結構：主從結構（Master/slave）名稱節點/資料節點；缺點：不適合低延時資料訪問；無法高效儲存大量小檔案；不支援併發寫及任意修改檔案；NN：儲存元資料；元資料儲存在記憶體中；儲存檔案，block，DN之間的對映關係；DN：儲存檔案內容；檔案內容儲存在磁碟中；維護blo

HDFS分散式檔案系統簡介

HDFS（Hadoop Distributed File System）Hadoop 分散式檔案系統基於流資料模式訪問就是可以位元組序列化的資料，java.io.Serializable介面分散式檔案系統處理的資料必須是流資料，可以寫IO

【史上最全】Hadoop 核心 - HDFS 分散式檔案系統詳解(上萬字建議收藏)

## 1. HDFS概述 Hadoop 分散式系統框架中，首要的基礎功能就是檔案系統，在 Hadoop 中使用 FileSystem 這個抽象類來表示我們的檔案系統，這個抽象類下面有很多子實現類，究竟使用哪一種，需要看我們具體的實現類，在我們實際工作中，用到的最多的就是HDFS(分散式檔案系統)以及Loca

Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性： 1 2.1.1. fastdfs是否可在

Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性： 1 2.1.1. fastdfs是否可在windows系統下安裝?可以的話,哪位可以..._百度知道 2

Atitit 分散式檔案系統 hdfs nfs fastfs 目錄 1. 分散式檔案系統 1 2. 什麼是FastDFS 1 2.1. FastDFS特性： 1 2.1.1. fastdfs是否可在

Atitit 分散式檔案系統 hdfs nfs fastfs 目錄分散式檔案系統通過獨立檔案伺服器可以解決一些問題，如果某天儲存檔案的那臺服務突然down了怎麼辦？可能你會說，定時將檔案系統備份，這臺down機的時候，迅速切換到另一臺

GFS、HDFS等分散式檔案系統對比介紹

分散式檔案系統很多，包括GFS，HDFS，淘寶開源的TFS，Tencent用於相簿儲存的TFS (Tencent FS，為了便於區別，後續稱為QFS)，以及Facebook Haystack。其中，TFS，QFS以及Haystack需要解決的問題以及架構都很

使用python的hdfs包操作分散式檔案系統（HDFS）

===================================================================================== 寫在前邊的話：之前做的Hadoop叢集，組合

大資料-Hadoop-HDFS（分散式檔案系統）環境搭建

1：Hadoop三大核心元件 A：分散式檔案系統HDFS B：分散式資源排程器 C：分散式計算框架MapReduce 2：HDFS簡介： HDFS架構：HDFS採用Master/Slave架構即：一個Master（NameNode）對應多個Slave(DataNode)

Hadoop分散式檔案系統HDFS架構

1 Master(NameNode/NN) 帶 N個Slaves(DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block blocksize：128M 130M =

大資料筆記之分散式檔案系統HDFS筆記一

分散式檔案系統就是把檔案分佈儲存到多個計算機節點上，成千上萬的計算機節點構成計算機叢集。這些節點分為兩類。一類叫做“主節點”(Master Node)，也叫做“名稱節點”(Name Node) 另一

大資料筆記之分散式檔案系統HDFS筆記二

1. 通訊協議 HDFS是一個部署在叢集上的分散式檔案系統，因此，很多資料需要通過網路進行傳輸，所有的HDFS通訊協議都是構建在TCP/IP協議基礎之上的，客戶端通過一個可配置的埠向名稱節點主動

1、HDFS分散式檔案系統