從零開始學Hadoop----淺析HDFS（一）

阿新 • • 發佈：2019-01-11

之前，我們簡單介紹了一下Hadoop，知道他是一個處理大資料的框架。今天我們來看看Hadoop的核心構成之一—-HDFS.

一、基礎概念

1、是什麼

HDFS是Hadoop Distribute File System 的簡稱，也就是Hadoop的一個分散式檔案系統。
分散式檔案系統（Distributed File System）是指檔案系統管理的物理儲存資源不一定直接連線在本地節點上，而是通過計算機網路與節點相連。分散式檔案系統的設計基於客戶機/伺服器模式。一個典型的網路可能包括多個供多使用者訪問的伺服器。另外，對等特性允許一些系統扮演客戶機和伺服器的雙重角色

2、相關概念

block（資料塊）

提供真實檔案資料的儲存服務。是最基本的儲存單位。對於檔案內容而言，一個檔案的長度大小是size，那麼從檔案的０偏移開始，按照固定的大小，順序對檔案進行劃分並編號，劃分好的每一個塊稱一個Block。每一個block會在多個datanode上儲存多份副本，預設是3份。

namenode（元資料節點）

namenode負責管理檔案目錄、檔案和block的對應關係以及block和datanode的對應關係。

檔案結構

fsimage:元資料映象檔案。儲存某一時段NameNode記憶體元資料資訊。
edits:操作日誌檔案。
fstime:儲存最近一次checkpoint的時間

處理過程

Namenode始終在記憶體中儲存metedata，用於處理“讀請求”到有“寫請求”到來時，namenode會首先寫editlog到磁碟，即向edits檔案中寫日誌，成功返回後，才會修改記憶體，並且向客戶端返回

Hadoop會維護一個fsimage檔案，也就是namenode中metedata的映象，但是fsimage不會隨時與namenode記憶體中的metedata保持一致，而是每隔一段時間通過合併edits檔案來更新內容。Secondary namenode就是用來合併fsimage和edits檔案來更新NameNode的metedata的。

datanode（資料節點）

datanode就負責儲存了，當然大部分容錯機制都是在datanode上實現的。

secondarynamenode（從元資料節點）

不是我們所想象的元資料節點的備用節點，其實它主要的功能是主要功能就是週期性將元資料節點的名稱空間映象檔案和修改日誌合併，以防日誌檔案過大。

處理過程：

1、secondary通知namenode切換edits檔案

2、secondary從namenode獲得fsimage和edits(通過http)

3、secondary將fsimage載入記憶體，然後開始合併edits

4、secondary將新的fsimage發回給namenode

5、namenode用新的fsimage替換舊的fsimage

3、優缺點

優點

處理超大檔案

這裡的超大檔案通常是指百MB、設定數百TB大小的檔案。目前在實際應用中，HDFS已經能用來儲存管理PB級的資料了。

流式的訪問資料

HDFS的設計建立在更多地響應”一次寫入、多次讀寫”任務的基礎上。這意味著一個數據集一旦由資料來源生成，就會被複制分發到不同的儲存節點中，然後響應各種各樣的資料分析任務請求。在多數情況下，分析任務都會涉及資料集中的大部分資料，也就是說，對HDFS來說，請求讀取整個資料集要比讀取一條記錄更加高效。

運行於廉價的商用機器叢集上

Hadoop設計對硬體需求比較低，只須執行在低廉的商用硬體叢集上，而無需昂貴的高可用性機器上。廉價的商用機也就意味著大型叢集中出現節點故障情況的概率非常高。這就要求設計HDFS時要充分考慮資料的可靠性，安全性及高可用性。

缺點

不適合低延遲資料訪問

如果要處理一些使用者要求時間比較短的低延遲應用請求，則HDFS不適合。HDFS是為了處理大型資料集分析任務的，主要是為達到高的資料吞吐量而設計的，這就可能要求以高延遲作為代價。

改進策略：對於那些有低延時要求的應用程式，HBase是一個更好的選擇。通過上層資料管理專案來儘可能地彌補這個不足。在效能上有了很大的提升，它的口號就是goes real time。使用快取或多master設計可以降低client的資料請求壓力，以減少延時。還有就是對HDFS系統內部的修改，這就得權衡大吞吐量與低延時了，HDFS不是萬能的銀彈。

無法高效儲存大量小檔案

因為Namenode把檔案系統的元資料放置在記憶體中，所以檔案系統所能容納的檔案數目是由Namenode的記憶體大小來決定。一般來說，每一個檔案、資料夾和Block需要佔據150位元組左右的空間，所以，如果你有100萬個檔案，每一個佔據一個Block，你就至少需要300MB記憶體。當前來說，數百萬的檔案還是可行的，當擴充套件到數十億時，對於當前的硬體水平來說就沒法實現了。還有一個問題就是，因為Map task的數量是由splits來決定的，所以用MR處理大量的小檔案時，就會產生過多的Maptask，執行緒管理開銷將會增加作業時間。舉個例子，處理10000M的檔案，若每個split為1M，那就會有10000個Maptasks，會有很大的執行緒開銷；若每個split為100M，則只有100個Maptasks，每個Maptask將會有更多的事情做，而執行緒的管理開銷也將減小很多。

不支援多使用者寫入及任意修改檔案

在HDFS的一個檔案中只有一個寫入者，而且寫操作只能在檔案末尾完成，即只能執行追加操作。目前HDFS還不支援多個使用者對同一檔案的寫操作，以及在檔案任意位置進行修改。

總結：

這次我們知道了HDFS是一個分散式的檔案儲存系統，它的一些基本的概念和優缺點我們已經知道了，下次我們將給大家分享一下HDFS的執行原理。

從零開始學Hadoop----淺析HDFS（一）

之前，我們簡單介紹了一下Hadoop，知道他是一個處理大資料的框架。今天我們來看看Hadoop的核心構成之一—-HDFS. 一、基礎概念 1、是什麼

從零開始學Hadoop——淺析MapReduce（一）

之前，我們說過Hadoop的兩個核心為HDFS和MapReduce，既然我們已經學習了Hadoop的HDFS，那麼我們就來看看MapReduce是什麼。當然，我們學習的順序還是先看看基

從零開始學 Web 之 DOM（一）DOM的概念，對標簽操作

關註 1.5 pan 什麽 tin p標簽 nod text == 大家好，這裏是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關註。在這裏我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，

從零開始學 Web 之 CSS3（一）CSS3概述，選擇器

https 兼容問題 3.1 線性 web前端不同錨點 splay lock 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

從零開始學 Web 之 CSS（一）選擇器

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 W

從零開始學 Web 之 HTML5（一）HTML5概述，語義化標籤

一、HTML5簡介 1、什麼是html5 html5 不是一門新的語言，而是我們之前學習的 html 的第五次重大修改版本。 2、html的發展歷史超文字標記語言（第一版，不叫 HTML 1.0）——在1993年6月作為網際網路工程工作小組（IETF）工作草案發布（並非標準）； HTML 2.0——19

從零開始學 Web 之 DOM（一）DOM的概念，對標籤操作

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、DOM概念 D

從零開始學 Web 之 jQuery（一）jQuery的概念，頁面載入事件

一、jQuery的概念 1、什麼是 JavaScript 庫？ JavaScript 開發的過程中，處理瀏覽器的相容很複雜而且很耗時，於是一些封裝了這些操作的庫應運而生。這些庫還會把一些常用的程式碼進行封裝。把一些常用到的方法寫到一個單獨的 js 檔案，使用的時候直接去引用這js檔案就可以了，這個 js

從零開始學 Web 之 BOM（一）BOM的概念，一些BOM物件

大家好，這裡是「從零開始學 Web 系列教程」，並在下列地址同步更新...... +------------------------------------------------------------ github：https://github.com/Daotin/Web 微信公眾號：Web前端之

從零開始學 Web 之 HTML（一）認識前端

大家好，這裡是 Daotin 從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！ 1、什麼是前端前端對於網站來說，

從零開始學 Web 之 JavaScript（一）JavaScript概述

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、JavaScr

從零開始學 Web 之 Ajax（一）伺服器相關概念

一、伺服器和客戶端伺服器和客戶端都是電腦，在硬體層面上沒有明顯的劃分，配置很差的個人電腦任然可以作為伺服器。伺服器如果想對外提供服務，必須安裝相應的軟體，所以不是伺服器這臺電腦可以提供服務，而是其安裝的軟體提供的服務。比如： HTTP網頁服務：Apache，Tomcat，IIS等檔案上傳下載服務：V

從零開始學 Web 之 ES6（一）ES5嚴格模式

一、ECMAScript 5 嚴格模式 1、概述除了正常執行模式，ECMAscript 5添加了第二種執行模式："嚴格模式"（strict mode）。顧名思義，這種模式使得Javascript在更嚴格的條件下執行。 2、目的消除Javascript語法的一些不合理、不嚴謹之處，減少一些怪異行為;

從零開始學Kotlin-控制語句（4）

系列文章 ren kcon tin else andro 格式當前 break 從零開始學Kotlin基礎篇系列文章條件控制-if var a=10 var b=20 if(a>b) print(a)

從零開始學Kotlin-枚舉（9）

emc roi 實例 list cnblogs 外部 listener ring 枚舉從零開始學Kotlin基礎篇系列文章枚舉的定義一個類的對象是有限且固定的，這種實例有限且固定的類稱為枚舉類; 枚舉常量用逗號分隔,每個枚舉常量都是一個對象; enum class

從零開始學 Web 之 DOM（四）節點

def clas scrip while p標簽設置 ner 操作 text 大家好，這裏是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關註。在這裏我會從 Web 前端零基礎開始，一步步學習 Web 相

從零開始學 Web 之 BOM（三）offset，scroll，變速動畫函數

樣式清理 java mar dde sof mov har width 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客園：

從零開始學 Web 之 jQuery（二）獲取和操作元素的屬性

eight images idt 隱藏 lis 屬性 ner master lin 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

從零開始學 Web 之 jQuery（六）為元素綁定多個相同事件，解綁事件

png 好用添加方式執行存在區別也會地址大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客園：http://ww

從零開始學 Web 之 jQuery（七）事件冒泡，事件參數對象，鏈式編程原理

eval uri turn 定位 return 也會否則 ont sele 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔博客

從零開始學Hadoop----淺析HDFS（一）

一、基礎概念

1、是什麼

2、相關概念

3、優缺點

總結：

相關推薦