1. 程式人生 > >零基礎大資料HADOOP學習-筆記3-HDFS特點

零基礎大資料HADOOP學習-筆記3-HDFS特點

HDFS的特點
優點:
    1)處理超大檔案
        這裡的超大檔案通常是指百MB、數百TB大小的檔案。目前在實際應用中,
        HDFS已經能用來儲存管理PB級的資料了。
2)流式的訪問資料

*  

HDFS的設計建立在更多地響應"一次寫入、多次讀取"任務的基礎上。這意味著一個數據集
一旦由資料來源生成,就會被複制分發到不同的儲存節點中,然後響應各種各樣的資料分析
任務請求。在多數情況下,分析任務都會涉及資料集中的大部分資料,也就是說,對HDFS
來說,請求讀取整個資料集要比讀取一條記錄更加高效。
3)運行於廉價的商用機器叢集上
 Hadoop設計對硬體需求比較低,只須執行在低廉的商用硬體叢集上,而無需昂貴的高
 可用性機器上。廉價的商用機也就意味著大型叢集中出現節點故障情況的概率非常高。
 這就要求設計HDFS時要充分考慮資料的可靠性,安全性及高可用性。
缺點:
    1)不適合低延遲資料訪問
    如果要處理一些使用者要求時間比較短的低延遲應用請求,則HDFS不適合。HDFS是為
    了處理大型資料集分析任務的,主要是為達到高的資料吞吐量而設計的,這就可能要
    求以高延遲作為代價。

    2)無法高效儲存大量小檔案
  因為Namenode把檔案系統的元資料放置在記憶體中,所以檔案系統所能容納的檔案數目
  是由Namenode的記憶體大小來決定。一般來說,每一個檔案、資料夾和Block需要佔據
  150位元組左右的空間,所以,如果你有100萬個檔案,每一個佔據一個Block,你就至
  少需要300MB記憶體。當前來說,數百萬的檔案還是可行的,當擴充套件到數十億時,對於
  當前的硬體水平來說就沒法實現了。還有一個問題就是,因為Map
task的數量是由   splits來決定的,所以用MR處理大量的小檔案時,就會產生過多的Maptask,線   程管理開銷將會增加作業時間。舉個例子,處理10000M的檔案,若每個split為1M   ,那就會有10000個Maptasks,會有很大的執行緒開銷;若每個split為100M,則   只有100個Maptasks,每個Maptask將會有更多的事情做,而執行緒的管理開銷也   將減小很多。 1280M 1個檔案 10block*150位元組 = 1500 位元組 =1.5KB 1280M 12.8M 100100block*150位元組 = 15000位元組 = 15KB
3)不支援多使用者寫入及任意修改檔案
  在HDFS的一個檔案中只有一個寫入者,而且寫操作只能在檔案末尾完成,即只能執行追加操作。目前HDFS還不支援多個使用者對同一檔案的寫操作,以及在檔案任意位置進行修改。

對應的視訊教學,可以加QQ群209586391,免費傳送

相關推薦

基礎資料HADOOP學習-筆記3-HDFS特點

HDFS的特點 優點: 1)處理超大檔案   這裡的超大檔案通常是指百MB、數百TB大小的檔案。目前在實際應用中,   HDFS已經能用來儲存管理PB級的資料了。

基礎資料HADOOP學習-筆記3-安全模式 safemode

【安全模式 safemode】 3種方式 方式一:Namenode的一種狀態,啟動時會自動進入安全模式,在安全模式,檔案系統不 允許有任何修改,“只讀不寫”。目的,是在系統啟動時檢查各個DataNod

基礎資料HADOOP學習-筆記1

一、大資料的4V特徵 Volume 資料量大 TB PB Varity 的資料多種多樣文字(.log .txt .sql .xml) Veracity 價值密度低 商業價值高 Velocity 速度快 二、Hado

資料Hadoop學習筆記(三)

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解 源自谷歌的GFS論文 HDFS: *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上,提供容錯機制 *為

資料Hadoop學習筆記(二)

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

資料Hadoop學習筆記(一)

大資料Hadoop2.x hadoop用來分析儲存網路資料 MapReduce:對海量資料的處理、分散式。 思想————> 分而治之,大資料集分為小的資料集,每個資料集進行邏輯業務處理合並統計資料結果(reduce) 執行模式:本地模式和yarn模式 input—

資料Hadoop學習筆記(五)

分散式部署 本地模式Local Mode 分散式Distribute Mode 偽分散式 一臺機器執行所有的守護程序 從節點DN和NM只有一個 完全分散式

資料Hadoop學習筆記(四)

MapReduce執行過程 ======== step1 : input InputFormat 讀取資料 轉換成<key, value>

資料Hadoop學習筆記(六)

HDFS HA 背景: 在hadoop2.0之前,HDFS叢集中的NameNode存在單點故障(SPOF)對於只有一個NameNode的叢集,若NameNode機器出現故障,則整個叢集將無法使用,直到NameNode重新啟動 NameNode主要在一下兩方面影響

資料技術學習筆記Hadoop框架基礎3-網站日誌分析及MapReduce過程詳解

一、回顧     -》Hadoop啟動方式         -》單個程序             sbin/h

資料技術學習筆記之hive框架基礎3-sqoop工具的使用及具體業務分析

一、CDH版本的介紹及環境部署     -》Hadoop的三大發行版本         -》Apache Hadoop         -》

資料技術學習筆記Hadoop框架基礎5-Hadoop高階特性HA及二次排序思想

一、回顧     -》shuffle流程         -》input:讀取mapreduce輸入的          &nbs

資料技術學習筆記Hadoop框架基礎1-Hadoop介紹及偽分散式部署

一、學習建議     -》學習思想         -》設計思想:分散式             -》資料採集

資料技術學習筆記Hadoop框架基礎2-MapReduce程式設計及執行流程

一、回顧     -》hadoop的功能?         -》海量資料儲存和海量計算問題         -》分散式檔案儲存框架hdfs和

資料技術學習筆記Hadoop框架基礎4-MapReduceshuffer過程詳解及zookeeper框架學習

一、MapReduce Shuffle     -》MapReduce執行五個階段         input           

資料技術學習筆記之linux基礎3-軟體管理與shell指令碼開發

一、Linux軟體管理     -》壓縮檔案管理         -》常見壓縮格式             -

基礎資料學習必學技術有哪幾種,你知道嗎?

現在大資料非常火爆,不管是阿里巴巴、百度、騰訊這樣的大企業,還是中小型的企業都非常重視,大資料也是第一個納入國家戰略的技術。今天為大家講一下零基礎大資料學習必學技術有哪幾種。 大資料給大多數人的感覺是,專業性強,屬於“高大上”的技術。一部分人對大資料比較感興趣,會上網搜尋一些概念性的簡單瞭解,而

基礎資料學習的10思維原理和方法全部都在這

1、資料核心原理 從“流程”核心轉變為“資料”核心   大資料時代,計算模式也發生了轉變,從“流程”核心轉變為“資料”核心。Hadoop體系的分散式計算框架已經是“資料”為核心的正規化。非結構化資料及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。大資料下的新思維——計算模式的轉變。   網際

資料入門學習筆記(貳)- 初識Hadoop

文章目錄 Hadoop概述 Hadoop能做什麼 Hadoop核心元件 分散式檔案系統HDFS 分散式檔案系統HDDS 資源排程系統YARN 分散式計算框架MapReduce Had

基礎資料學習必學技術有哪幾種?

現在大資料非常火爆,不管是阿里巴巴、百度、騰訊這樣的大企業,還是中小型的企業都非常重視,大資料也是第一個納入國家戰略的技術。今天為大家講一下零基礎大資料學習必學技術有哪幾種。 大資料給大多數人的感覺是,專業性強,屬於“高大上”的技術。一部分人對大資料比較感興趣,會上網搜尋一些概念性的簡單瞭解,而有一些人則看