1. 程式人生 > >Hadoop基礎及演練 學習筆記

Hadoop基礎及演練 學習筆記

分布式文件系 狀態 oop 修改 初識 分布 業務 ron 做什麽

第一章 初始Hadoop

  • Hadoop可以用來做什麽:搭建大型數據倉庫,PB級數據的存儲,處理,分析,統計等業務
  • 優勢:高擴展,低成本,成熟的生態圈
  • 核心是HDFS(Hadoop分布式文件系統)MapReduce
  • 擁有HIVE(用SQL語句實現Hadoop任務,降低使用門檻),HBASE(存儲結構化數據的分布式數據庫),zookeeper(監控Hadoop集群狀態)

第1章 初識大數據

  • 大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術.

第2章 Hadoop核心HDFS

  • Hadoop是一個開源的大數據框架,是一個分布式計算的解決方案,Hadoop=HDFS(分布式文件系統)+MapReduce(分布式計算)
  • 存儲是大數據技術的基礎,分布式計算是大數據應用的解決方案
  • HDFS基礎架構:
  1. 數據塊:是抽象塊,默認大小為64MB,一般設置為128MB,備份3個.
  2. NameNode:主數據塊,管理文件系統的命名空間,存放文件元數據,維護文件系統的所有文件和目錄,文件與數據塊的映射,記錄每個文件各個塊所在數據節點的信息
  3. DataNode:從數據塊,存儲並檢索數據塊,向NameNode更新所存儲塊的列表
  • HDFS優點:
  1. 適合大文件存儲,並有副本策略
  2. 可以構建在廉價的機器上,並有一定的容錯和恢復機制
  3. 支持流式數據訪問,一次寫入,多次讀取最高效
  • HDFS缺點:
  1. 不適合大量小文件存儲
  2. 不適合並發寫入,不支持文件隨機修改
  3. 不支持隨機讀等低延時的訪問方式
  • 數據塊的大小多少合適:
  • NameNode如果掛了怎麽辦:

Hadoop基礎及演練 學習筆記