1. 程式人生 > >10小時入門大資料(二)------初識Hadoop

10小時入門大資料(二)------初識Hadoop

10小時入門大資料(二)——初識Hadoop

1、Hadoop介紹 開源、分散式儲存+分散式計算平臺

2、Hadoop能做什麼 搭建大型資料倉庫、PB級資料儲存、處理、分析、統計等 搜尋引擎、日誌分析、商業智慧、資料探勘

3、核心元件之分散式檔案系統HDFS 特點:擴充套件性、容錯性、海量資料儲存 將檔案分成指定大小的資料塊並以多副本的儲存在多個機器上 資料切分、多副本、容錯等操作對使用者是透明的

**4、Hadoop核心元件之資源排程系統YARN YARN:Yet Another Resource Negotiator負責整個叢集資源的管理和排程 特點:擴充套件性、容錯性、多框架資源統一排程 這裡寫圖片描述

5、Hadoop核心元件之分散式計算框架MapReduce 這裡寫圖片描述

6、Hadoop優勢 1.高可靠性 * 資料儲存:資料塊多副本 * 資料計算:重新排程作業計算 2.展性:儲存、計算資源不夠時,可以橫向的線性擴充套件機器 * 一個叢集可以包含數以幹計的節點 3.其他 * 儲存在廉價機器上,降低成本 * 成熟的生態圈