大資料學習——Hadoop第一天
阿新 • • 發佈:2018-12-21
1.1 什麼是HADOOP
- HADOOP是apache旗下的一套開源軟體平臺
- HADOOP提供的功能:利用伺服器叢集,根據使用者的自定義業務邏輯,對海量資料進行分散式處理
- HADOOP的核心元件有
- HDFS(分散式檔案系統)
- YARN(運算資源排程系統)
- MAPREDUCE(分散式運算程式設計框架)
- 廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈
國內外HADOOP應用案例介紹
1、HADOOP應用於資料服務基礎平臺建設
2、/HADOOP用於使用者畫像
3、HADOOP 用於網站點選流日誌資料探勘
金融行業: 個人徵信分析
證券行業: 投資模型分析
交通行業: 車輛、路況監控分析
電信行業:使用者上網行為分析
...
總之:hadoop並不會跟某種具體的行業或者某個具體的業務掛鉤,它只是一種用來做海量資料分析處理的工具
HADOOP生態圈以及各組成部分的簡介
重點元件:
HDFS:分散式檔案系統
MAPREDUCE:分散式運算程式開發框架
HIVE:基於大資料技術(檔案系統+運算框架)的SQL資料倉庫工具
HBASE:基於HADOOP的分散式海量資料庫
ZOOKEEPER:分散式協調服務基礎元件
Mahout:基於mapreduce/spark/flink等分散式運算框架的機器學習演算法庫
Oozie:工作流排程框架
Sqoop:資料匯入匯出工具
Flume:日誌資料採集框架