1. 程式人生 > >大資料學習——Hadoop第一天

大資料學習——Hadoop第一天

1.1 什麼是HADOOP

  1. HADOOPapache旗下的一套開源軟體平臺
  2. HADOOP提供的功能:利用伺服器叢集,根據使用者的自定義業務邏輯,對海量資料進行分散式處理
  3. HADOOP的核心元件有
    1. HDFS(分散式檔案系統)
    2. YARN(運算資源排程系統)
    3. MAPREDUCE(分散式運算程式設計框架)
  4. 廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

 

國內外HADOOP應用案例介紹

1HADOOP應用於資料服務基礎平臺建設

 

2、/HADOOP用於使用者畫像

3HADOOP

用於網站點選流日誌資料探勘

金融行業: 個人徵信分析

證券行業: 投資模型分析

交通行業: 車輛、路況監控分析

電信行業:使用者上網行為分析

...

總之:hadoop並不會跟某種具體的行業或者某個具體的業務掛鉤,它只是一種用來做海量資料分析處理的工具

 

 HADOOP生態圈以及各組成部分的簡介

 

重點元件:

HDFS:分散式檔案系統

MAPREDUCE:分散式運算程式開發框架

HIVE:基於大資料技術(檔案系統+運算框架)的SQL資料倉庫工具

HBASE:基於HADOOP的分散式海量資料庫

ZOOKEEPER:分散式協調服務基礎元件

Mahout:基於mapreduce/spark/flink等分散式運算框架的機器學習演算法庫

Oozie:工作流排程框架

Sqoop:資料匯入匯出工具

Flume:日誌資料採集框架