1. 程式人生 > >Hadoop基礎學習:基於Hortonworks HDP

Hadoop基礎學習:基於Hortonworks HDP

Hadoop基礎學習:基於Hortonworks
HDP

我最開始是通過Hadoop Fundamentals這個課程學習了Hadoop的基礎知識,該課程使用了Hortonworks的HDP作為Hadoop平臺。HDP是一個與Cloudera,
MapR類似的一個企業級Hadoop解決方案,而HDP Sandbox給開發者提供了一個安裝好所有Hadoop元件的虛擬機器,將其匯入到VirtualBox後就可以直接啟動(注意需要給虛擬機器分配至少2G記憶體)。

Big Data和Hadoop

大資料是一個熱門詞彙,而Hadoop可以說是目前大資料處理的基石。大資料並不是說一定要處理特別大規模的資料,而是在於可以在各種資料尺度上找到你要的答案,這些資料包括:使用者資料,機器資料等等。我們可以從基礎設施,

演算法和視覺化等各個方面來理解大資料。

在基礎設施方面,我們有Hadoop的HDFS作為檔案系統,MapReduce來做批處理,此外有HBase,Cassandra,Riak等NoSQL資料庫,還有Kafka,RabbitMQ等訊息中介軟體。在演算法方面,主要是對現有的機器學習演算法的實現。在視覺化方面,常見的有Matplotlib(python語言),R語言,D3(JavaScript語言)。 

 

初步認識HDP

HDP是作業系統是CentOS 6,啟動後除了可以用ssh登陸以外,還可以登陸網頁介面(http://127.0.0.1:8888)。系統預設幫我們安裝的軟體主要包括:

  • HDFS + MapReduce
  • Hue
  • HCatelog
  • Pig
  • Hive

HBase預設沒有安裝,啟用HBase的話應該需要給虛擬機器分配更多記憶體。

Hadoop是一個開源的資料分析平臺,它與傳統的資料分析平臺相比當然有很多優點(開源,價效比,擴充套件性等),但是它們本質上並沒有太大不同。一個完整的資料分析平臺需要的元件Hadoop都有涉及:

  • 資料儲存 : HDFS提供一個可擴充套件和容錯的檔案系統
  • 資料處理:MapReduce等提供了的資料訪問和處理模型
  • 資料管理:HCatelog提供資料管理,管理資料到檔案的對映(相當於RDBMS資料庫中管理表結構與表文件的關係)
  • 資料查詢:Pig和Hive對資料檔案的查詢,它們在底層都基於MapReduce模型來處理資料。其中Hive的特點在於提供類似於SQL語言的查詢環境,Pig提供了自己的資料處理語言
  • 系統管理:Zookeeper和Oozie等

 

通過HDP自帶的教程學習了Hive和Pig的基本知識,HDP自帶了基於Web的Hive和Pig的查詢介面,使用起來比命令列要友好。

Pig指令碼

Pig首先實現了一種ETL語言(PigLatin),通過使用LOAD,GROUP等系統命令以及自定義命令,可以對資料進行復雜的處理。另一方面,Pig在執行命令時會把命令轉化為MapReduce任務,也就是說對於很多MapReduce操作使用者不再需要使用冗長的Java程式設計=》編譯=》執行流程。最後,Pig也允許使用者實現自定義方法(UDF)來擴充套件功能。

 
  1. //從檔案中載入資料
  2. batting = load 'Batting.csv' using PigStorage(',');
  3.  
  4. //讀取檔案中的若干列
  5. runs = FOREACH batting GENERATE $0 as playerID, $1 as year, $8 as runs;
  6.  
  7. //按照年份劃分資料
  8. grp_data = GROUP runs by (year);
  9.  
  10. //對劃分後的資料進行進一步處理
  11. max_runs = FOREACH grp_data GENERATE group as grp,MAX(runs.runs) as max_runs;
  12.  
  13. //連線max_runs和runs,按照指定的兩個列連線,連線的表包括兩表的所有列
  14. join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs);
  15.  
  16. //重新選取部分列
  17. join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerID, $1 as runs;
  18.  
  19. dump join_data;
  20.  

Hive查詢

如果說Pig在傳統資料倉庫的意義上是一種ETL語言(當然Pig的用處不止於此),那麼Hive相當於傳統資料倉庫中的SQL語言。Hive則可以允許你建立表,在表中匯入和處理資料,資料處理的結果可以再儲存到表中。Hive和Pig的詳細比較可以參照這篇文章

下面這寫Hive命令實現了與前面Pig指令碼一樣的功能。

 
  1. create table temp_batting (col_value STRING);
  2.  
  3. LOAD DATA INPATH '/user/hue/Batting.csv' OVERWRITE INTO TABLE temp_batting;
  4.  
  5. create table batting (player_id STRING, year INT, runs INT);
  6.  
  7. insert overwrite table batting
  8. SELECT
  9. regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) player_id,
  10. regexp_extract(col_value, '^(?:([^,]*)\,?){2}', 1) year,
  11. regexp_extract(col_value, '^(?:([^,]*)\,?){9}', 1) run
  12. from temp_batting;
  13.  
  14. SELECT year, max(runs) FROM batting GROUP BY year;
  15.  
  16. SELECT a.year, a.player_id, a.runs from batting a
  17. JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
  18. ON (a.year = b.year AND a.runs = b.runs) ;

HBase和MapReduce程式設計

HBase是Google的BigTable的一種實現,即面向列的資料庫。HBase相對於Hadoop比較獨立,原因在於:1)HBase不依賴於MapReduce,它可以完全不在HDFS上部署,雖然在生產環境上會推薦部署到HDFS上;2)HBase的程式設計模型也不一定是MapReduce。

HBase和MapReduce程式設計可以參考Hadoop:
The Definitive Guide

Hadoop的最新發展

Apache Tez, 新一代的準實時(near real-time)大資料處理。在Hadoop 2.0的環境下,MapReduce(也就是傳統的Batch程式設計模式)僅僅是其一種實現,而Tez成為了新一代的任務執行引擎,反過來支援MapRecue,Pig,Hive等功能。

 

Apache Storm,實時資料處理

Apache Flume,流式資料(例如日誌)的處理

Apache Mahout,機器學習演算法庫

Apache ZooKeeper 分散式系統協調服務