1. 程式人生 > >Spark環境搭建(四)-----------數據倉庫Hive環境搭建

Spark環境搭建(四)-----------數據倉庫Hive環境搭建

apr 程序 版本 擴展 arch 表名 數據集 .tar.gz 自定義

Hive產生背景

1)MapReduce的編程不便,需通過Java語言等編寫程序

2) HDFS上的文缺失Schema(在數據庫中的表名列名等),方便開發者通過SQL的方式處理結構化的數據,而不需要Java等編寫程序

Hive是什麽

1)facebook開源,最初為解決海量的結構化日誌數據統計問題

2)構建中Hadoop上的數據倉庫

3)Hive定義了一種SQL查詢語言:HQL(類似SQl但又不完全相同)

4)通常進行離線處理(采用MapReduce)

5)多種不同的底層執行引擎(Hive on MapReduce/Tez/Spark)

6)支持多種不同的壓縮格式,存儲格式以及自定義函數

  壓縮格式:GZIP,LZO,Snappy,BZIP2..

  存儲格式:TextFile,SequenceFile,RCFile,ORC,PARquet

  UDF:自定義函數

為什麽使用Hive

1) 簡單,容易上手(提供了類似SQL查詢語言HQL)

2) 為超大數據集設計的計算、存儲擴展能力(MR計算,HDFS存儲)

3) 統一的元數據管理(可與Presto/Impala/SparkSQL等共享數據)

Hive環境搭建

1)使用版本:hive-1.1.0-cdh5.7.0.tar.gz

2) 下載:

  wget http://archive.cloudera.com/cdh5/cdh/5/

3)解壓:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/

Spark環境搭建(四)-----------數據倉庫Hive環境搭建