Spark環境搭建(四)-----------數據倉庫Hive環境搭建
阿新 • • 發佈:2017-08-06
apr 程序 版本 擴展 arch 表名 數據集 .tar.gz 自定義
Hive產生背景
1)MapReduce的編程不便,需通過Java語言等編寫程序
2) HDFS上的文缺失Schema(在數據庫中的表名列名等),方便開發者通過SQL的方式處理結構化的數據,而不需要Java等編寫程序
Hive是什麽
1)facebook開源,最初為解決海量的結構化日誌數據統計問題
2)構建中Hadoop上的數據倉庫
3)Hive定義了一種SQL查詢語言:HQL(類似SQl但又不完全相同)
4)通常進行離線處理(采用MapReduce)
5)多種不同的底層執行引擎(Hive on MapReduce/Tez/Spark)
6)支持多種不同的壓縮格式,存儲格式以及自定義函數
壓縮格式:GZIP,LZO,Snappy,BZIP2..
存儲格式:TextFile,SequenceFile,RCFile,ORC,PARquet
UDF:自定義函數
為什麽使用Hive
1) 簡單,容易上手(提供了類似SQL查詢語言HQL)
2) 為超大數據集設計的計算、存儲擴展能力(MR計算,HDFS存儲)
3) 統一的元數據管理(可與Presto/Impala/SparkSQL等共享數據)
Hive環境搭建
1)使用版本:hive-1.1.0-cdh5.7.0.tar.gz
2) 下載:
wget http://archive.cloudera.com/cdh5/cdh/5/
3)解壓:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/
Spark環境搭建(四)-----------數據倉庫Hive環境搭建