大資料離線---Hive的表操作介紹

阿新 • • 發佈：2018-12-13

這次我們主要針對hive的操作表做簡單的介紹：

託管表和外部表
分割槽和桶

這2個部分做簡介

Hive表格邏輯上有儲存的資料和描述表格中資料形式的相關元資料組成。資料一般儲存在HDFS上，也可以存放在本地檔案系統中。元資料存放在關係資料庫中。

1. 託管表和外部表

託管表

hive會把資料移動到它的倉庫,這裡使用的是load的命令，把檔案系統的資料移動到hive的倉庫目錄，如果資料和表的結構不匹配，這裡是不會異常，在查詢的時候會出現null空值

  //載入hdfs的資料，資料會移動到hive的表目錄下
  create table managed_table(dummy string);
  load data inpath '/usr/tom/data.txt' into table manage_table;
  //載入本地的資料，增加了local的關鍵字，資料不會移動
   create table managed_table(dummy string);
  load data local inpath '/usr/tom/data.txt' into table manage_table;

刪除表 drop drop table manage_table ; 會將表的元資料和表的資料一起刪除，會導致資料徹底丟失。而load是移動操作，而drop是刪除，所以這裡是託管表.

外部表

  create external table external_table(dummy string) 
  location '/usr/tom/external_table';
  load data inpath '/usr/tom/data.txt' into table manage_table;

使用exterbnal關鍵字以後，hive知道資料不由自己管理，因此不會把資料移動到自己的目錄。
在建立表的時候就聲明瞭表的位置，在建立外部表的時候，不會檢查外部檔案是否存在，因此建立資料可以推遲到建立表之後，在建立表的時候只是對外部資料的引用，因此drop命令只會刪除元資料的資訊。

分割槽和桶

hive把表組織成partition(分割槽)，這是根據一個分割槽列的值對錶進行粗略的劃分機制，使用分割槽還可以加快資料分片的查詢速度。表或者分割槽可以進一步分為桶，他會為資料提供額外的結構以獲得更高效的查詢。

分割槽

分割槽實際實在HDFS檔案系統對應的表文件夾下面建立對應名稱的資料夾，在我們通過分割槽查詢的時候，直接制定到對應的檔案所在目錄，實現快速的查詢。
一個表可以指定多個維度進行分割槽，他們回像樹形目錄結構一樣展開，先建立的分割槽更靠近根目錄。使用的關鍵字是 partitioned by

	//建立表和分割槽
	create table logs（ts string,line string）partitioned by (dt string,country string);
	//載入資料,這裡需要顯式的指定分割槽的值
	load data local inpath 'input/hive/partitions/file1' into table logs 
	partition (dt='2018-01-01',country='China');
	//查詢
	 select dt,ts,line form logs where country='China';

在查詢的時候可以像執行正常的列那樣指定分割槽，查詢的時候會返回分割槽的值，但是實際只是讀取了檔名，對應的資料檔案並不存在。

分桶

把表組織成分桶有兩個理由：

可以獲得更高的查詢處理效率，桶為表增加了額外的資料結構，在表結構中添加了幾個列，連線在兩個相同列上劃分了桶的表，可以使用map端的連線高效的使用
在處理大規模資料的開發階段，可以分桶後再對應的列上試執行查詢。可以使取樣更高效。

分桶使用的關鍵字使 clustered by 指定分桶所用的列和要劃分桶的個數。

//建立分桶表
create table bucketed_users(id int,name string) clustered by (id) into 4 Buckets;
//建立分桶表，並按照id排序
create table bucketed_users(id int,name string) clustered by (id) sorted by (id ASC) into 4 Buckets;
//載入本地檔案
load data local inpath 'input/hive/partitions/file1' into table  bucketed_users;

這裡會對值得雜湊結果除以分桶個數取餘，進行分配。

查詢的時候，需要將***hive.enforce.bucketing屬性設定為true***，使用下面的命令查詢

//查詢命令
insert overwrite table nba2 select * from nba2;

實際分桶的個數是和reduce任務的個數相同的，在執行查詢的時候，實際執行的是MR程式。

大資料離線---Hive的表操作介紹

這次我們主要針對hive的操作表做簡單的介紹：託管表和外部表分割槽和桶這2個部分做簡介 Hive表格邏輯上有儲存的資料和描述表格中資料形式的相關元資料組成。資料一般儲存在HDFS上，也可以存放在本地檔案系統中。元資料存放在關係資料庫中。 1. 託管表

大資料||匯出Hive表中的資料

匯出Hive表中的資料方式由很多種。一下就介紹一下方式一：在hive的命令列內insert overwrite local directory '/opt/datas/hive_emp_exp' ROW FORMAT DELIMITED FIELDS TERMINATED

大資料離線分析工具Hive簡單介紹

Hive是Facebook為了解決海量日誌資料的分析而開發的，後來開源給了Apache軟體基金會，可見Apache軟體基金會是個神奇的組織，我們之前學過的很多開源工具都有Apache軟體基金會的身影。官網定義： The Apache Hive ™ data

大資料利用hive on spark程式操作hive

hive on spark 作者：小濤 Hive是資料倉庫，他是處理有結構化的資料，當資料沒有結構化時hive就無法匯入資料，而它也是遠行在mr程式之上

大資料開發----Hive（入門篇）

前言本篇介紹Hive的一些常用知識。要說和網上其他manual的區別，那就是這是筆者寫的一套成體系的文件，不是隨心所欲而作。本文所用的環境為： CentOS 6.5 64位 Hive 2.1.1 Java 1.8 Hive Arc

【大資料】Hive作者肯定進修過藍翔挖掘機

正經標題應該是：解決hive初始化mysql資料庫錯誤的一種方式 Hive安裝包下載地址： https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 事情原因是這樣的，我按照書上的步驟一步一步走，到了該用hiv

Oracle資料庫入門資料型別與表操作(三）

目錄基本資料型別建立表修改表操作刪除表操作基本資料型別字元型 NCHAR CHAR 區別在於 NCHAR儲存2000個字元，而CHAR只能儲存1000個字元 VARCHAR2

資料結構-單鏈表操作

Hadoop（三）大資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎，通俗易懂！風趣幽默！http://www.captainbed.net/ 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

大資料自學5-Python操作Hbase

在Hue環境中本身是可以直接操作Hbase資料庫的，但是公司的環境不知道什麼原因一直提示"Api Error:timed out"，進度條一直在跑，卻顯示不出表。但是在CDH後臺管理裡,Hbase相關服務都是顯示正常執行的，因此就繞過Hue檢視Hbase，直接使用Python寫程式碼連Hbase資料庫

大資料平臺hive原生搭建教程

環境準備 centos 7.1系統需要三臺雲主機： master（8）作為 client 客戶端 slave1（9）作為 hive server 伺服器端 slave2（10）安裝 mysql server 安裝包使用的是官網下載的將hive上傳到master ，mys

大資料-Hadoop生態(3)-Hadoop介紹

Hadoop三大發行版本 Hadoop三大發行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基礎）的版本，對於入門學習最好。 Cloudera在大型網際網路企業中用的較多。 Hortonworks文件較好。 Apache Hadoop 官網地址

學習筆記:從0開始學習大資料-10. hive安裝部署

1. 下載 wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1.tar.gz 2.解壓 tar -zxvf hive-1.1.0-cdh5.15.1.tar.gz 3. hive的元資料（如表名，列

大資料框架Hadoop主要模組介紹

本文涉及到的所有模組，都是屬於Apache組織，不包括其他第三方的模組。核心模組： Hadoop Common: 包括Hadoop常用的工具類，由原來的Hadoop core部分更名而來。主要包括系統配置工具Configuration、遠端過程呼叫RPC、序列化機制和Hadoop抽象檔案系統F

大資料離線-HDFS（上）

本次介紹HDFS,分為上，中，下，三篇上篇入HDFS門介紹，常用操作中篇為HDFS的讀寫原理介紹下篇為HDFS的測試Demo，常用API 1. HDFS的基本概念 HDFS的介紹 HDFS 是 Hadoop Distribute File

大資料離線-MapReduce(上)--初識MapReduce

本次主要介紹MapReduce,分為上篇，下篇兩個篇章上篇介紹MapReduce計算模型，MapReduce編碼規範及測試，程式執行模式。下篇介紹MapReduce序列化，MaoReduce排序初步，Mapreduce 的分割槽。 1. Ma

資料結構——順序表操作（C語言實現）

//順序表list #include"stdio.h" #define maxsize 15 typedef struct{ int a[maxsize]; int size; }list; //建立 void create(lis

大資料離線---網站日誌流量分析系統（1）---簡介及框架

本次介紹網站日誌流量分析系統，首先是簡介和架構。後面會對架構中需要的每個模組的進行逐個介紹。本篇主要分為兩個部分網站日誌流量分析系統簡介整體技術流程和架構 1. 網站日誌流量分析系統簡介 1.1點選流資料模型點選流的概念點選流（ Cl

大資料離線---網站日誌流量分析系統（2）---資料獲取和預處理

本次接上一篇，進行實際資料的獲取和預處理，會有較多的程式碼內容資料的獲取資料的預處理資料的獲取需求資料採集的需求廣義上來說分為兩大部分。是在頁面採集使用者的訪問行為，具體開發工作： 1、開發頁面埋點 js，採集使用者訪問行為 2、後臺接受

玩轉大資料之——通過java操作office/wps的 EXCEL

操作Office文件，要用到apache公司的一個工具包: poi-3.7-20101029.jar poi外掛的使用方式類似dom技術不同版本：接下來進行演示功能: 1.用純Java技術實現建立一個名為a.xls的檔案(工作薄)，在其中新

大資料離線---Hive的表操作介紹

1. 託管表和外部表

託管表

外部表

分割槽和桶

分割槽

分桶

相關推薦