Hive中的四種表型別

阿新 • • 發佈：2018-12-10

一、Hive中四種表型別：受控表（內部表），外部表，分割槽表，分桶表

二、詳細介紹

內部表，就是一般的表，前面講到的表都是內布標，當表定義被刪除的時候，表中的資料隨之一併被刪除。

外部表，資料存在與否和表的定義互不約束，僅僅只是表對hdfs上相應檔案的一個引用，當刪除表定義的時候，表中的資料依然存在。

建立外部表，external是外部表的關鍵字，也是和內部表有區別的地方
create external table tblName(colName colType...);
載入資料
alter table tblName set location 'hdfs_absolute_uri';

外部表還可以在建立表的時候指定資料的位置，引用當前位置的資料。

create external table tblName(colName colType...) location 'hdfs_absolute_uri';

內部表和外部表的轉換：

內——>外
alter table tblName set tblproperties('EXTERNAL'='TRUE');
外——>內
alter table tblName set tblproperties('EXTERNAL'='FALSE');

分割槽表

如何建立一張分割槽表？只需要在之前的建立表後面使用partition by加上分割槽欄位就可以了，

    create table tblName (
　　     id int comment 'ID',
　　     name string comment 'name' 
    ) partitioned by (dt date comment 'create time')
    row format delimited fields terminated by '\t';

如何載入資料？

load data local inpath linux_fs_path into table tblName partition(dt='2018-12-07');

分割槽的一些操作：

查詢分割槽中的資料：select * from tblName where dt='2018-12-07';(分割槽相當於where的一個條件)
手動建立一個分割槽：alter table tblName add partition(dt='2018-12-07');
檢視分割槽表有哪些分割槽：show partitions tblName;
刪除一個分割槽(資料一起刪掉了)：alter table tblName drop partition(dt='2018-12-07');

多個分割槽如何建立？和單個分割槽類似

create table tblName (
　　 id int comment 'ID',
　　 name string comment 'name' 
　　) partitioned by (year int comment 'admission year', school string comment 'school name')
　　row format delimited fields terminated by '\t';

同時也可以從hdfs上引用資料：

alter table tblName partition(year='2018', school='crxy') set location hdfs_uri;

注意：

必須得現有分割槽,必須要使用hdfs絕對路徑

桶表，桶表是對資料進行雜湊取值，然後放到不同檔案中儲存。檢視每個桶檔案中的內容，可以看出是通過對 buckets 取模確定的。
如何建立桶表？
```
create table tblName_bucket(id int) clustered by (id) into 3 buckets;
```
說明：
clustered by ：按照什麼分桶
into x buckets:分成x個桶
如何載入資料？
不能使用load data這種方式，需要從別的表來引用
insert into table tblName_bucket select * from tbl_other;
注意:在插入資料之前需要先設定開啟桶操作，不然插入資料不會設定為桶!
set hive.enforce.bucketing=true;
桶表的主要作用：
資料抽樣
提高某些查詢效率

注意：
需要特別注意的是：clustered by 和 sorted by 不會影響資料的匯入，這意味著，使用者必須自己負責資料如何匯入，包括資料的分桶和排序。
'set hive.enforce.bucketing = true'可以自動控制上一輪 reduce 的數量從而適配 bucket 的個數，
當然，使用者也可以自主設定 mapred.reduce.tasks 去適配bucket 個數，
推薦使用'set hive.enforce.bucketing = true'。

Hive中的四種表型別

一、Hive中四種表型別：受控表（內部表），外部表，分割槽表，分桶表二、詳細介紹內部表，就是一般的表，前面講到的表都是內布標，當表定義被刪除的時候，表中的資料隨之一併被刪除。外部表，資料存在與否和表的定義互不約束，僅僅只是表對hdfs上相應檔案的一個引用，當刪除表定義的時候

java中四種引用型別

今天看程式碼，裡面有一個類java.lang.ref.SoftReference把小弟弄神了，試想一下，接觸java已經有3年了哇，連lang包下面的類都不瞭解，怎麼混。後來在網上查資料，感覺收穫頗多，現記錄如下。物件的強、軟、弱和虛引用在JDK 1.2以

c++中四種強制型別轉換(const_cast、static_cast應用最多)

c++動態型別轉換有四種const_cast、static_cast、dynamic_cast、reinterpreter_cast 前面兩個用的多，但是後面的針對其設計理念有許多其他的實現方法可達到同樣的效果 1. static_cast （1）用於基

Hive表中四種不同資料匯出方式以及如何自定義匯出列分隔符

問題導讀： 1、Hive表資料四種匯出方式是？ 2、匯出命令中LOCAL的作用及有無的區別？ 3、匯出命令中是否可以嚮導入命令一樣使用INTO？ 4、如何自定義匯出檔案的列分隔符？ 5、hive的-e和-f引數的作用及如何使用其來匯出資料？ 6、hive shell環境中

Java中的四種引用型別（強、軟、弱、虛）

為什麼需要不同的引用型別從Java1.2開始，JVM開發團隊發現，單一的強引用型別，無法很好的管理物件在JVM裡面的生命週期，垃圾回收策略過於簡單，無法適用絕大多數場景。為了更好的管理物件的記憶體，更好的進行垃圾回收，JVM團隊擴充套件了引用型別，從最早的強引用型別增加到強、軟、弱、虛四個引用

Python中四種內建資料型別(list，tuple，set，dict)的區別

List list是一種有序集合，能隨時新增或刪除其中的元素，元素型別可以不一樣,也可以定義一個空list 構造list直接用[ ]將list的所有元素括起來,用逗號分割;通常把list賦值給

HIVE的安裝配置、mysql的安裝、hive建立表、建立分割槽、修改表等內容、hive beeline使用、HIVE的四種資料匯入方式、使用Java程式碼執行hive的sql命令

1.上傳tar包這裡我上傳的是apache-hive-1.2.1-bin.tar.gz 2.解壓 mkdir -p /home/tuzq/software/hive/ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /home/

MySQL表的四種分割槽型別

一、什麼是表分割槽通俗地講表分割槽是將一大表，根據條件分割成若干個小表。mysql5.1開始支援資料表分割槽了。如：某使用者表的記錄超過了600萬條，那麼就可以根據入庫日期將表分割槽，也可以根據所在地將表分割槽。當然也可根據其他的條件分割槽。二、為什麼要對錶進行分割槽為了改善大型表以

用flask開發個人部落格（5）——flask中的四種響應型別

在之前的程式碼中，檢視函式都返回了一個字串，在實際的開發中其返回的html檔案內容，本質其實也是字串。下面總結下flask中可以作為響應的幾種方法。 1、響應字串。這個在前面已經說明過，但是需要指出的是，其實每次檢視函式在響應時還可以附帶狀

JS中六種資料型別（四）——Number

Number型別應該是ECMAScript中最令人關注的資料型別了，這種型別使用IEEE754格式來表示整數和浮點數值（浮點數值在某些語言中也被稱為雙精度數值）。為支援各種數值型別，EC

UDP中四種不同的NAT型別及檢測方法【轉發與點評】

UDP中四種不同的NAT型別及檢測方法考慮到UDP的無狀態特性，目前針對其的NAT實現大致可分為Full Cone、Restricted Cone、Port Restricted Cone和Symmetric NAT四種。值得指出的是，對於TCP協議而言，一般來說，目

C++中的四種強制型別轉換的區別

使用標準C++的型別轉換符：static_cast、dynamic_cast、reinterpret_cast、和const_cast。 1 static_cast 用法：static_cast < type-id > ( expression

C語言中的四種儲存型別

一、首先來說說資料的型別，所有的資料都有兩種型別，一是常見的資料型別，如int,float等，一種便是今天的重頭戲，儲存型別。總共有四種儲存型別的變數，分別為自動變數（auto）、靜態變數（s

java中四種訪問修飾符

pub oid 默認成員變量修飾對象 fault 其中 () Java中的四種訪問修飾符：public、protected、default（無修飾符，默認）、private。四種修飾符可修飾的成分（類、方法、成員變量） public protect

MySQL中四種常用存儲引擎的介紹

產生存在一個訪問內存結構高效 ins 刪除 MySQL常用的四種引擎的介紹（1）：MyISAM存儲引擎：不支持事務、也不支持外鍵，優勢是訪問速度快，對事務完整性沒有要求或者以select，insert為主的應用基本上可以用這個引擎來創建表支持3種不同的存

JavaScript中四種不同的屬性檢測方式比較

bject 如果 cnblogs thead != () 繼承 rip left JavaScript中四種不同的屬性檢測方式比較 1. 用in方法 var o = {x:1}; "x" in o; //true "y" in o; //false "toStrin

Java中四種引用的區分

isn 賦值 public medium 是否 comm 回調 ant container 強引用（StrongReference）強引用就是指在程序代碼之中普遍存在的，比如下面這段代碼中的object和str都是強引用： 1 2 Object obje

java中四種訪問修飾符區別及詳解全過程

HP dnv ax1 pci gda fmm utc dos rdp 客戶端程序員：即在其應用中使用數據類型的類消費者，他的目標是收集各種用來實現快速應用開發的類。　　類創建者：即創建新數據類型的程序員，目標是構建類。　　　　訪問控制存在的原因：a、讓客戶端程序員無法觸

java中四種修飾符(private、default、protected、public)的訪問權限

ble ted span java 修飾符 20px col family style 權限如下： no. 範圍 private default protected public 1 同一包下的同一個類 √ √ √ √ 2 同一包下的不同類 × √ √ √

RabbitMQ四種交換機型別介紹

RabbitMQ 原文地址: https://baijiahao.baidu.com/s?id=1577456875919174629&wfr=spider&for=pc 最新版本的RabbitMQ有四種交換機型別，分別是Direct exc

Hive中的四種表型別

一、Hive中四種表型別：受控表（內部表），外部表，分割槽表，分桶表

二、詳細介紹

相關推薦