hive 操作（三）——hive 的資料模型

阿新 • • 發佈：2019-01-25

大的分類可分為：

（1）受控表（MANAGED_TABLE）
- 內部表
- 分割槽表
- 桶表
（2）外部表（external table）

和受控表不同，對外部表刪除，僅刪除引用，而不刪除真實儲存的資料；

內部表

（1）表定義

表定義，自然包含欄位定義，也即列定義；
```
hive> create table t1(id int);
hive> show tables;
```
我們也可進入瀏覽器端，輸入hadoop0:50070，然後瀏覽檔案系統（Browse File System），進入/hive，會發現一個名為t1的資料夾。至此我們說，現在的hive使用的是mysql作為自己的metastore（對映工具）；

（2）載入資料

hive> load data local inpath 檔案 into table 表名；
如
hive> load data local inpath '/root/id' into table t1;
                    # local：表示從本地的磁碟檔案進行載入
                    # 如果不帶local，表示從hdfs進行載入

命令中含不含local，表示著兩種資料的載入方式。所以如果使用hadoop fs -put id /hive/t1/id2（也即會從hdfs中載入資料），表t1也會將id2中的資料吸收進來。

（3）定義多欄位表
```
hive> create table t2(id int, name string) row format delimited fields terminated by '\t';
                # 以製表符區分不同的欄位
```
在 hive 中除select *以外的操作，均走的是MapReduce的流程，因為select *是全表掃描？是否在新版的 hive 中，對查詢語句的支援有所提升，也即並非只有select *很快給出結果，不走MapReduce流程的不只select *一個；

在對映工具metastore所在的倉庫，也即mysql中，此環境中的hive資料庫的TBLS表會對hive所建的表有所顯示（顯示的是表名），在COLUMNS_V2會顯示錶的欄位資訊；

分割槽表

可以根據欄位對資料分割槽；

（1）建立分割槽表

hive> create table t3(id int) partitioned by (day int);
                # 分割槽資訊形式上其實是一個欄位
                # 這樣我們才可在select中利用where進行查詢；

（2）載入資料到分割槽表
```
hive> load data local inpath '/root/id' into table t3 partition (day=11);
```
我們可以將同樣的資料根據分割槽資訊載入到不同的檔案：
```
hive> load data local inpath '/root/id' into table t3 partition (day=12);
hive> load data local inpath '/root/id' into table t3 partition (day=13);
```
這樣，根據某一劃分標準（比如按小時、按天），方便我們按照這一標準進行查詢（select ** from table ** where day = 12;）；

所建的分割槽表，則就要利用分割槽資訊進行查詢，因為高效，如果還是用普通的欄位查詢的話，效率會很低，喪失建分割槽表的意義；

分割槽欄位選取的依據在於查詢的頻率，也即查詢頻率越高的資訊越作為分割槽欄位；
（3）桶表

常用在錶鏈接時；

和分割槽表一樣，也是對資料進行劃分，只不過劃分的依據有所不同。

桶表是對資料進行雜湊取值，然後放到不同檔案中儲存；
- （1）建立桶表
```
hive> create table t4(id int) clustered by(id) into 4 buckets;
```
- （2）載入資料
  - a. 啟動桶機制，也即預設是不使用桶的
```
set hive.enforce.bucketing = true;
```
  - b. 載入資料
```
insert into table t4 select id from t3;
```
（4）外部表

所謂的外部其實是指hdfs檔案系統；
```
[root@hadoop0 ~]# hadoop -put id /external/id
```
```
hive> create external table t5(id int) location '/external';
```
對外部表的刪除動作，僅刪除引用，而不會到外部檔案處，真正刪除資料。
```
hive> drop table t5;
```

hive 操作（三）——hive 的資料模型

大的分類可分為：（1）受控表（MANAGED_TABLE）內部表分割槽表桶表（2）外部表（external table）和受控表不同，對外部表刪除，僅刪除引用，而不刪除真實儲存的

PowerDesigner教程系列（三）概念資料模型

目標：本文主要介紹屬性的標準檢查約束、如何定義屬性的附加檢查。一、定義屬性的標準檢查約束標準檢查約束是一組確保屬性有效的表示式。在實體屬性的特性視窗，開啟如圖所示的檢查選項卡。在這個選項卡可以定義屬性的標準檢查約束，視窗中每項的引數的含義，如下引

Hive學習（三）Hive的連線三種連線方式

目錄一、CLI連線二、HiveServer2/beeline 1、修改 hadoop 叢集的 hdfs-site.xml 配置檔案 2、修改 hadoop 叢集的 core-site.xml 配置檔案三、Web UI正文：一、CLI連線進入到 bin 目錄下，直接

（三）Hive元資料資訊對應MySQL資料庫表

（三）Hive元資料資訊對應MySQL資料庫表目錄概述一、儲存Hive版本的元資料表（VERSION）二、Hive資料庫相關的元資料表（DBS、DATABASE_PARAMS） 1、DBS 2、DATABASE_P

Hive總結（二）Hive資料匯入的三種方式

零．Hive的幾種常見的資料匯入方式常用的的有三種： 1.從本地檔案系統中匯入資料到Hive表； 2.從HDFS上匯入資料到Hive表； 3.在建立表的時候通過從別的表中查詢出相應的記錄並插入到所建立的表中。 Hive配置： HDFS中Hive資料

Hive學習之路（三）Hive元數據信息對應MySQL數據庫表

需要 pri from metastore node rom lazy 測試安裝概述 Hive 的元數據信息通常存儲在關系型數據庫中，常用MySQL數據庫作為元數據庫管理。上一篇hive的安裝也是將元數據信息存放在MySQL數據庫中。 Hive的元數據信息在MySQ

Django之模型層，單，多表操作（三）

一：多表操作之增、刪、改 1.1：增：　　一對多：　　方式1: 　　 publish_obj=Publish.objects.get(nid=1) 　　 book_obj=Book.objects.create(title="海爾兄弟",publi

Hive初識（三）

根據使用者的需求建立檢視。可以將任何結果集資料儲存為一個檢視。檢視在Hive的用法和SQL檢視用法相同。它是一個標準的RDBMS概念。我們可以在檢視上執行所有DML操作。建立一個試圖可以建立一個試圖，在執行SELECT語句的時候，語法如下： CREATE VIEW [IF NOT EX

hive 操作（二）——使用 mysql 作為 hive 的metastore

hive 預設使用 derby 作為對映表（SQL 操作對映為MapReduce Job，將SQL中建立的表對映為 hdfs 的檔案/資料夾，欄位對映為其中的行），但 derby 的一大缺陷在於它不允許多個客戶端同時執行sql操作（可能新版本的hive會有所

Hadoop學習（三）Hive安裝

下載hive包上傳到linux主機上並解壓這裡使用 apache-hive-2.1.1-bin.tar.gz 安裝配置 MySQL CentOS7安裝mysql提示：No package mysql-server available. 輸入下面兩部

Hive 系列（四）—— Hive 常用 DDL 操作

一、Database 1.1 檢視資料列表 show databases; 1.2 使用資料庫 USE database_name; 1.3 新建資料庫語法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SC

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOCAL 關鍵字代表

Hive 系列（八）—— Hive 資料查詢詳解

一、資料準備為了演示查詢操作，這裡需要預先建立三張表，並載入測試資料。資料檔案 emp.txt 和 dept.txt 可以從本倉庫的resources 目錄下載。 1.1 員工表 -- 建表語句 CREATE TABLE emp( empno INT, -- 員工表編號

文件操作（三）

void dir ron 讀取 pri fileinput stream java listener SD卡文件讀取操作 EditText et; Button bt1; Button bt2; TextView tv; @Override protec

Java對數組的操作（三）—比較兩個數組中的元素是否同樣的最簡單方法

con data println test popu pan equal main spa 呵呵呵，實現Java比較兩個數組中的元素是否同樣的功能你是怎麽做的？看以下最簡單方法： import java.util.Arrays;

CSS（三）解析盒子模型的浮動

padding trac pad 三種 head 功能 -- 靚麗 500px 上篇博客遺留了浮動和定位兩個問題，僅僅是對他們進行了簡單的描寫敘述，今天細致透透他們的底細，此篇為浮動篇。浮動在這個CSS排版流行的年代發揮著越

Hive總結（七）Hive四種數據導入方式

hive src ive log 技術 mage cnblogs images 四種 Hive總結（七）Hive四種數據導入方式

【搜索引擎（三）】檢索模型

局限樸素貝葉斯匹配分析部分匹配 tro 還需要不同檢索模型的目的　　現實中搜索引擎的檢索策略復雜多變，但是分析起來，核心的目的就兩個，為了: 　　1. 越相關的結果越靠前; 　　2. 查詢的結果是完整的。經典檢索模型經典信息檢索模型有三類：　　　　1.

selenium + python自動化測試unittest框架學習（三）webdriver對頁面其他控件操作（三）

文件的文件路徑內容 option selenium script web 對話對話框 1.對話框，下拉框（1）對話框的有兩種，一種是iframe格式的，需要switch_to_iframe()進行定位，現在大部分的對話框是div格式的，這種格式的可以通過層級定位來定

Discuz!X3.1數據庫的操作（三）

extends tro chang 思想 str 清空 optimize eply 跳過 MVC開發思想簡介 MVC全名是Model-View-Controller，是模型（model）-視圖（view）-控制器（controller）的縮寫，它是一種軟件設計思想。使用一種

hive 操作（三）——hive 的資料模型

內部表

分割槽表

相關推薦