Hive典型應用場景之行列轉換

阿新 • • 發佈：2019-02-16

在使用Hive處理資料時，經常遇到行列轉換的場景，本文將對Hive的行列轉換操作做詳細的說明。

行轉列

1）多行轉多列
假設資料表
row2col：

col1   col2    col3
a      c       1
a      d       2
a      e       3  
b      c       4
b      d       5
b      e       6

現在要將其轉化為：

col1   c      d      e
a      1      2      3
b      4      5      6

此時需要使用到max(case … when … then … else 0 end)，僅限於轉化的欄位為數值型別，且為正值的情況。

HQL語句為：

select col1,
max(case col2 when 'c' then col3 else 0 end) as c,
max(case col2 when 'd' then col3 else 0 end) as d,
max(case col2 when 'e' then col3 else 0 end) as e
from row2col
group by col1;

2）多行轉單列
假設資料表
row2col：

col1    col2    col3
a       b       1
a       b       2
a       b       3 

c       d       4
c       d       5
c       d       6

現在要將其轉化為：

col1    col2    col3
a       b       1,2,3
c       d       4,5,6

此時需要用到兩個內建的UDF：
a）cocat_ws(引數1，引數2)，用於進行字元的拼接
引數1—指定分隔符
引數2—拼接的內容
b）collect_set()，它的主要作用是將某欄位的值進行去重彙總，產生array型別欄位。

HQL語句為：

select col1, col2, concat_ws(',' 
, collect_set(col3)) as col3
from row2col
group by col1, col2;

注意：由於使用concat_ws()函式，collect_set()中的欄位必須為string型別，如果是其他型別可使用cast(col3 as string)將其轉換為string型別。

列轉行

1）多列轉多行
假設有資料表
col2row：

col1   c      d      e
a      1      2      3
b      4      5      6

現要將其轉化為：

col1   col2    col3
a      c       1
a      d       2
a      e       3
b      c       4
b      d       5
b      e       6

這裡需要使用union進行拼接。

HQL語句為：

select col1, 'c' as col2, c as col3 from col2row
UNION
select col1, 'd' as col2, d as col3 from col2row
UNION
select col1, 'e' as col2, e as col3 from col2row
order by col1, col2;

2）單列轉多行
假設有資料表
col2row：

col1    col2    col3
a       b       1,2,3
c       d       4,5,6

現要將其轉化為：

col1    col2    col3
a       b       1
a       b       2
a       b       3
c       d       4
c       d       5
c       d       6

這裡需要使用UDTF（表生成函式）explode()，該函式接受array型別的引數，其作用恰好與collect_set相反，實現將array型別資料行轉列。explode配合lateral view實現將某列資料拆分成多行。

HQL語句為：

select col1, col2, lv.col3 as col3
from col2row 
lateral view explode(split(col3, ',')) lv as col3;

Hive典型應用場景之行列轉換

在使用Hive處理資料時，經常遇到行列轉換的場景，本文將對Hive的行列轉換操作做詳細的說明。行轉列 1）多行轉多列假設資料表 row2col： col1 col2 col3 a c 1 a d

zookeeper開源客戶端Curator典型應用場景之-服務註冊與發現(十一)

隨著業務增加,以前簡單的系統已經變得越來越複雜，單純的提升伺服器效能也不是辦法,而且程式碼也是越來越龐大，維護也變得越來越困難，這一切都催生了新的架構設計風格 – 微服務架構的出現。微服務給我們帶來了很多好處，例如：獨立可擴充套件、易維護。但是隨著應用的分解

zookeeper開源客戶端Curator典型應用場景之-Barrier屏障(十三)

什麼是Barrier Barrier是這樣的：Barrier是一個同步點，每一個程序到達此點都要等待，直到某一個條件滿足，然後所有的節點繼續進行。比如：賽跑大家都知道,所有比賽人員都會在起跑線外等待,直到教練員的槍響之後,所有參賽者立刻開始賽跑。 JDK的併

zookeeper開源客戶端Curator典型應用場景之-分散式計數器(十四)

之前我們瞭解了基於Corator的分散式鎖之後,我們就很容易基於其實現一個分散式計數器，顧名思義，計數器是用來計數的, 利用ZooKeeper可以實現一個叢集共享的計數器。只要使用相同的path就可以得到最新的計數器值，這是由ZooKeeper的一致性保證

ZooKeeper的典型應用場景之Master選舉。

Master選舉是一個分散式系統中非常常見的應用場景。分散式最核心的特性就是能夠將具有獨立計算能力的系統單元部署在不同的機器上，構成一個完整的分散式系統。而與此同時，實際場景中往往也需要在這些分佈在不同機器上的獨立系統單元中選出一個所謂的“老大”，在電腦科學

ZooKeeper的典型應用場景之名稱空間。

命名服務（Name Service）也是分散式系統中比較常見的一類場景，在《Java網路高階程式設計》一書中提到，命名服務是分散式系統最基本的公共服務之一。在分散式系統中，被命名的實體通常可以是叢集中的機器、提供的服務地址或遠端物件等——這些我們都可以統稱他

zookeeper開源客戶端Curator典型應用場景之-訊息佇列(十二)

Curator框架也有分散式佇列實現。利用ZK的PERSISTENT SEQUENTIAL(持久順序)節點，可以保證放入到佇列中的專案是按照順序排隊的。並且宕機重啟並不丟失訊息，如果單一的消費者從佇列中取資料，那麼它是先入先出的，這也是佇列的特點。如果

zookeeper開源客戶端Curator典型應用場景之-Master選舉(十)

在生產環境中，一般要保證服務的高可用，有時候只需要選出一臺機器來執行，其餘機器處於備用狀態，比如，在分散式系統中很常見的一個問題就是定時任務的執行。如果多臺機器同時執行相同的定時任務，業務複雜則可能出現災難性的後果。我使用的是噹噹網的elastic-job分散

SpringBoot整合RabbitMQ之典型應用場景實戰二

factor aid 分享圖片 actor esp rem 排隊 stc tps 實戰前言RabbitMQ 作為目前應用相當廣泛的消息中間件，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模塊中具有重要的作用，比如業務服務模塊解耦、異步通信、

SpringBoot整合RabbitMQ之典型應用場景實戰三

分布 boot 自動刪除 blog jce 地址這樣的實施微服務實戰前言RabbitMQ 作為目前應用相當廣泛的消息中間件，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模塊中具有重要的作用，比如業務服務模塊解耦、異步通信、高並發限流

SpringBoot整合RabbitMQ之典型應用場景實戰二

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。上一篇博文我分享了RabbitMQ在業務服務模組解耦，非

SpringBoot整合RabbitMQ之典型應用場景實戰一

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。 RabbitMQ 官網拜讀首先，讓我們先拜讀

SpringBoot整合RabbitMQ之典型應用場景實戰一

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。 RabbitMQ 官網拜讀首先

大資料生態之zookeeper（典型應用場景）

1. 命名服務命名服務是分散式系統中較為常見的一類場景，分散式系統中，被命名的實體通常可以是叢集中的機器、提供的服務地址或者遠端物件，通過命名服務，客戶端可以根據指定名字來獲取資源的實體、服務地址和提供者的資訊。Zookee

hive的典型應用場景

com from val fff 統計連接根據 5-0 bstr 案例一：需求：現有這麽一批數據，現要求出：每個用戶截止到每月為止的最大單月訪問次數和累計到該月的總訪問次數。數據：用戶名，月份，訪問次數 A,2015-01,5 A,2015-01,15 B,2015

ZooKeeper學習之路（七）ZooKeeper設計特點及典型應用場景

目錄正文回到頂部 ZooKeeper 特點/設計目的 ZooKeeper 作為一個叢集提供資料一致的協調服務，自然，最好的方式就是在整個叢集中的各服務節點進行資料的複製和同步。資料複製的好處 1、容錯：一個節點出錯，不至於讓整個叢集無法提供服務

Zookeeper應用場景之分布式屏障Barrier

pri worker use int 休眠沒有分布 eat demo Barrier就是柵欄或者屏障，適用於這樣的業務場景：當有些操作需要並行執行，但後續操作又需要串行執行，此時必須等待所有並行執行的線程全部結束，才開始串行，於是就需要一個屏障，來控制所有線程同時開始，

DaemonSet 典型應用場景 - 每天5分鐘玩轉 Docker 容器技術（129）

source leg auto border pre kubectl fault bili opensta Deployment 部署的副本 Pod 會分布在各個 Node 上，每個 Node 都可能運行好幾個副本。DaemonSet 的不同之處在於：每個 Node 上最多

ZooKeeper的典型應用場景

拉取 ons 執行全局進行創建失敗消息通知防止成了《從Paxos到Zookeeper 分布式一致性原理與實踐》讀書筆記本文：總結腦圖地址：腦圖前言所有的典型應用場景，都是利用了ZK的如下特性：強一致性：在高並發情況下，能夠保證節點的創建一定是

ZooKeeper 典型應用場景

Zookeeper基礎知識　　1.zookeeper是一個類似hdfs的樹形檔案結構，zookeeper可以用來保證資料在(zk)叢集之間的資料的事務性一致、　　2.zookeeper有watch事件，是一次性觸發的，當watch監視的資料發生變化時，通知設定了該watch的client，即watcher　　

Hive典型應用場景之行列轉換

行轉列

列轉行

相關推薦