hive的典型應用場景

阿新 • • 發佈：2019-01-15

com from val fff 統計連接根據 5-0 bstr

案例一：

需求：現有這麽一批數據，現要求出：每個用戶截止到每月為止的最大單月訪問次數和累計到該月的總訪問次數。
數據：

用戶名，月份，訪問次數
A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,16
A,2015-03,22
B,2015-03,23
B,2015-03,10
B,2015-03,11

最終結果：

用戶  月份      最大訪問次數  總訪問次數       當月訪問次數
A     2015-01          33              33               33
A     2015-02          33              43               10
A     2015-03          38              81               38
B     2015-01          30              30               30
B     2015-02          30              45               15
B     2015-03          44              89                44

解決：

#step01 統計每個用戶每月的總訪問次數
create view view_step01 as select name,month,sum(visitCount) total from t_user  group by name,month;
#step02 （自連接，連接條件為name）
create view view_step02 as
    select t1.name aname,t1.month amonth,t1.total atotal,t2.name bname,t2.month bmonth,t2.total btotal
    from view_step01 t1 join view_step01  t2 on t1.name =t2.name 
#step03 去除無用數據，每組找到小於等於自己月份的數據
select bname,bmonth,max(btotal),sum(btotal),btotal
from view_step02
where unix_timestamp(amonth,‘yyyy-MM‘)>=unix_timestamp(bmoth,‘yyyy-MM‘)
group by aname,amonth,atotal;

案例二：

#建表語句：

CREATE TABLE `course` (
  `id` int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  `sid` int(11) DEFAULT NULL,
  `course` varchar(255) DEFAULT NULL,
  `score` int(11) DEFAULT NULL 
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
#插入數據
INSERT INTO `course` VALUES (1, 1, ‘yuwen‘, 43);
INSERT INTO `course` VALUES (2, 1, ‘shuxue‘, 55);
INSERT INTO `course` VALUES (3, 2, ‘yuwen‘, 77);
INSERT INTO `course` VALUES (4, 2, ‘shuxue‘, 88);
INSERT INTO `course` VALUES (5, 3, ‘yuwen‘, 98);
INSERT INTO `course` VALUES (6, 3, ‘shuxue‘, 65);

技術分享圖片
需求：所有數學課程成績大於語文課程成績的學生的學號
解決：（行列轉換）

SELECT
    t1.sid 
FROM
    (
SELECT
    sid,
    max( CASE `course` WHEN "yuwen" THEN score ELSE 0 END ) AS "yuwen",
    max( CASE `course` WHEN "shuxue" THEN score ELSE 0 END ) AS "shuxue" 
FROM
    `course` 
GROUP BY
    sid 
    ) t1 
WHERE
    t1.yuwen < t1.shuxue;

案例三：

需求：比如：2010012325表示在2010年01月23日的氣溫為25度。現在要求使用hive，計算每一年出現過的最大氣溫的日期+溫度。
數據：
年溫度
20140101 14
20140102 16
20140103 17
20140104 10
20140105 06
20120106 09
20120107 32
20120108 12
20120109 19
20120110 23
20010101 16
20010102 12
20010103 10
20010104 11
20010105 29
20130106 19
20130107 22
20130108 12
20130109 29
20130110 23
20080101 05

現在需要根據年月進行group by 但是最終的結果需要是20080101 05，也就是說，分組字段和最後保留的字段不相同，這時怎麽辦？

解決：

#Step1:
CREATE VIEW view_step1 AS SELECT
substr( tmp, 1, 4 ) AS YEAR,
max( substr( tmp, 9, 2 ) ) AS tmp 
FROM
    tmp 
GROUP BY
    substr( tmp, 1, 4 );

#Step2:
SELECT
    b.tmp,
    a.tmp 
FROM
    view_step1 a
    JOIN tmp b ON a.YEAR = substr( b.tmp, 1, 4 ) 
    AND a.tmp = substr( b.tmp, 9, 2 );

案例四：

數據

#表示有id為1,2,3的學生選修了課程a,b,c,d,e,f中其中幾門：
id course 
1,a 
1,b 
1,c 
1,e 
2,a 
2,c 
2,d 
2,f 
3,a 
3,b 
3,c 
3,e

需求：編寫Hive的HQL語句來實現以下結果：表中的1表示選修，表中的0表示未選修。
技術分享圖片
解決（方案1）：

#行列轉換
select id 
max(case when course=‘a‘ then 1 else 0 and ) as a ,
max(case when course=‘b‘ then 1 else 0 and ) as b ,
max(case when course=‘c‘ then 1 else 0 and ) as c ,
max(case when course=‘d‘ then 1 else 0 and ) as d ,
max(case when course=‘e‘ then 1 else 0 and ) as e ,
max(case when course=‘f‘ then 1 else 0 and ) as f
from course  group by id;

解決（方案2）：

#collect_set函數
#step01
create view id_courses as 
select a.course acourse,b.course bcourse,b.id id
(select collect_set(course) as course from course) a 
    join 
(selecet id ,colect_set(course) as course from course group by id) b

#step02
select id,
case when array_contains(bcourse,acourse[0]) then 1 else 0 end as a ,
case when array_contains(bcourse,acourse[1]) then 1 else 0 end as b ,
case when array_contains(bcourse,acourse[2]) then 1 else 0 end as c ,
case when array_contains(bcourse,acourse[3]) then 1 else 0 end as d ,
case when array_contains(bcourse,acourse[4]) then 1 else 0 end as e ,
case when array_contains(bcourse,acourse[5]) then 1 else 0 end as f
from id_courses;

hive的典型應用場景

Hive典型應用場景之行列轉換

在使用Hive處理資料時，經常遇到行列轉換的場景，本文將對Hive的行列轉換操作做詳細的說明。行轉列 1）多行轉多列假設資料表 row2col： col1 col2 col3 a c 1 a d

hive的典型應用場景

com from val fff 統計連接根據 5-0 bstr 案例一：需求：現有這麽一批數據，現要求出：每個用戶截止到每月為止的最大單月訪問次數和累計到該月的總訪問次數。數據：用戶名，月份，訪問次數 A,2015-01,5 A,2015-01,15 B,2015

DaemonSet 典型應用場景 - 每天5分鐘玩轉 Docker 容器技術（129）

source leg auto border pre kubectl fault bili opensta Deployment 部署的副本 Pod 會分布在各個 Node 上，每個 Node 都可能運行好幾個副本。DaemonSet 的不同之處在於：每個 Node 上最多

ZooKeeper的典型應用場景

拉取 ons 執行全局進行創建失敗消息通知防止成了《從Paxos到Zookeeper 分布式一致性原理與實踐》讀書筆記本文：總結腦圖地址：腦圖前言所有的典型應用場景，都是利用了ZK的如下特性：強一致性：在高並發情況下，能夠保證節點的創建一定是

SpringBoot整合RabbitMQ之典型應用場景實戰二

factor aid 分享圖片 actor esp rem 排隊 stc tps 實戰前言RabbitMQ 作為目前應用相當廣泛的消息中間件，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模塊中具有重要的作用，比如業務服務模塊解耦、異步通信、

SpringBoot整合RabbitMQ之典型應用場景實戰三

分布 boot 自動刪除 blog jce 地址這樣的實施微服務實戰前言RabbitMQ 作為目前應用相當廣泛的消息中間件，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模塊中具有重要的作用，比如業務服務模塊解耦、異步通信、高並發限流

SpringBoot整合RabbitMQ之典型應用場景實戰二

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。上一篇博文我分享了RabbitMQ在業務服務模組解耦，非

SpringBoot整合RabbitMQ之典型應用場景實戰一

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。 RabbitMQ 官網拜讀首先，讓我們先拜讀

ZooKeeper 典型應用場景

Zookeeper基礎知識　　1.zookeeper是一個類似hdfs的樹形檔案結構，zookeeper可以用來保證資料在(zk)叢集之間的資料的事務性一致、　　2.zookeeper有watch事件，是一次性觸發的，當watch監視的資料發生變化時，通知設定了該watch的client，即watcher　　

中國HBase技術社群第八屆MeetUp ——HBase典型應用場景與實踐（南京站）

HBase—Hadoop Database是一個分散式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化資料的分散式儲存系統”。HBase的特點是高可靠性、高效能、面向列、可伸縮的分散式儲存系統，如今HBase已經廣泛應用於各網際網路行業。那麼我們

中國HBase技術社群第九屆meetup-HBase典型應用場景與實踐（北京站）

2018年12月23日14點，將在北京朝陽360公司A座一層釋出廳舉辦中國HBase技術社群第九屆meetup-HBase典型應用場景與實踐。本期活動主題 13:30-14:00 簽到 14:00-14:40 HBase 2.0 在360的技術改進與應用實踐講師：王小勇——360系統部分散

ZooKeeper典型應用場景

ZooKeeper是一個高可用的分散式資料管理與系統協調框架。基於對Paxos演算法的實現，使該框架保證了分散式環境中資料的強一致性，也正是基於這樣的特性，使得ZooKeeper解決很多分散式問題。網上對ZK的應用場景也有不少介紹，本文將結合作者身邊的專案例子，系統地對ZK的

Elasticsearch Top5典型應用場景

題記剛接觸Elasticsearch的朋友，或多或少會遇到一個問題，Elasticsearch在實際公司應用中除了搜尋到底能做什麼？本文給出了答案。除了“You Know, for Search”，Elasticsearch的使用會不斷增長和變化。O

this的典型應用場景

1）、在html元素事件屬性中使用，如： <input type=”button” onclick=”showInfo(this);” value=”點選一下”/> （2）、建構函式 function Animal(name, color) { 　　this

ZooKeeper典型應用場景一覽

叢集機器監控：這通常用於那種對叢集中機器狀態，機器線上率有較高要求的場景，能夠快速對叢集中機器變化作出響應。這樣的場景中，往往有一個監控系統，實時檢測叢集機器是否存活。過去的做法通常是：監控系統通過某種手段（比如ping）定時檢測每個機器，或者每個機器自己定時向監控系統彙報“我還活著”。這種做法可行

zookeeper開源客戶端Curator典型應用場景之-服務註冊與發現(十一)

隨著業務增加,以前簡單的系統已經變得越來越複雜，單純的提升伺服器效能也不是辦法,而且程式碼也是越來越龐大，維護也變得越來越困難，這一切都催生了新的架構設計風格 – 微服務架構的出現。微服務給我們帶來了很多好處，例如：獨立可擴充套件、易維護。但是隨著應用的分解

zookeeper開源客戶端Curator典型應用場景之-Barrier屏障(十三)

什麼是Barrier Barrier是這樣的：Barrier是一個同步點，每一個程序到達此點都要等待，直到某一個條件滿足，然後所有的節點繼續進行。比如：賽跑大家都知道,所有比賽人員都會在起跑線外等待,直到教練員的槍響之後,所有參賽者立刻開始賽跑。 JDK的併

SpringBoot整合RabbitMQ之典型應用場景實戰一

實戰前言 RabbitMQ 作為目前應用相當廣泛的訊息中介軟體，在企業級應用、微服務應用中充當著重要的角色。特別是在一些典型的應用場景以及業務模組中具有重要的作用，比如業務服務模組解耦、非同步通訊、高併發限流、超時業務、資料延遲處理等。 RabbitMQ 官網拜讀首先

圖解ZooKeeper的典型應用場景

介紹 zookeeper在很多框架中都有應用，例如：Dubbo，Hadoop，Storm，Kafka等，在這些框架中都用到了zookeeper，但典型的用法也就幾種，掌握了這幾種用法，再看zookeeper在相關框架中的應用就很輕鬆，下一篇文章將會詳細介紹zookeeper在dubb

B樹、B+樹、LSM樹以及其典型應用場景

前言動態查詢樹主要有：二叉查詢樹、平衡二叉樹、紅黑樹、B樹、B+樹。前面三種是典型的二叉查詢樹，查詢的時間複雜度是O(log2N)與樹的深度有關係，那麼降低樹的深度也就可以提升查詢效率。這時就提出了平衡多路查詢樹，也就是B樹以及B+樹。 B樹和B+樹非常典

hive的典型應用場景

案例二：

案例三：

案例四：

相關推薦