大資料技術之Hive實戰——Youtube專案（一）

阿新 • • 發佈：2019-01-31

一、需求描述

統計 Youtube 視訊網站的常規指標，各種 TopN 指標：

–統計視訊觀看數 Top10

–統計視訊類別熱度 Top10

–統計視訊觀看數 Top20 所屬類別包含這 Top20 視訊的個數

–統計視訊觀看數 Top50 所關聯視訊的所屬類別 Rank

–統計每個類別中的視訊熱度 Top10

–統計每個類別中視訊流量 Top10

–統計上傳視訊最多的使用者 Top10 以及他們上傳的視訊

–統計每個類別視訊觀看數 Top10

二、知識儲備梳理

2.1、order by，sort by，distribute by，cluster by

背景表結構

在講解中我們需要貫串一個例子，所以需要設計一個情景，對應還要有一個表結構和填充

資料。如下：有 3 個欄位，分別為 personId 標識某一個人，company 標識一家公司名稱，

money 標識該公司每年盈利收入（單位：萬元人民幣）

這裡寫圖片描述

建表匯入資料：

create table company_info(
personId string,
company string,
money float
)row format delimited fields terminated by "\t"

load data local inpath “company_info.txt” into table company_info;

2.1.1、order by

hive 中的 order by 語句會對查詢結果做一次全域性排序，即，所有的 mapper 產生的結果都會

交給一個 reducer 去處理，無論資料量大小，job 任務只會啟動一個 reducer，如果資料量巨

大，則會耗費大量的時間。

尖叫提示：如果在嚴格模式下，order by 需要指定 limit 資料條數，不然資料量巨大的情況下

會造成崩潰無輸出結果。涉及屬性：set hive.mapred.mode=nonstrict/strict

例如：按照 money 排序的例子

select * from company_info order by money desc;

2.1.2、sort by

hive 中的 sort by 語句會對每一塊區域性資料進行區域性排序，即，每一個 reducer 處理的資料都

是有序的，但是不能保證全域性有序。

2.1.3、distribute by

hive 中的 distribute by 一般要和 sort by 一起使用，即將某一塊資料歸給(distribute by)某一個

reducer 處理，然後在指定的 reducer 中進行 sort by 排序。

尖叫提示：distribute by 必須寫在 sort by 之前

尖叫提示：涉及屬性 mapreduce.job.reduces，hive.exec.reducers.bytes.per.reducer例如：不同的人（personId）分為不同的組，每組按照 money 排序。

select * from company_info distribute by personId sort by personId, money desc;

2.1.4、cluster by

hive 中的 cluster by 在 distribute by 和 sort by 排序欄位一致的情況下是等價的。同時，cluster

by 指定的列只能是降序，即預設的 descend，而不能是 ascend。

例如：寫一個等價於 distribute by 與 sort by 的例子

select * from company_info distribute by personId sort by personId;

等價於

select * from compnay_info cluster by personId;

2.2、行轉列、列轉行（UDAF 與 UDTF）

2.2.1、行轉列

表結構：
這裡寫圖片描述

建立表及資料匯入：

create table person_info(
name string,
constellation string,
blood_type string)
row format delimited fields terminated by "\t";

load data local inpath “person_info.tsv” into table person_info;

例如：把星座和血型一樣的人歸類到一起

select
t1.base,
concat_ws('|', collect_set(t1.name)) name
from
(select
name,
concat(constellation, ",", blood_type) base
from
person_info) t1
group by
t1.base;

2.2.2、列轉行

表結構：
這裡寫圖片描述

建立表及匯入資料：

create table movie_info(
movie string,
category array<string>)
row format delimited fields terminated by "\t"
collection items terminated by ",";

load data local inpath "movie_info.tsv" into table movie_info;

例如：將電影分類中的陣列資料展開

select
movie,
category_name
from
movie_info lateral view explode(category) table_tmp as category_name;

2.3、陣列操作

“fields terminated by”：欄位與欄位之間的分隔符。

“collection items terminated by”：一個欄位中各個子元素 item 的分隔符。

2.4、orc 儲存

orc 即 Optimized Row Columnar (ORC) file，在 RCFile 的基礎上演化而來，可以提供一種高

效的方法在 Hive 中儲存資料，提升了讀、寫、處理資料的效率。

2.5、Hive 分桶

Hive 可以將表或者表的分割槽進一步組織成桶，以達到：

1、資料取樣效率更高

2、資料處理效率更高

桶通過對指定列進行雜湊來實現，將一個列名下的資料切分為“一組桶”，每個桶都對應了

一個該列名下的一個儲存檔案。

2.5.1、直接分桶

開始操作之前，需要將 hive.enforce.bucketing 屬性設定為 true，以標識 Hive 可以識別桶。

create table music(
id int,
name string,
size float) 
clustered by (id) sort by (id) into 4 buckets 
row format delimited fields terminated by "\t";

該程式碼的意思是將 music 表按照 id 將資料分成了 4 個桶，插入資料時，會對應 4 個 reduce

操作，輸出 4 個檔案。

2.5.2、在分割槽中分桶

當資料量過大，需要龐大分割槽數量時，可以考慮桶，因為分割槽數量太大的情況可能會導致文

件系統掛掉，而且桶比分割槽有更高的查詢效率。資料最終落在哪一個桶裡，取決於 clustered

by 的那個列的值的 hash 數與桶的個數求餘來決定。雖然有一定離散性，但不能保證每個桶

中的資料量是一樣的。

create table music2(
id int,
name string,
size float)
partitioned by (date string)
clustered by (id) sorted by(size) into 4 bucket
row format delimited
fields terminated by "\t";

load data local inpath 'demo/music.txt' into table music2 partition(date='2017-08-30');

大資料技術之Hive實戰——Youtube專案（一）

一、需求描述統計 Youtube 視訊網站的常規指標，各種 TopN 指標： –統計視訊觀看數 Top10 –統計視訊類別熱度 Top10 –統計視訊觀看數 Top20 所屬類別包含這 Top20 視訊的個數 –統計視訊觀看數 Top50 所關聯視訊

大資料開發之Hadoop工程師學習筆記（一）

第一課：實施Hadoop叢集；CDH家族1.Hadoop大資料：目前軟體和硬體無法處理的資料稱為大資料。Hadoop擅長離線資料分析，有時間差，難以做實時資料處理。檔案系統是半隻讀資料，不能修該，只能追加，隨機讀寫很麻煩。Hadoop不是資料庫，Hbase才是資料庫。兩大板塊

大資料系列之資料庫Hbase知識整理（一）Hbase簡介，叢集搭建

1.Hbase簡介 HBase是一個分散式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化資料的分散式儲存系統”。就像Bigtable利用了Google檔案系統（File System）所提供的分散式資料儲

大資料技術之Hive(一

今天來聊一聊Hive，也是平時工作中每天都用到且用得最多的離線查詢。 Hive的簡介 Hive由 Facebook 開源用於解決海量結構化日誌的資料統計工具，是基於 Hadoop 的一個數據倉庫工具，可以將結構化的資料檔案對映為一張表，並提供類 SQL 查

1.大資料指CDH叢集搭建詳細步驟（一）

1.使用CDH,其中CDH表示的意思是Cloudera’s Distribution Including Apache Hadoop，簡稱“CDH”）基於web的使用者介面，支援大多數的hadoop元件，包括了HDFS，MapReduce以及HIve和Pig Hbase以及Zookeepe

【資料結構之二叉樹】（一）B樹、B-樹、B+樹、B*樹介紹，和B+樹更適合做檔案索引的原因

今天看資料庫，書中提到：由於索引是採用 B 樹結構儲存的，所以對應的索引項並不會被刪除，經過一段時間的增刪改操作後，資料庫中就會出現大量的儲存碎片，這和磁碟碎片、記憶體碎片產生原理是類似的，這些儲存碎片不僅佔用了儲存空間，而且降低了資料庫執行的速度。如果發現索引

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

大資料分析常用的工具有哪些（一）

眾所周知，現在大資料行業發展得十分火熱，而大資料也確實為我們的生活帶來了許多的便利。隨著大資料的不斷髮展，需求的不斷增多和提升，大資料的使用工具也變得更為重要，它們能讓大家節省更多的時間和金錢。在大資料這一概念提出到現在的這十年間，市面上出現了各類的大資料使用工具，讓我們從中遴選

大資料在生活中有什麼應用（一）

現在大資料的發展是飛快的，很多人聽說過大資料這個詞，認為大資料還是在實驗室中，其實並不是。大資料在我們的生活中也開始變得十分的廣泛，這是因為大資料應用的行業也越來越多了，我們使用大資料能夠幫助人們獲得更多的有價值的資訊，那麼大資料在生活中有什麼應用呢？下面就有我們為大家解答一下這個問題

Python資料分析與挖掘實戰學習筆記（一）

資料預處理1. 資料清洗（1）缺失值處理三種方法：刪除記錄、資料插補、不處理常見插補方法：均值/中位數/眾數插補、使用固定值/期望值、迴歸方法（根據已有資料和其他與其有關變數等建立擬合模型來預測）、插值法（利用已知點建立合適的插值函式，如拉格朗日函式）我們以餐廳銷量資

學習大資料技術，Hive實踐分享之儲存和壓縮的坑

在學習大資料技術的過程中，HIVE是非常重要的技術之一，但我們在專案上經常會遇到一些儲存和壓縮的坑，本文通過科多大資料的武老師整理，分享給大家。大家都知道，由於叢集資源有限，我們一般都會針對資料檔案的「儲存結構」和「壓縮形式」進行配置優化。在我實際檢視以後，發現叢集的檔案儲存格式為Parque

大資料元件之----HIVE，win10下安裝以及配置hadoop詳細步驟

HIVE其本質是以Hadoop作為基礎的資料倉庫基礎設施。其中hadoop為資料的儲存和執行在商業機器上提供了可擴充套件以及容錯性的可能，其中容錯性可通過副本來進行理解。目標： HIVE是讓資料彙總更加簡單和針對大容量資料的查詢和分析，提供了SWL來使得使用者可以更簡單查詢，彙總和資料分析

大資料開發之Hive篇----初始hive及hadoop簡單回顧

我們先簡單回顧一下hadoop： a，Hadoop是什麼：海量資料分散式的儲存和計算框架。其中資料的儲存是hdfs(Hadoop Distributed File System)，而計算是yarn/mapreduce。 b，Hadoop的訪問方式：shell，Java API，Web UI(

大資料技術之 Linux 基礎

一、Linux 入門概述概述 Linux 核心最初只是由芬蘭人林納斯·託瓦茲（Linus Torvalds）在赫爾辛基大學上學時出於個人愛好而編寫的。 Linux 是一套免費使用和自由傳播的類 Unix 作業系統，是一個基於 P

大資料技術之HBase第8章擴充套件

8.1布隆過濾器在日常生活中，包括在設計計算機軟體時，我們經常要判斷一個元素是否在一個集合中。比如在字處理軟體中，需要檢查一個英語單詞是否拼寫正確（也就是要判斷它是否在已知的字典中）；在 FBI，一個嫌疑人的名字是否已經在嫌疑名單上；在網路爬蟲裡，一個網址是否被訪問過等等

大資料系列之——hive（七、hive詳解及應用）

目錄 2.HQL 一、HIVE概述 1.Hadoop分散式計算遇到的問題 MapReduce只能用java開發(也支援其他語言，但是不是主流)需要對Hadoop的底層原理 api比較瞭解才能順暢的開發出分散式的處

大資料系列之hive（八、hive內建函式全解）

1.內建運算子1.1關係運算符運算子型別說明 A = B 所有原始型別如果A

大資料開發之Hive篇----分割槽表的構建

在hive當中為什麼要分割槽呢？就是要提高我們的查詢速度，那麼它是怎麼提高查詢速度的呢？首先，分割槽是指根據某個或幾個欄位來將資料表格切分成多個板塊，根據你所指定的欄位，這個欄位裡面有多少個值，我們就將分割槽建成多少個。所以，分割槽其實是在表這個單位下的下一個單位。因此，在H

大資料BigData之hive的執行過程是怎麼樣的？（概括）

hive的執行過程，大體上是這樣的： hive 客戶端（一般是hive cli，入口類為CliDriver）把HQL翻譯成MR執行計劃(Operator樹)並序列化到 plan.xml plan.xml 上傳到hdfs上 hive 客戶端新起一程序，提交MapRe

大資料BigData之 hive command line 如何 debug？

大資料BigData之 hive command line 如何 debug？或是說如何修改日誌的輸出級別？（設定成 Debug 級別）文章目錄 1. 執行 hive cli 的時候加上日誌引數 2. 在xml配置檔案設定日誌輸出級別

大資料技術之Hive實戰——Youtube專案（一）

相關推薦