hive參數配置及任務優化

阿新 • • 發佈：2019-04-22

shuff rtu current schedule 輸入 output tar filesize 0.10

一、hive常用參數

0.常用參數

--@Name:
--@Description: 
--@Type:全量加載
--@Author:---
--@CreateDate:
--@Target:
--@SourceTable:
--@ModifyBy:
--@ModifyDate:
--@ModifyDesc:
--@Copyright 
--設置作業名
set mapred.job.name = hive_xxx(${statisdate});
--Map輸入合並大小
set mapreduce.input.fileinputformat.split.maxsize= 
300000000;
set mapreduce.input.fileinputformat.split.minsize=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=100000000;
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
--設置reduce數目
set hive.exec.reducers.bytes.per.reducer= 
 300000000;
set hive.exec.reducers.max=300;
--輸出合並
set hive.merge.mapfiles = true;
set hive.merge.mapredfiles = true;
set hive.merge.size.per.task = 128000000;
set hive.merge.smallfiles.avgsize=16000000;
--是否使用mapjoin
set hive.auto.convert.join = false;
--設置默認用戶
use xxx_db;

1.任務名設置

set mapreduce.job.name= 
xxxx(${statis_date})  # 方便定位具體任務

2.輸入合並參數設置

set mapreduce.input.fileinputformat.split.maxsize=300000000;
set mapreduce.input.fileinputformat.split.minsize=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=100000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=100000000;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;  --不進行小文件合並

3.輸出合並參數設置

set hive.merge.mapfiles = true    #在Map-only的任務結束時合並小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任務結束時合並小文件
set hive.merge.size.per.task = 256*1000*1000 #合並文件的大小
set hive.merge.smallfiles.avgsize=16000000 #當輸出文件的平均大小小於該值時，啟動一個獨立的map-reduce任務進行文件merge

4.reduce設置

set hive.exec.reducers.bytes.per.reducer= 300000000;
set hive.exec.reducers.max=300;
set mapred.reduce.tasks=10; #固定reduce大小

5.mapjoin參數設置

set hive.auto.convert.join= false;

6.map端聚合

set hive.map.aggr = true;

7.mapreduce的物理內存、虛擬內存

set mapreduce.map.memory.mb = 4096;
set mapreduce.reduce.memory.mb = 4096;
set mapreduce.map.java.opts=-Xmx3278m;
set mapreduce.reduce.java.opts=-Xmx3278m;
--------------------------------------------------- 
-- set mapreduce.map.memory.mb = 4096;
-- set mapreduce.reduce.memory.mb = 4096;
-- 此參數設計必須在允許範圍內
-- yarn.scheduler.maximum-allocation-mb=8192;
-- yarn.scheduler.minimum-allocation-mb=1024;
--------------------------------------------------- 
-- 堆內存設置要小於物理內存，一般設置為80%
-- set mapreduce.map.java.opts=-Xmx1638m;
-- set mapreduce.reduce.java.opts=-Xmx3278m;
--------------------------------------------------- 
-- Application application_1409135750325_48141 failed 2 times due to AM Container for
-- appattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container
-- [pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.
-- Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of 4.2 GB virtual memory used. Killing container. 
-- #虛擬內存打開：yarn.nodemanager.vmem-check-enabled=true
-- 最大允許使用的虛擬內存=最大可使用的物理內存 * yarn.nodemanager.vmem-pmem-ratio=2.1
-- #物理內存檢查打開：yarn.nodemanager.pmem-check-enabled=true
-- 兩者中有一個超過允許最大內存，此container容器均會被殺
---------------------------------------------------

8.動態分區

set hive.exec.dynamic.partition=true;   
set hive.exec.dynamic.partition.mode=nonstrict;  # 非嚴格模式

9. shuffle端內存溢出oom (BoundedByteArrayOutputStream)

set mapreduce.reduce.shuffle.memory.limit.percent=0.10;

10.map段謂詞下推

set hive.optimize.ppd=true;

11.並行執行

set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=16;   # 並行度

二、hive任務優化

1.分區裁剪

1.查詢涉及分區表時，限制分區範圍
2.使用to_unix_timestamp代替unix_timestamp(),避免全表掃描

2.列裁剪

只讀取查詢中需要用到的列，忽略其他不關心的列
Select * from table_test;
Select field_1,field_2,… from table_test;
Select * 跟select 所有字段是否一樣?(網絡IO，索引)

3.合理設置map、reduce個數

Map數：    splitSize=Math.max(minSize, Math.min(maxSize, blockSize))
reduce數： reducers = Math.min(maxReducers, totalInputFileSize/bytesPerReducer)
# 根據任務運行效率，調整map reduce處理數據量大小

4.group by 優化

set hive.map.aggr=true;
select id,count(1) from test group by id;
set hive.groupby.skewindata = true;
•    先不按GroupBy字段分發，隨機分發做一次聚合
•    額外啟動一輪job，拿前面聚合過的數據按GroupBy字段分發再算結果

5.join優化

大表跟小表之間join時，可打開mapjoin，將小表加載到內存中
set hive.mapjoin.smalltable.filesize   25M
set hive.auto.convert.join = true;
 ps:不能只看文件大小，決定使用使用mapjoin，容易導致OOM(字段、過濾、去重後的記錄數跟文件大小)

--map端join把小表讀入內存
set hive.exec.parallel=true;
select /*+mapjoin(t2)*/
       t1.vendor_cd,
       t2.vendor_cd
from (select vendor_cd
      from tmp_tt
     ) t1
left outer join
     (select vendor_cd
      from tmp_tt
      limit 10
     ) t2
on t1.vendor_cd=t2.vendor_cd
limit 100;

--控制map數，並且用mapjoin實現笛卡爾積
set mapred.reduce.tasks=10;
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;  --不進行小文件合並
set hive.exec.parallel=true;
select /*+mapjoin(t2)*/
       t1.vendor_cd,
       t2.vendor_cd
from (select vendor_cd
      from tmp_tt
      distribute by vendor_cd
     ) t1
left outer join
     (select vendor_cd
      from tmp_tt
      distribute by vendor_cd
     ) t2
limit 100;

6.數據傾斜

--特殊傾斜值的處理（null值很多的時候）
set hive.exec.parallel=true;
select t1.vendor_cd,
       t2.vendor_cd
from (select vendor_cd
      from tmp_tt
     ) t1
left outer join
     (select vendor_cd
      from tmp_tt
     ) t2
on nvl(t1.vendor_cd,concat(‘hive_‘,rand()))=t2.vendor_cd
limit 100;

--當心關聯的類型是否一致,類型不一致可能會導致數據傾斜或者算出意想不到的結果
set hive.exec.parallel=true;
select t1.vendor_cd,
t2.vendor_cd
from (select vendor_cd //int類型
from tmp_tt
) t1
left outer join
(select vendor_cd //string類型
from tmp_tt
) t2
on cast(t1.vendor_cd as string)=t2.vendor_cd
limit 100;

hive參數配置及任務優化

shuff rtu current schedule 輸入 output tar filesize 0.10 一、hive常用參數 0.常用參數 --@Name: --@Description: --@Type:全量加載 --@Author:--- --@

Hive參數配置

tab console put isp 相關 lec sel 大全邏輯 1． Hive 命令行輸入$HIVE_HOME/bin/hive –H 或者 –help可以顯示幫助選項：說明：1、 -i 初始化HQL文件。2、 -e從命令行執行指定的HQL3、 -f 執行HQL

JVM調優之Tomcat啟動參數配置及詳解

.bat xms 是否大堆 pts 啟動參數 spa java permgen 開發項目中會遇到Tomcat內存溢出(java.lang.OutOfMemoryError: PermGen space)的問題，通過查找資料找到是通過設置

HttpClient 4.3連接池參數配置及源碼解讀

efault sgid adapt 讀取輸入 lag 原則機器 syn 因此目前所在公司使用HttpClient 4.3.3版本發送Rest請求，調用接口。最近出現了調用查詢接口服務慢的生產問題，在排查整個調用鏈可能存在的問題時（從客戶端發起Http請求->ES

JVM 參數配置及詳解 -Xms -Xmx -Xmn -Xss 調優總結

同事 turn windows系統程序運行時間 ria 設定是不是 total 適用於堆大小設置 JVM 中最大堆大小有三方面限制:相關操作系統的數據模型(32-bt還是64-bit)限制;系統的可用虛擬內存限制;系統的可用物理內存限制.32位系統下,一般限制在1.

MySQL性能優化-內存參數配置

性能問題體系 .net 協議配置 sort odbc image 分配內存　　Mysql對於內存的使用，可以分為兩類，一類是我們無法通過配置參數來配置的，如Mysql服務器運行、解析、查詢以及內部管理所消耗的內存；另一類如緩沖池所用的內存等。　　Mysql內存參數的

Spark 性能相關參數配置具體解釋－任務調度篇

div 設置宋體速度意義期望簡單的取數據全局作者：劉旭暉 Raymond 轉載請註明出處Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/隨著Spark的逐漸成熟完好, 越來越多的可配置

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

Yarn 內存分配管理機制及相關參數配置

系統如果 ast nod java類其中指定 XML sam 上一篇hive on tez 任務報錯中提到了containter內存不足，現對yarn 內存分配管理進行介紹一、相關配置情況關於Yarn內存分配與管理，主要涉及到了ResourceManage、Ap

hive常用參數配置設置

agg 改變 read path 退出 hbase 修改緩存 mman hive.exec.mode.local.auto 決定 Hive 是否應該自動地根據輸入文件大小，在本地運行（在GateWay運行） true hive.exec.mode.local.au

[Hive_add_8] Hive 常用參數配置

測試 dfs nbsp 記錄 size 模式 pre code shell 0. 說明　　記錄 Hive 常用參數的配置 1. 設置本地模式　　讓 Hive 自動使用 Hadoop 的本地模式運行作業，提升處理性能　　適合小文件，一般用於測試 set h

mysql 通過查看mysql 配置參數、狀態來優化你的mysql

lamp 總數程序 com urg ibdata1 讀取比例新的我把MYISAM改成了INNODB，數據庫對CPU方面的占用變小很多‘ mysql的監控方法大致分為兩類： 1.連接到mysql數據庫內部，使用show status，show variables，

海康、大華網絡攝像機RTSP URL格式組成及參數配置

比較 type udp模式 abc col mark 網絡攝像機圖像質量資料經常有開發者咨詢大牛直播SDK關於海康、大華網絡攝像機RTSP url拼接規則和相關參數配置，雖然很簡單，考慮到資料不全，寫個博客記錄下： 1. 海康攝像機：在IE瀏覽器輸入網絡攝像機的IP地

Jvm參數配置

line 同時存在 sport 先後不想 bsp port src res 一、非穩態選項使用說明 -XX:+<option> 啟用option -XX:-<option> 不啟用option -XX:<option>=<num

kafka參數配置詳解

kafka 參數 broker.idbroker的唯一標識符，如果不配置則自動生成，建議配置且一定要保證集群中必須唯一，默認-1log.dir日誌數據存放的目錄，默認/tmp/kafka-logslog.dirs日誌數據存放的目錄，如果沒有配置則使用log.dir，建議此項配置。zookeeper.c

redis參數配置

strong max 大小 gre limit 說明 prot moni 調度 redis.conf配置文件配置項值說明 slave-read-only yes slave是否只讀 slave-serve-stale-data

SparkStreaming參數配置

property .org intern collect data cell level order ret Property Name Default Meaning spark.streaming.backpressure.enabled f

三極管與MOS管主要參數差別及驅動電路基極（柵極）串聯電阻選取原則

情況電平 sub rac 一個比較 left 電容最大值三極管與MOS管都常在電路中被當做開關使用，比較起來： 1. 三極管集電極電流IC （一般為mA級別），遠小於MOS管ID（一般為A級別），因此MOS管多用在大電流電路中，如電機驅動 2. 三極管耗散功率（一般

Vue 參數傳遞及刷新後依舊存在

sent 多個 com col tar path .... ram ref 獲取參數方式有兩種： 1、params2、query第一種方式： params this.$router.push({name:‘Hello‘,params:{name:‘zs‘,age:‘22‘}

shell函數【參數傳遞及輸入輸出】&內置函數

無效 -s 常見 net 功能出現系統環境 osc 環境 Linux——shell腳本基礎3：shell函數【參數傳遞及輸入輸出】&內置函數函數定義 1 退出狀態 1 參數傳遞 2 標準IO 2 腳本調試 2 AND&OR 3 內置命令補充 3

hive參數配置及任務優化

一、hive常用參數

0.常用參數

1.任務名設置

2.輸入合並參數設置

3.輸出合並參數設置

4.reduce設置

5.mapjoin參數設置

6.map端聚合

7.mapreduce的物理內存、虛擬內存

8.動態分區

9. shuffle端內存溢出oom (BoundedByteArrayOutputStream)

10.map段謂詞下推

11.並行執行

二、hive任務優化

1.分區裁剪

2.列裁剪

3.合理設置map、reduce個數

4.group by 優化

5.join優化

6.數據傾斜

相關推薦