hive實現任務並行執行

阿新 • • 發佈：2019-02-13

hive.exec.parallel引數控制在同一個sql中的不同的job是否可以同時執行,預設為false.
下面是對於該引數的測試過程:

測試sql:
select r1.a
from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 on (r1.a=r2.b);

1
Set hive.exec.parallel=false;
當引數為false的時候,三個job是順序的執行

[html]

view plain copy print?

hive> set hive.exec.parallel=false;
hive> select r1.a
> from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 on (r1.a=r2.b);
Total MapReduce jobs = 3
Launching Job 1 out of 3
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number

>
Cannot run job locally: Input Size (= 397778060) is larger than hive.exec.mode.local.auto.inputbytes.max (= -1)
Starting Job = job_201208241319_2001905, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201208241319_2001905
Kill Command = /dhwdata/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=hdpjt:9001 -kill job_201208241319_2001905
Hadoop job information for Stage-1: number of mappers: 7; number of reducers: 1
2012-09-07 17:55:40,854 Stage-1 map = 0%, reduce = 0%
2012-09-07 17:55:55,663 Stage-1 map = 14%, reduce = 0%
2012-09-07 17:56:00,506 Stage-1 map = 56%, reduce = 0%
2012-09-07 17:56:10,254 Stage-1 map = 100%, reduce = 0%
2012-09-07 17:56:19,871 Stage-1 map = 100%, reduce = 29%
2012-09-07 17:56:30,000 Stage-1 map = 100%, reduce = 75%
2012-09-07 17:56:34,799 Stage-1 map = 100%, reduce = 100%
Ended Job = job_201208241319_2001905
Launching Job 2 out of 3
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Cannot run job locally: Input Size (= 3578060) is larger than hive.exec.mode.local.auto.inputbytes.max (= -1)
Starting Job = job_201208241319_2002054, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201208241319_2002054
Kill Command = /dhwdata/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=hdpjt:9001 -kill job_201208241319_2002054
Hadoop job information for Stage-4: number of mappers: 2; number of reducers: 1
2012-09-07 17:56:43,343 Stage-4 map = 0%, reduce = 0%
2012-09-07 17:56:48,124 Stage-4 map = 50%, reduce = 0%
2012-09-07 17:56:55,816 Stage-4 map = 100%, reduce = 0%
Ended Job = job_201208241319_2002054
Launching Job 3 out of 3
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Cannot run job locally: Input Size (= 596) is larger than hive.exec.mode.local.auto.inputbytes.max (= -1)
Starting Job = job_201208241319_2002120, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201208241319_2002120
Kill Command = /dhwdata/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=hdpjt:9001 -kill job_201208241319_2002120
Hadoop job information for Stage-2: number of mappers: 2; number of reducers: 1
2012-09-07 17:57:12,641 Stage-2 map = 0%, reduce = 0%
2012-09-07 17:57:19,571 Stage-2 map = 50%, reduce = 0%
2012-09-07 17:57:25,199 Stage-2 map = 100%, reduce = 0%
2012-09-07 17:57:29,210 Stage-2 map = 100%, reduce = 100%
Ended Job = job_201208241319_2002120
OK
abcdefghijk_0
abcdefghijk_1
abcdefghijk_2
abcdefghijk_3
abcdefghijk_4
abcdefghijk_5
abcdefghijk_6
abcdefghijk_7
abcdefghijk_8
abcdefghijk_9
Time taken: 135.944 seconds

2
但是可以看出來其實兩個子查詢中的sql並無關係,可以並行的跑

[html] view plain copy print?

hive> set hive.exec.parallel=true;
hive> select r1.a
> from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 on (r1.a=r2.b);
Total MapReduce jobs = 3
Launching Job 1 out of 3
Launching Job 2 out of 3
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Cannot run job locally: Input Size (= 397778060) is larger than hive.exec.mode.local.auto.inputbytes.max (= -1)
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapred.reduce.tasks=<number>
Cannot run job locally: Input Size (= 3578060) is larger than hive.exec.mode.local.auto.inputbytes.max (= -1)
Starting Job = job_201208241319_2001452, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201208241319_2001452
Kill Command = /dhwdata/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=hdpjt:9001 -kill job_201208241319_2001452
Starting Job = job_201208241319_2001453, Tracking URL = http://hdpjt:50030/jobdetails.jsp?jobid=job_201208241319_2001453
Kill Command = /dhwdata/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=hdpjt:9001 -kill job_201208241319_2001453
Hadoop job information for Stage-4: number of mappers: 2; number of reducers: 1
Hadoop job information for Stage-1: number of mappers: 7; number of reducers: 1
2012-09-07 17:52:10,558 Stage-4 map = 0%, reduce = 0%
2012-09-07 17:52:10,588 Stage-1 map = 0%, reduce = 0%
2012-09-07 17:52:22,827 Stage-1 map = 14%, reduce = 0%
2012-09-07 17:52:22,8

hive實現任務並行執行

hive.exec.parallel引數控制在同一個sql中的不同的job是否可以同時執行,預設為false. 下面是對於該引數的測試過程: 測試sql: select r1.a from (select t.a from sunwg_10 t join sunwg_1

[Hive]Hive調優：讓任務並行執行

業務背景 extract_trfc_page_kpi的hive sql如下： set mapred.job.queue.name=pms; set hive.exec.reducers.max=8; set mapred.reduce.tasks=8; se

quartz任務排程框架實現任務定時執行，不傳參的配置（一）

quartz是一個任務排程框架，可以用它來實現一些需要定時執行的任務。本次實現的是spring配置整合quartz 1.配置如下：目標bean和bean中的方法需要自己定義，這個方法就是要執行

Jenkins 在聲明式 pipeline 中並行執行任務

方式實例代碼任務 span 使用 images 代碼依賴關系 step 在持續集成的過程中，並行的執行那些沒有依賴關系的任務可以縮短整個執行過程。Jenkins 的 pipeline 功能支持我們用代碼來配置持續集成的過程。本文將介紹在 Jenkins 中使用聲明式

PowerShell 並行執行任務

esp div 一起非阻塞對象流程 ps1 重要 host 在 PowerShell 中可以輕松的執行後臺任務並且讓多個後臺任務並行執行。本文介紹 PowerShell 中 Job 相關的一些命令，並通過 demo 演示如何在後臺同時執行多個任務。 PowerShel

利用gevent實現異步執行任務

實現python 異步執行import gevent def task(pid): gevent.sleep(2) print ("task %s done"%pid) def asynchronous(): threads = [gevent.spawn(tas

基於MVC 的Quartz.Net組件實現的定時執行任務調度

創建 .get 關系成了 star +++ rep 清除 pub 新建mvc項目之後，首先引用Quartz組件。工具-->NuGet包管理器-->管理解決方案的 NuGet包管理器組件安裝完成。 Quartz.Net一個最簡單任務至少包括三部分實現：

Jenkins pipeline 並行執行任務流

logs inux st2 stage1 聲明 master src demo usb 筆者在《Jenkins 在聲明式 pipeline 中並行執行任務》一文中介紹了如何在聲明式 pipeline 中執行並行的任務。前一段時間，Jenkins 發布了 1.3 版的聲明式

spring註解 @Scheduled(cron = "0 0 1 * * *")實現定時的執行任務

@Scheduled(cron = "0 0 1 * * *") 在使用該註解以前請做好以下準備工作，配置好相應的xm檔案。配置定時註解的步驟：http://blog

hive並行執行作業；強化在腦海的印象

獨立如果 lse 集群 hive key 執行圖片 class 如果集群資源充足可以設置：set hive.exec.parallel=true; （默認是false）這樣相互獨立的job可以並行執行！！！！ hive並行執行作業；強化在腦海的印象

並行執行任務

最近在寫一些powershell指令碼時候遇到一個問題，那就是要解壓十幾個zip檔案，這樣僅執行完解壓操作差不多5min的時間就過去了，嚴重影響了效率，這時就想到了使用多執行緒的方法來執行這個解壓操作，經過學習瞭解到powershell提供了一個Start-Job命令來實現並行執行。接下來對這個命令做一個總結

Activiti 使用者任務並行動態多例項(多使用者執行流程)

在很多情況下，我們需要多使用者共同執行餘下流程，比如開會流程：領導發起開會，選擇開會人員(多個) 每個開會人員接收到通知後需要簽到(一名使用者簽到不會影響到另一位使用者的簽到) 簽到完成後則流程結束如果只使用代理(Assignee、Candidate users、Candidate groups) 將

Linux 自動任務一行命令實現隔天執行

最近有個需求，有些任務需要兩天執行一次，如果使用crontab 把日除以2，並不能實現隔天執行，而只是 1、3、5、……31 然後1號還會再執行，無意間再百度的一個回答離看到了巧妙解決的答案。如下（假

Jenkins 在宣告式 pipeline 中並行執行任務

pipeline { agent any stages { stage('Stage1') { agent { label "test1" } steps { timestamps {

純JAVA實現Online Judge--5.並行執行

前言如果一道題目有5份（輸入+輸出為一份）測試資料，對於一份使用者的程式碼，如果序列的執行（假設每一份執行平均要500毫秒），那麼5份的話就需要2.5秒了。但是，如果我們採用並行的方式的話，則只需要500毫秒（實際上會多一點）就可以了。但是，因為每個執行緒執行的使

關於Java Web 使用Spring中使用Quartz(定時呼叫、實現固定時間執行)，觸發定時器（執行某些任務）的例項

第一步：pom.xml中Maven下載需要的jar架包。  <dependency> <grou

java併發程式設計——Future實現“任務的提交”與 "任務的執行"相分離

本文轉自老馬程式設計 Java併發包提供了一套框架，大大簡化了執行非同步任務所需的開發，本節我們就來初步探討這套框架。在之前的介紹中，執行緒Thread既表示要執行的任務，又表示執行的機制，而這套框架引入了一個”執行服務”的概念，它將”任務的提交”和”任務

spring註解 @Scheduled(cron = "0 0 1 * * *")的使用來實現定時的執行任務

<span style="font-size:14px;">初次接觸定時類的小程式，還是走了很多的彎路，如今終於搞定了，總結如下：</span><span style="font-size:14px;">import com.activi

java多執行緒實現任務超時監聽

在實際的開發過程當中，會遇到這樣的需求：某些功能為了防止系統掛死，需要進行時間控制，超過一定的執行時間，就提示任務執行超時，不再繼續執行該任務，從而保證系統健壯性和穩定性。其實仔細想想，我們可以把這樣的需求，全部歸結為一種“超時控制的業務模型”，建立起自己熟悉的業務模型，以

Java—實現每天定時執行任務

1、定義TimerManager類 import java.util.Calendar; import java.util.Date; import java.util.Timer; /** * java定時任務，每天定時執行任務 * @

hive實現任務並行執行

相關推薦