hadoop的三種任務排程的原理

阿新 • • 發佈：2019-01-22

Hadoop調優方式

一個MapRedcue作業是通過JobClient向master的JobTracker提交的（JobTracker一直在等待JobClient通過RPC協議提交作業），JobTracker接到JobClient的請求後把其加入作業佇列中。

Datanode節點的TaskTracker一直通過RPC向JobTracker傳送heartbeat詢問有沒有任務可做，如果有則讓其派發任務過來，TaskTracker在其本地發起Task,執行任務。

注：RPC（Remote Procedure Call Protocol）——遠端過程呼叫協議，它是一種通過網路從遠端計算機程式上請求

服務，而不需要了解底層網路技術的協議。

Hadoop Job Scheduler作業排程器，常見的有三種：

預設排程演算法

預設排程演算法FIFO 佇列策略

計算能力排程演算法Capacity Scheduler(Yahoo 開發)

公平份額排程演算法Fair Scheduler(Facebook開發)

一、FIFO先進先出：

·預設排程演算法

·所有使用者的作業都被提交到一個佇列中，然後由JobTracker先按照作業的優先順序高低，再按照作業提交時間的先後順序選擇將被執行的作業。

·優點:
排程演算法簡單，JobTracker工作負擔輕。
·缺點:
忽略了不同作業的需求差異。例如如果類似對海量資料進行統計分析的作業長期佔據計算資源，那麼在其後提交的互動型作業有可能遲遲得不到處理，從而影響到使用者的體驗。

二、Capacity Scheduler計算能力排程演算法：

·由雅虎提出的作業排程演算法

·Capacity Scheduler中可以定義多個作業佇列(multiple queues)，作業提交時將直接放入到一個佇列中，每個佇列中採用的排程策略是FIFO演算法。

·每個佇列都可以通過配置獲得一定數量的tasktracker資源用於處理map/reduce操作，排程演算法將按照配置檔案為佇列分配相應的計算資源量。

·該排程預設情況下不支援優先順序，但是可以在配置檔案中開啟此選項，如果支援優先順序，排程演算法就是帶有優先順序的FIFO。
·不支援優先順序搶佔，一旦一個作業開始執行，在執行完之前它的資源不會被高優先順序作業所搶佔。

·對佇列中同一使用者提交的作業能夠獲得的資源百分比進行了限制以使同屬於一使用者的作業不能出現獨佔資源的情況。

Capacity Scheduler記憶體管理

·Capacity Scheduler能有效地對hadoop叢集的記憶體資源進行管理，以支援記憶體密集型應用。作業對記憶體資源需求高時，排程演算法將把該作業的相關任務分配到記憶體資源充足的task tracker上。

·在作業選擇過程中，Capacity Scheduler會檢查空閒task tracker上的記憶體資源是否滿足作業要求。task tracker上的空閒資源(記憶體)數量值可以通過task tracker的記憶體資源總量減去當前已經使用的記憶體數量得到，而後者包含在tasktracker向job tracker傳送的週期性心跳資訊中。·關於記憶體排程的相關引數可以通過配置檔案來設定。
配置Capacity Scheduler

1、cd $HADOOP_HOME/contrib/capacity-scheduler

複製hadoop-capacity-scheduler-0.20.2-cdh3u2.jar

到$HADOOP_HOME/lib 下

2、修改$HADOOP_HOME/conf下mapred-site.xml，增加

<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>
</property>
<property>
<name>mapred.queue.names</name>
<value>default,langsin</value>
</property>

3、修改$HADOOP_HOME/conf下capacity-scheduler.xml，增加屬性如下：

<property>

    <name>mapred.capacity-scheduler.queue.default.capacity</name>

    <value>100</value>

</property>

………….

<property>

    <name>mapred.capacity-scheduler.queue.langsin.capacity</name>

    <value>100</value>

</property>

選擇佇列

set mapred.job.queue.name=langsin;

三、公平排程演算法Fair Scheduler

—提出背景 —Facebook要處理生產型作業(資料統計分析,hive)、大批處理作業(資料探勘、機器學習)、小型互動型作業(hive查詢)。 —不同使用者提交的作業型在計算時間、儲存空間、資料流量和響應時間上都有不同需求。 —為使hadoopmapreduce框架能夠應對多種型別作業並行執行，使得使用者具有良好的體驗，Facebook公司提出該演算法。

三、公平排程演算法Fair Scheduler

Fair Scheduler排程中，只有一個作業執行時，它將獨佔叢集所有資源。有其他作業被提交時就會有TaskTracker被釋放並分配給新提交的作業，以保證所有的作業都能夠獲得大體相同的計算資源。

·作業池

·使用者提交的作業將會放進一個能夠公平共享資源的pool(池)中。

·每個作業池設定了一個最低資源保障(a guaranteed minimum share)，當一個池中包含job時，它至少可以獲得minimum share的資源——最低保障資源份額機制。

·池中的作業獲得一定份額的資源。

·可以通過配置檔案限制每個池中的作業數量。

·預設情況下，每個作業池中選擇將要執行的作業的策略是FIFO策略，先按照優先順序高低排序，然後再按照提交時間排序。

·作業和作業池的權值weight

·預設情況下，FairScheduler會為每一個使用者建立一個單獨的pool。所有使用者能夠獲得等量的資源份額而無論他提交了多少作業，而每個pool中，各個作業將平分分配給所在池的資源。
·實際應用中，無論是作業池還是作業，都被賦予一定的權值，並以此為依據獲得相應比例的資源。這種情況下，作業池和作業在資源分配時不是嚴格的平均分配，但這有利於根據作業的重要程度及實際需求合理分配資源
·Deficit(赤字,不足)

·FairScheduler為每個作業定義了一個deficit(赤字)指標。

·Deficit是一個作業在理想情況下的獲得的計算資源和實際中獲得的計算資源之間的差距。

·FairScheduler會每隔幾百毫秒觀察每個作業中有多少任務已經在這個時間間隔內執行，並將結果與它應得的資源份額比較，以更新該作業的deficit值。一旦有空閒的task tracker出現，首先分配給當前具有最高deficit值的作業。

·例外——如果系統中存在著尚未獲得最低資源保障的作業池，那麼該池中的作業將會優先排程，而選擇池中的作業需要根據它們的deficit來決定。這樣做是為了儘可能滿足作業池最低保障資源份額的機制。

配置Fair Scheduler

1、cd $HADOOP_HOME/contrib/fairscheduler

cp*.jar $HADOOP_HOME/lib/

一般版本里，lib下包含這個包。

2、修改mapred-site.xml 增加如下：

<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>

<property>

<name>mapred.fairscheduler.allocation.file</name> <value>$HADOOP_HOME/conf/fair-scheduler.xml</value>

</property>



<property>
<name>mapred.queue.names</name>
<value>default,langsin</value>
</property>

3、修改$HADOOP_HOME/conf下fair-scheduler.xml
<pool name="default">
<minMaps>9</minMaps>
<minReduces>2</minReduces>
<maxRunningJobs>20</maxRunningJobs>
<weight>1.0</weight>
<minSharePreemptionTimeout>30</minSharePreemptionTimeout>
</pool>

<pool name=“langsin">
<minMaps>90</minMaps>
<minReduces>20</minReduces>
<maxRunningJobs>20</maxRunningJobs>
<weight>2.0</weight>
<minSharePreemptionTimeout>30</minSharePreemptionTimeout>
</pool>

hadoop的三種任務排程的原理

Hadoop調優方式一個MapRedcue作業是通過JobClient向master的JobTracker提交的（JobTracker一直在等待JobClient通過RPC協議提交作業），JobTracker接到JobClient的請求後把其加入作業佇列中。 Dat

httpd三種MPM的原理剖析

LVS三種模式及原理

普通 rect 擴展性 dns psu 更多協議 solar 負載 LVS-NAT模式： LVS-DR模式： LVS-TUN模式：一、Virtual server via NAT（VS-NAT）優點：集群中的物理服務器可以使用任何支持TCP/IP操作系統，物理服務器可以

Spring之——兩種任務排程Scheduled和Async

轉載請註明出處:http://blog.csdn.net/l1028386804/article/details/72494169 1、Spring排程的兩種方式 Spring提供了兩種後臺任務的方法,分別是: 排

SQL Server三種表連線原理

在SQL Server資料庫中，查詢優化器在處理表連線時，通常會使用一下三種連線方式：巢狀迴圈連線（Nested Loop Join）合併連線（Merge Join） Hash連線（Hash Join）

面試題：清除浮動的三種方式及其原理

清除浮動的三種方式及其原理浮動元素的特性浮動元素脫離文件流，不佔據空間。浮動元素碰到包含它的邊框或者浮動元素的邊框停留。浮動元素帶來的問題因為浮動元素脫離文件流，所以對於其處於正常文件流中父元素，無法獲知其高度，導致父元素自身的高度塌陷（失去浮動元素佔據

定時任務知多少（三）——任務排程的叢集方案

Quartz是Java領域最著名的開原任務排程工具。Quartz提供了即為廣泛的特性，如前文講的持久化任務、本文將要介紹的叢集，以及分散式任務等等。Quartz有完全由Java編寫，方面整合Spring；伸縮性、負載均衡和高可用的特點。 Quartz叢集部署 Quartz

Java模擬最短作業優先、時間片輪轉、最高響應比三種程序排程演算法

本次試驗是使用程式來模擬作業系統中程序排程的三種不同的排程策略，分別為最短作業有限、時間片輪轉、最高響應比。模擬的情況下，程序數為8，程序所需執行時間為隨機產生的整數，單位為1S，預設程序同時到達。以下是實驗的程式碼： Process.java是測試類，用於生成程序列表

4種任務排程java實現

前言任務排程是指基於給定時間點，給定時間間隔或者給定執行次數自動執行任務。本文由淺入深介紹四種任務排程的 Java 實現： Timer ScheduledExecutor 開源工具包 Quartz 開源工具包 JCronTab 此外，為結合實現複雜的任務排程，本文還將介紹 Calendar 的一些使

Nested loops、Hash join、Sort merge join（三種連線型別原理、使用要點）

nested loop 巢狀迴圈（原理）： oracle從較小結果集（驅動表、也可以被稱為outer）中讀取一行，然後和較大結果集（被偵查表，也可以叫做inner）中的所有資料逐條進行比較（也是等值連線，也可以是非等值連線），如果符合規則，就放在結果集中，然後取驅動表的下一

理解Android多執行緒裡面三種任務Runnable和Callable和FutureTask的用法

理解三種任務Runnable和Callable和FutureTask的用法 1.Runnable 和Callable和FutureTask的區別相同點：都屬於執行緒池中要被執行的任務; 不同點： Runnable是無返回值的任務,可以線上程中使用 Callable是有返回

javaWeb--Servlet----簡述，三種實現方式原理

一、servlet概述 1、每個servlet都像是10086的話務員，但是每個servlet都是唯一的，他們能處理的請求是不同的。servlet的作用：接收請求資料，處理請求，完成響應。 2、Servlet類由我們來寫，但物件由伺服器來建立，並且由伺服器來

Android三種動畫實現原理及使用

Android動畫目前分為三種：Frame Animation 幀動畫，通過順序播放一系列影象從而產生動畫效果，。圖片過多時容易造成OOM（Out Of Memory記憶體用完）異常。Tween Animation 補間動畫（又叫view動畫），是通過對場景裡的物件不斷做影象

uC／OS—lI的任務排程原理

參考文獻《嵌入式實時系統I-IC／OS—lI的任務排程原理》崔志明，崔志能寫的很明白。下面是簡單的總結。一個任務，也稱做一個執行緒，是一個簡單的程式。每個任務都是整個應用的某一部分，每個任務被賦予一定的優先順序，有它自己的一套CPU暫存器和自己的棧空間。一般來說。任務通

LVS三種工作模式原理

跟VS/TUN方法相同，VS/DR利用大多數Internet服務的非對稱特點，負載排程器中只負責排程請求，而伺服器直接將響應返回給客戶，可以極大地提高整個集群系統的吞吐量。該方法與IBM的NetDispatcher產品中使用的方法類似，但IBM的NetDispatcher是非常昂貴的商品化產品，我們也不知

LVS 三種工作模式原理、以及優缺點比較

一、NAT模式（VS-NAT）　　原理：　　就是把客戶端發來的資料包的IP頭的目的地址，在負載均衡器上換成其中一臺RS的IP地址，併發至此RS來處理,RS處理完成後把資料交給經過負載均衡器,負載均衡器再把資料包的原IP地址改為自己的IP，將目的地址改為客戶端IP地

幾種任務排程的 Java 實現方法與比較

簡介：綜觀目前的 Web 應用，多數應用都具備任務排程的功能。本文由淺入深介紹了幾種任務排程的 Java 實現方法，包括 Timer，Scheduler, Quartz 以及 JCron Tab，並對其優缺點進行比較，目的在於給需要開發任務排程的程式設計師提供

ucosii的任務排程原理(文章來自百度)

1. 任務切換由作業系統自動完成，切換工作是由軟體來完成主要功能，例如上下文的切換；還有部分工作由硬體來完成，例如通過中斷返回指令切換時硬體來完成程式暫存器等的恢復，所以它是架構相關部分，需要移植。而系統節拍只是觸發切換的一個事件，除此之外延時、中斷、任務阻塞等都可以直接導致任務的切換。 2. 一般通過一個

springboot整合elasticJob實戰(純代碼開發三種任務類型用法)以及分片系統詳解

oid frame ima 時間設置 curator onclick 支持 pen 博客搭建一 springboot整合介紹就不多說了,只有這個框架是當當網開源的,支持分布式調度,分布式系統中非常合適(兩個服務同時跑不會重復,並且可靈活配置分開分批處理數據,賊方便)!

Hadoop的三種排程器

（1）FIFO Scheduler 將所有的Applications放到佇列中，先按照作業的優先順序高低、再按照到達時間的先後，為每個app分配資源。如果第一個app需要的資源被滿足了，如果還剩下了資源並且滿足第二個app需要的資源，那麼就為第二個app分配資源，and so on。

hadoop的三種任務排程的原理

Hadoop調優方式

Hadoop Job Scheduler作業排程器，常見的有三種：

相關推薦