Hadoop MapReduce中map任務數量設定詳解

阿新 • • 發佈：2018-12-10

首先注意的是在Hadoop Streaming 中可以通過-D mapred.map.tasks=（你想要設定的map數量）來確定map任務的個數，

goal_num = mapred.map.tasks

但是這裡需要注意的是，只有在這個值大於hadoop中計算的默認個數default_num的時候才會有效，默認個數的計算方式如下：

default_num = total_size / block_size;

此外，可以通過改變mapred.min.split.size設定每個task處理檔案的大小，但是隻有在這個值大於block_size時才會生效

split_size= max (mapred.min.split.size,block_size)

split_num = total_size /split_size

在計算map的個數時：

compute_map_num = min(split_num ,max (default_num,goal_num))//

這裡可以看出split_num <= default_num,所以上述值其實就為split_num,

整理一下：

split_num 肯定會小於或等於預設的分塊大小，即：split_num <=default_num

而當期望的map個數goal_num > default>num時才會有用

個人認為compute_num該這麼取 compute_num = max（min(split_num,default_num),goal_num）

除了這些配置以外，mapreduce還要遵循一些原則。 mapreduce的每一個map處理的資料是不能跨越檔案的，也就是說min_map_num >= input_file_num。所以，最終的map個數應該為：

final_map_num = max(compute_map_num, input_file_num)

總結：在設定map個數的時候，可以簡單的總結為以下幾點：

（1）如果想增加map個數，則設定mapred.map.tasks 為一個較大的值。

（2）如果想減小map個數，則設定mapred.min.split.size 為一個較大的值。

（3）如果輸入中有很多小檔案，依然想減少map個數，則需要將小檔案merger為大檔案，然後使用準則2。

Hadoop MapReduce中map任務數量設定詳解

首先注意的是在Hadoop Streaming 中可以通過-D mapred.map.tasks=（你想要設定的map數量）來確定map任務的個數， goal_num = mapred.map.tasks 但是這裡需要注意的是，只有在這個值大於hadoop中計算的默認個

MapReduce中map任務個數的確定

在map階段讀取資料前，FileInputFormat會將輸入檔案分割成split。split的個數決定了 map的個數。影響map個數，即split個數的因素主要有： 1）HDFS塊的大小，即HDFS中dfs.block.size的值。如果有一個輸入檔

C++中map容器的用法詳解

Map是STL的一個關聯容器，它提供一對一（其中第一個可以稱為關鍵字，每個關鍵字只能在map中出現一次，第二個可能稱為該關鍵字的值）的資料處理能力，由於這個特性，它完成有可能在我們處理一對一資料的時候，在程式設計上提供快速通道。這裡說下map內部資料的組織，map內部自建一

Linux計劃任務crontab設定詳解

crontab檔案的格式： minute hour day month weekday username command minute：分，值為0-59 hour：小時，值為1-23 day：天，值為1-31 month：月，值為1-12 weekday：星期，值為0-6（0代表星期天，1代表星期一，以此類推

MapReduce之reducer任務執行流程詳解

第一階段是 Reducer 任務會主動從 Mapper 任務複製其輸出的鍵值對。Mapper 任務可能會有很多，因此 Reducer 會複製多個 Mapper 的輸出。第二階段是把複製到 Reducer 本地資料，全部進行合併，即把分散的資料合併成一個大的資料。再對合並後的資

mapreduce中map和reduce的最大併發數量設定

reduce數量究竟多少是適合的。目前測試認為reduce數量約等於cluster中datanode的總cores的一半比較合適，比如cluster中有32臺datanode,每臺8 core，那麼reduce設定為128速度最快。因為每臺機器8 core，4個作m

MapReduce 中 map 分片大小確定和map任務數的計算

Hadoop中在計算一個JOB需要的map數之前首先要計算分片的大小。計算分片大小的公式是： goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitS

MapReduce中job引數及設定map和reduce的個數

map的個數在map階段讀取資料前，FileInputFormat會將輸入檔案分割成split。split的個數決定了 map的個數。影響map個數，即split個數的因素主要有： 1）HDF

Hadoop舊mapreduce的map任務切分原理

前言最近在工作過程中接觸一些Hive資料倉庫中的表，這些表實際是從關係型資料庫通過Sqoop抽到Hive的。在開發過程中對map任務的劃分進行效能調優，發現mapreduce中關於FileInputFormat的引數調整都不起作用，最後發現這些老任務都是用舊版的mapredu

Hadoop Job 中 Map 與 Reduce 數量控制

在Hadoop 中提交的job 時常需要對其執行時的map task 和reduce task數量進行控制，reduce的數量可以通過setNumReduceTasks() 函式簡單設定，但map task 數量並不簡單由 setNumMapTasks() 控制

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

mapreduce中map數的測試

1.5 nbsp 啟動小時修改 cor core mar 並行默認的map數是有邏輯的split的數量決定的，根據源碼切片大小的計算公式：Math.max(minSize, Math.min(maxSize, blockSize))；其中： minsize：默認值：

mapreduce中map和reduce個數

case when 生成 task 輸入 slots align reducer 進行很多一、控制hive任務中的map數: 1. 通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的文件總個數，input的

Hive執行中map的數量和reduce的數量怎麼控制

一、控制hive任務中的map數: 通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的檔案總個數，input的檔案大小，叢集設定的檔案塊大小(目前為128M, 可在hive中通過set dfs.block.size;命令檢視到

Java集合中List,Set以及Map等集合體系詳解(史上最全)

概述: List , Set, Map都是介面，前兩個繼承至Collection介面，Map為獨立介面 Set下有HashSet，LinkedHashSet，TreeSet List下有ArrayList，Vector，LinkedList Map下有Ha

Hadoop2.6.0的FileInputFormat的任務切分原理分析（即如何控制FileInputFormat的map任務數量）

前言首先確保已經搭建好Hadoop叢集環境，可以參考《Linux下Hadoop叢集環境的搭建》一文的內容。我在測試mapreduce任務時，發現相比於使用Job.setNumReduceTasks(int)控制reduce任務數量而言，控制map任務數量一直是一個困擾我的

php中幾種常見安全設定詳解

php中幾種常見安全設定詳解另外，目前鬧的轟轟烈烈的SQL Injection也是在PHP上有很多利用方式，所以要保證安全，PHP程式碼編寫是一方面，PHP的配置更是非常關鍵。我們php手手工安裝的，php的預設配置檔案在 /usr/local/apache2/conf/ph

MySQL中外來鍵設定詳解

例項一: 4.1 CREATE TABLE parent(id INT NOT NULL, PRIMARY KEY (id) ) TYPE=INNODB; -- type=innodb 相當於 engine=innodb CR

Java虛擬機器（JVM）中的記憶體設定詳解

在一些規模稍大的應用中，Java虛擬機器（JVM）的記憶體設定尤為重要，想在專案中取得好的效率，GC（垃圾回收）的設定是第一步。 PermGen space：全稱是Permanent Generation space.就是說是永久儲存的區域,用於存放Class和Meta資

使用docker run的選項以覆蓋Dockerfile中的設定詳解

通常，我們首先定義Dockerfile檔案，然後通過docker build命令構建得到映象檔案。然後，才能夠基於映象檔案通過docker run啟動一個容器的例項。那麼在啟動一個容器的時候，就可以改變映象檔案中的一些引數，而映象檔案中的這些引數往往是通過Dockerfi

Hadoop MapReduce中map任務數量設定詳解

相關推薦