Hadoop作業JVM堆優化彙總及JVM複用

阿新 • • 發佈：2019-02-10

問題導讀：
1.mapred.child.java.opts是用來做什麼的？
2.如何讓mapred.child.java.opts的值不能隨便修改？
3.通過什麼引數可以配置作業的Map和Reduce階段的heap的大小？
4.mapreduce.admin.map.child.java.opts和mapreduce.admin.reduce.child.java.opts的作用是什麼？
5.JVM複用的目的是什麼？

前段時間，公司Hadoop叢集整體的負載很高，查了一下原因，發現原來是客戶端那邊在每一個作業上擅自配置了很大的堆空間，從而導致叢集負載很高。下面我就來講講怎麼來現在客戶端那邊的JVM堆大小的設定。

我們知道，在mapred-site.xml配置檔案裡面有個mapred.child.java.opts配置，專門來配置一些諸如堆、垃圾回收之類的。看下下面的配置：

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx200m</value>
<description>Java opts for the task tracker child processes.
The following symbol, if present, will be interpolated: @

[email protected] is
replaced by current TaskID. Any other occurrences of '@' will go unchanged.
For example, to enable verbose gc logging to a file named for the taskid in
/tmp and to set the heap maximum to be a gigabyte, pass a 'value' of:
-Xmx1024m -verbose:gc -Xloggc:/tmp/@[email protected]
The configuration variable mapred.child.ulimit can be used to control the
maximum virtual memory of the child processes.
</description>
</property>

複製程式碼
預設情況下，-Xmx都是配置200m的，但是在實際情況下，這個顯然是不夠用的，所以導致客戶端那邊會設定更大的值。那怎麼來限制使用者隨便設定Xmx的值呢？有下面兩種方法：

一、可以自己定義一個變數，比如如下：

<property>
<name>mapred.task.java.opts</name>
<value>-Xmx2000m</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>${mapred.task.java.opts} -Xmx1000m</value>
<final>true</final>
</property>

複製程式碼
上面的mapred.task.java.opts屬性是我們自己定義的，可以公佈給使用者配置；然後在mapred.child.java.opts中獲取到mapred.task.java.opts的值，同時mapred.child.java.opts屬性的final被設定為true，也就是不讓客戶修改。所以使用者對mapred.child.java.opts直接配置是無效的；而且這裡我們在獲取${mapred.task.java.opts}之後再添加了-Xmx1000m，而在Java中，如果相同的jvm arg寫在一起，比如”-Xmx2000m -Xmx1000m”，後面的會覆蓋前面的，也就是說最終“-Xmx1000m”才會生效，通過這種方式，我們就可以有限度的控制客戶端那邊的heap size了。同樣的道理，其他想覆蓋的引數我們也可以寫到後面。

我們可以通過

<property>
  <name>mapred.map.child.java.opts</name>
  <value>
   -Xmx512M
  </value>
</property>
<property>
  <name>mapred.reduce.child.java.opts</name>
  <value>
   -Xmx1024M
  </value>
</property>
複製程式碼來分別配置作業的Map和Reduce階段的heap的大小。

二、通過mapreduce.admin.map.child.java.opts和和mapreduce.admin.reduce.child.java.opts設定
上述限制客戶端那邊隨便設定堆大小是通過重新定義一個變數給使用者使用，這樣使用者得使用新的變數來定義一些JVM相關的設定，如果使用者那邊的指令碼非常多，他們就需要一個一個指令碼的修改mapred.child.java.opts為mapred.task.java.opts。這樣會很不方便。

這裡介紹另外一種方法。可以通過mapreduce.admin.map.child.java.opts和mapreduce.admin.reduce.child.java.opts來限定作業map和reduce的堆的大小。他們都是管理員設定的map/reduce階段申請的container的預設JVM啟動引數。啟動container的命令列會先連線管理員設定引數，然後再連線使用者設定引數。我們來看看Hadoop原始碼是怎麼獲取客戶端和管理員JVM引數的獲取的：

private static String getChildJavaOpts(JobConf jobConf, boolean isMapTask) {
String userClasspath = "";
String adminClasspath = "";
if (isMapTask) {
userClasspath =
jobConf.get(
JobConf.MAPRED_MAP_TASK_JAVA_OPTS,
jobConf.get(
JobConf.MAPRED_TASK_JAVA_OPTS,
JobConf.DEFAULT_MAPRED_TASK_JAVA_OPTS)
);
adminClasspath =
jobConf.get(
MRJobConfig.MAPRED_MAP_ADMIN_JAVA_OPTS,
MRJobConfig.DEFAULT_MAPRED_ADMIN_JAVA_OPTS);
} else {
userClasspath =
jobConf.get(
JobConf.MAPRED_REDUCE_TASK_JAVA_OPTS,
jobConf.get(
JobConf.MAPRED_TASK_JAVA_OPTS,
JobConf.DEFAULT_MAPRED_TASK_JAVA_OPTS)
);
adminClasspath =
jobConf.get(
MRJobConfig.MAPRED_REDUCE_ADMIN_JAVA_OPTS,
MRJobConfig.DEFAULT_MAPRED_ADMIN_JAVA_OPTS);
}
// Add admin classpath first so it can be overridden by user.
return adminClasspath + " " + userClasspath;
}

複製程式碼
通過上面的程式碼，我們可以發現Hadoop是先獲取管理員的JVM引數配置，然後連線客戶端那邊JVM引數的配置。這樣如果管理員那邊的配置在客戶端那邊也配置了，那麼客戶端這邊的配置將會覆蓋掉管理員那邊的引數配置。所以我們可以修改原始碼，將 return adminClasspath + ” ” + userClasspath;修改為 return userClasspath + ” ” + adminClasspath;然後在mapred-site.xml檔案做如下配置：

<property>
<name>mapreduce.admin.map.child.java.opts</name>
<value>-Xmx1000m</value>
</property>
<property>
<name>mapreduce.admin.reduce.child.java.opts</name>
<value>-Xmx1000m</value>
</property>

複製程式碼
這樣，我們就可以覆蓋客戶端那邊的配置。

總結
上面兩種方法雖然能在一定程度上限制客戶端使用堆的大小，但是這樣的解決辦法不是很好的！因為我們設定所有作業的堆大小都是1000M，但是實際情況下，很多作業不一定都用得到1000M；而且在一些情況下，有些作業用到的heap可能大於1000M，這樣會使這樣的作業出現OOM的問題。

這裡找到了另外一篇做一下對比：

前一陣子發現使用者提交的hive query和hadoop job會導致叢集的load非常高，經檢視配置，發現很多使用者擅自將mapred.child.java.opts設定的非常大，比如-Xmx4096m(我們預設設定是-Xmx1024m), 導致了tasktracker上記憶體資源耗盡，進而開始不斷swap磁碟上資料，load飆升。

TaskTracker在spawn一個map/reduce task jvm的時候，會根據使用者JobConf裡面的值設定jvm的引數，然後寫入一個taskjvm.sh檔案中，然後呼叫linux命令"bin/bash -c taskjvm.sh"來執行task，mapred.child.java.opts就是設定jvm的引數之一，在新版本中已經標註Deprecateded，取而代之的是區分Map task和Reduce task的jvm opts，mapred.map.child.java.opts和mapred.reduce.child.java.opts(預設值為-Xmx200m)

當用戶在不設該值情況下，會以最大1G jvm heap size啟動task，有可能導致OutOfMemory，所以最簡單的做法就是設大引數，並且由於這個值不是final，所以使用者在自己的mapred-site.xml中可以覆蓋預設值。但是如果很多使用者都無限度設定的話，high load問題就來了。

其實在構造JVM Args的過程中，是有另外一個admin引數可以覆蓋使用者端設定的mapreduce.admin.map.child.java.opts, mapreduce.admin.reduce.child.java.opts
經測試，如果相同的jvm arg如果寫在後面，比如"-Xmx4000m -Xmx1000m"，後面的會覆蓋前面的，“-Xmx1000m”會最終生效，通過這種方式，我們就可以有限度的控制heap size了

最終在mapred-site.xml中加上

<property>
<name>mapreduce.admin.map.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
<property>
<name>mapreduce.admin.reduce.child.java.opts</name>
<value>-Xmx1536m</value>
</property>

複製程式碼

構造child java opts的call stack:

不過這種方式只是限定了task的jvm heap最大限制，如果使用者hive query優化不夠好還是會丟擲OOM，其實是把問題拋給了使用者，接下來還要和使用者一起看下到底是哪些query會佔用如此大memory，看看有沒有進一步優化的空間

JVM還可以複用，這樣對於小檔案，可以避免資源浪費

Hadoop預設為每個task（map task 或者 reduce task）啟動一個jvm。
鑑於目前小檔案過多的問題，設定了jvm複用，即一個job內，多個task共享jvm，避免多次啟動jvm，浪費資源和時間。
測試Job資訊：
map：4715個
reduce：20個
input： 34G
output: 25G
優化前：1464 s
優化後：1375 s
Job執行時間減少 6%
CPU使用率情況：
*注意: mapred.job.reuse.jvm.num.tasks這個引數是客戶端引數，修改不需要重啟tasktracker，可以在提交job的shell或者程式碼中設定。

Hadoop作業JVM堆優化彙總及JVM複用

Hadoop作業JVM堆優化彙總及JVM複用

Java鎖優化思路及JVM實現

Hadoop Map&Reduce個數優化設定以及JVM重用

hadoop作業調優引數整理及原理（整個mapreduce執行流程都講的清楚，一步一步優化）

JVM堆優化與相關配置引數

java.lang.IllegalStateException: FragmentManager is already executing transactions 及 SmartTabLayout複用

linux網路程式設計之TCP狀態轉換及埠複用

java.lang.IllegalStateException: FragmentManager is already executing transactions 及 SmartTabLayout複用

Android 5.X新特性之RecyclerView基本解析及無限複用

Hadoop作業JVM堆大小設定優化

Tomcat性能優化及JVM內存工作原理

Tomcat效能優化及JVM記憶體工作原理

JVM堆記憶體引數優化，讓效能飛起來

Jvm堆記憶體的劃分結構和優化，垃圾回收詳解

Tomcat 調優及 JVM 參數優化

Eclipse中檢視及調整JVM堆記憶體大小

java JVM 堆新生代與老年代及回收方式

Tomcat 調優及 JVM 引數優化

Tomcat調優及JVM引數優化

Jvm堆記憶體的劃分結構和優化，垃圾回收詳解（詳細解答篇）

Hadoop作業JVM堆優化彙總及JVM複用

相關推薦