hadoop1.0 TaskTracker因為分散式快取導致記憶體洩露的一次問題排查

阿新 • • 發佈：2019-02-11

上週五同事到公司說凌晨的時候有值班同事打電話給他，有部分job卡住了，運行了很長時間都沒執行完成，由於是凌晨，他沒來得及詳細的檢視日誌，簡單的把有問題的tasktracker重啟了一下，只有一個節點的TaskTracker程序停掉，讓我查一下具體是什麼問題。以下是排查過程：

1、登陸到停掉TT程序的處理機

(1)、檢視磁碟空間

磁碟沒有出現空間不足的情況。

(2)、top檢視負載和記憶體使用情況：

根據上圖看出記憶體和負載都不算高，也不存在殭屍程序。

2、檢視程序日誌

1、log4j日誌：

2014-11-28 06:47:43,813 INFO org.apache.hadoop.mapred.TaskTracker: Trying to launch : attempt_201406171104_5451817_m_001292_0 which needs 1 slots
2014-11-28 06:47:43,813 INFO org.apache.hadoop.mapred.TaskTracker: In TaskLauncher, current free slots : 3 and trying to launch attempt_201406171104_5451817_m_001292_0 which needs 1 slots
2014-11-28 06:47:43,814 INFO org.apache.hadoop.mapred.JvmManager: In JvmRunner constructed JVM ID: jvm_201406171104_5451797_m_-1554592361
2014-11-28 06:47:43,814 INFO org.apache.hadoop.mapred.JvmManager: JVM Runner jvm_201406171104_5451797_m_-1554592361 spawned.
2014-11-28 06:47:43,821 INFO org.apache.hadoop.mapred.TaskController: Writing commands to /data2/hadoop/local/ttprivate/taskTracker/optimus/jobcache/job_201406171104_5451797/attempt_201406171104_5451797_m_000521_0/taskjvm.sh
2014-11-28 06:47:43,992 INFO org.apache.hadoop.mapred.TaskTracker.clienttrace: src: 10.39.4.178:50060, dest: 10.39.5.241:47487, bytes: 18, op: MAPRED_SHUFFLE, cliID: attempt_201406171104_5450184_m_001640_0, duration: 235398
2014-11-28 06:47:44,317 INFO org.apache.hadoop.mapred.TaskTracker.clienttrace: src: 10.39.4.178:50060, dest: 10.39.0.140:60631, bytes: 18, op: MAPRED_SHUFFLE, cliID: attempt_201406171104_5450184_m_001640_0, duration: 163982
2014-11-28 06:47:44,580 INFO org.apache.hadoop.mapred.TaskTracker: JVM with ID: jvm_201406171104_5451797_m_-1554592361 given task: attempt_201406171104_5451797_m_000521_0
2014-11-28 06:47:44,895 INFO org.apache.hadoop.mapred.TaskTracker.clienttrace: src: 10.39.4.178:50060, dest: 10.39.4.164:50407, bytes: 18, op: MAPRED_SHUFFLE, cliID: attempt_201406171104_5450184_m_001640_0, duration: 168406
2014-11-28 06:47:45,057 INFO org.apache.hadoop.mapred.TaskTracker: SHUTDOWN_MSG:

日誌沒有出現異常。

2、由於程序已經停掉了，所以沒法檢視程序堆疊和記憶體對映資訊，不過我們在配置hadoop程序的時候，JVM引數處啟動了gc日誌列印：

vim /etc/bashrc

export JAVA_HOME=/usr/local/jdk1.6.0_21
export JRE_HOME=/usr/local/jdk1.6.0_21/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/usr/local/hadoop-0.20.203.0
export HADOOP_LOG_DIR=/data0/hadoop/log
export HADOOP_PID_DIR=/data0/hadoop/pid
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$PATH
ulimit -u 65535
export HADOOP_DATANODE_OPTS=" -Xmx4096m -verbose:gc -Xloggc:/data0/hadoop/gclog/datanode.gc.log -XX:ErrorFile=/data0/hadoop/gclog/hs_err_pid.log -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+HeapDumpOnOutOfMemoryError "
export HADOOP_TASKTRACKER_OPTS=" -Xmx4096m -verbose:gc -Xloggc:/data0/hadoop/gclog/tasktracker.gc.log -XX:ErrorFile=/data0/hadoop/gclog/hs_err_pid.log -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+HeapDumpOnOutOfMemoryError "

以下是gc日誌資訊：

2014-11-28T06:47:08.025+0800: 26433049.397: [Full GC [PSYoungGen: 1340224K->1286605K(1368576K)] [PSOldGen: 2796223K->2796223K(2796224K)] 4136447K->4082829K(4164800K) [PSPermGen: 21554K->21553K(21568K)]      GC time would exceed GCTimeLimit of 98%
, 5.5652750 secs] [Times: user=0.00 sys=5.56, real=5.57 secs]
2014-11-28T06:47:18.126+0800: 26433059.499: [Full GC [PSYoungGen: 1340224K->1340224K(1368576K)] [PSOldGen: 2796223K->2796223K(2796224K)] 4136447K->4136447K(4164800K) [PSPermGen: 21554K->21554K(21568K)], 6.6131270 secs] [Times: user=0.00 sys=6.61, real=6.61 secs]
2014-11-28T06:47:24.740+0800: 26433066.112: [Full GC [PSYoungGen: 1340224K->1286378K(1368576K)] [PSOldGen: 2796223K->2796223K(2796224K)] 4136447K->4082602K(4164800K) [PSPermGen: 21554K->21553K(21568K)], 5.5440730 secs] [Times: user=0.00 sys=5.55, real=5.55 secs]
2014-11-28T06:47:30.994+0800: 26433072.367: [Full GC [PSYoungGen: 1340224K->1340224K(1368576K)] [PSOldGen: 2796223K->2796223K(2796224K)] 4136447K->4136447K(4164800K) [PSPermGen: 21554K->21554K(21568K)], 6.7307300 secs] [Times: user=0.00 sys=6.73, real=6.73 secs]
2014-11-28T06:47:37.725+0800: 26433079.098: [Full GC [PSYoungGen: 1340224K->1287718K(1368576K)] [PSOldGen: 2796223K->2796223K(2796224K)] 4136447K->4083942K(4164800K) [PSPermGen: 21554K->21553K(21568K)], 5.7407480 secs] [Times: user=0.00 sys=5.75, real=5.74 secs]
Heap
 PSYoungGen      total 1368576K, used 1330631K [0x00007f66b3ab0000, 0x00007f6709000000, 0x00007f6709000000)
  eden space 1340224K, 99% used [0x00007f66b3ab0000,0x00007f6704e21d20,0x00007f6705780000)
  from space 28352K, 0% used [0x00007f6705780000,0x00007f6705780000,0x00007f6707330000)
  to   space 29504K, 0% used [0x00007f6707330000,0x00007f6707330000,0x00007f6709000000)
 PSOldGen        total 2796224K, used 2796223K [0x00007f6609000000, 0x00007f66b3ab0000, 0x00007f66b3ab0000)
  object space 2796224K, 99% used [0x00007f6609000000,0x00007f66b3aaffe8,0x00007f66b3ab0000)
 PSPermGen       total 21760K, used 21574K [0x00007f6603c00000, 0x00007f6605140000, 0x00007f6609000000)
  object space 21760K, 99% used [0x00007f6603c00000,0x00007f6605111a98,0x00007f6605140000)

在程序停掉之前老年代記憶體佔用了99%，而且執行了FGC，FGC佔用的時間超過了GC時間限制98%。

從這裡看出，問題是出在TaskTracker程序由於老年代記憶體滿了，一直在進行FGC，而且FGC是stop the world的，即FGC期間程序是無法提供對外服務的，這就是job任務卡住的根本原因。既然找到了是因為TaskTracker程序堆記憶體的原因，那麼是什麼東西導致堆記憶體被佔滿，我們在配置TaskTracker堆記憶體的時候配置了4G記憶體，按理說是完全夠用的，難不成有記憶體洩露，為了確認是不是記憶體洩露，需要dump程序的記憶體資訊，登陸到另外一個TaskTracker程序存活的節點，執行jstat -gcutil ${pid}:

[[email protected] ~]$ jstat -gcutil 27617
  S0     S1     E      O      P     YGC     YGCT    FGC    FGCT     GCT
  0.00   0.00 100.00 100.00  99.85 621679 20840.395 47500 251938.770 272779.165
  0.00   0.00  78.03 100.00  99.76 621679 20840.395 47500 251945.371 272785.766
  0.00   0.00  78.41 100.00  99.76 621679 20840.395 47500 251945.371 272785.766
  0.00   0.00  78.77 100.00  99.76 621679 20840.395 47500 251945.371 272785.766

令人很驚訝的是看似正常的節點，是乎也存在相同的問題，存在記憶體洩露，老年代記憶體佔用已經100%了，並一直在執行FGC。

執行：

jmap -histo:live 27617  > jmap.log

從jmap看出，TrackerDistributedCacheManager$CacheStatus和TaskDistributedCacheManager$CacheFile例項有100多萬個，TaskDistributedCacheManager例項有86萬個，這幾個物件都涉及到tasktracker的分散式快取，難不成是分散式快取有問題。

在hadoop的jira上面搜了一下cachestatus，果然搜到了：

根據jira上面的說明job在TT上面初始化的時候會以jobId為key，TaskDistributedCacheManager為value被設定到jobArchives的map物件中，但是job完成之後，TT沒有立即清除jobArchives物件中相關job的分散式快取資訊，這個問題要解決很簡單，只需要在job完成之後清除分散式快取就可以了，jira中又對應的patch。

hadoop1.0 TaskTracker因為分散式快取導致記憶體洩露的一次問題排查

hadoop1.0 TaskTracker因為分散式快取導致記憶體洩露的一次問題排查

Java Spring Boot 2.0實戰Redis分散式快取與底層API架構

Java記憶體管理之記憶體洩露是什麼？什麼情況下會導致記憶體洩露？

handler導致記憶體洩露的真正原因

String 使用不當可能導致記憶體洩露

安卓Handler當做內部類，導致記憶體洩露的問題

ios開發之使用block引發迴圈引用導致記憶體洩露

使用EXIT(0) 直接退出後，出現記憶體洩露情況

Direct ByteBuffer可能會導致記憶體洩露的原因

android中不小心使用靜態變數會導致記憶體洩露

iOS開發運用block時何時會導致記憶體洩露問題？？？

inet_ntoa導致記憶體洩露

分散式事務不理解？一次給你講清楚！

jquery校驗 remote快取 remote只驗證一次解決辦法

一次關於Netty+Gson造成記憶體洩露的分析排查

基於openapi3.0的yaml檔案生成java程式碼的一次實踐

一次排查Java專案記憶體洩漏的過程

記一次排查線上程式記憶體的忽高忽低，又是大集合惹禍了

【直播預告】：Java Spring Boot實戰系列課程（第十講）：Spring Boot 2.0實戰高併發分散式快取

Mybatis一級快取導致分散式環境下的查詢髒資料

hadoop1.0 TaskTracker因為分散式快取導致記憶體洩露的一次問題排查

相關推薦