一次高IO下的GC分析之旅

阿新 • • 發佈：2019-05-09

size icon 部分 ads threads inf 回滾上傳報警

一次高IO下的GC分析之旅

編碼前線關註 2018.12.21 00:06 字數 597 閱讀 45評論 0喜歡 0

起因：收到GC STW報警

【監控系統】Total time for which application threads were stopped: 67.7651070 seconds, Stopping threads took: 0.0000240 seconds

快速分析原因

此處不分析具體GC日誌，主要分析方法:

從線上拷貝日誌到本地
打包成gc.zip格式
上傳到gceasy.io
image

找到原因

找到是因為缺IO或內存資源導致高IO，並不是GC本身過程耗時太多(上一步GC的報告中獲得)：

image

通過監控系統，找到當時機器IO飆升(公司內部監控機器的平臺，zabbix實時收集機器的一些狀態)：

image

深層次原因

整個應用程序的停頓主要由兩部分組成：由於JVM GC行為造成的停頓(T1->T2)，以及為了記錄JVM GC日誌(T3->T4)，系統調用write()被OS阻塞的時間。下面這張圖展示了二者之間的關系。

image

解決方案

首先，JVM實現完全可以解決掉這個問題。顯然，如果將寫GC日誌的操作與可能會導致STW停頓的JVM GC處理過程分開，這個問題自然就不存在了。例如，JVM可以將記錄GC日誌的功能放到另一個線程中，獨立來處理日誌文件的寫入，這樣就不會增加STW停頓的時間了。但是，這種采用其他線程來處理的方式，可能會導致在JVM崩潰時丟失最後的GC日誌信息。最好的方式，可能是提供一個JVM選項，讓用戶來選擇適合的方式,但這個方法基本沒辦法我們自己來處理。

由於後臺IO造成的STW停頓時間，與IO的繁重程度有關，所以我們可以采用多種方式來降低後臺IO的壓力。例如，不要在同一節點上安裝其他IO密集型的應用程序，減少其他類型的日誌行為，提高日誌回滾頻率等等。

我們最後的解決辦法是將GC日誌文件放到其他低IO磁盤上，把gc日誌放到圖中的/data2,很明顯從iostat來看它的磁盤IO壓力很小。

image

一次高IO下的GC分析之旅

size icon 部分 ads threads inf 回滾上傳報警一次高IO下的GC分析之旅編碼前線關註 2018.12.21 00:06 字數 597 閱讀 45評論 0喜歡 0 起因：收到GC STW報警【監控系統】Tota

一次高IO下的GC分析之旅

一次高IO下的GC分析之旅

起因：收到GC STW報警

快速分析原因

找到原因

深層次原因

解決方案

一次高IO下的GC分析之旅

2018第一發：記一次【Advanced Installer】打包之旅

記一次快樂(並不)的勒索清理之旅

記一次9.png的填坑之旅

一次失敗的PHP擴充套件開發之旅

記一次專案使用webuploader爬坑之旅

我的一個配置redux（實現一次儲存與呼叫方法）之旅

記一次高並發場景下.net監控程序數據上報的性能調優

(轉載)一次生產系統 Full GC 問題分析與排查總結

JVM效能分析 | 一次生產系統Full GC問題分析與排查總結

一次生產環境下MongoDB備份還原數據

第二次作業：軟件分析之網易雲音樂

記錄一次Oracle VirtualBox 下 Centos 6.5 VM 磁盤擴容

記一次Ceph日誌損壞的分析處理過程

一次簡單的xss漏洞分析

記一次高併發優化(java)

記錄一次在centos下使用gmp的悲傷

一次堆記憶體溢位問題分析——虛擬機器優化

記一次某App反編譯分析

記一次Android系統下解決音訊UnderRun問題的過程

一次高IO下的GC分析之旅

一次高IO下的GC分析之旅

起因：收到GC STW報警

快速分析原因

找到原因

深層次原因

解決方案

相關推薦