不改一行代碼定位線上性能問題

阿新 • • 發佈：2018-11-13

輸出所有每次 get end dom 啟動參數方便 hashset

背景
最近時運不佳，幾乎天天被線上問題騷擾。前幾天剛解決了一個 HashSet 的並發問題，周一又來了一個性能問題。

大致的現象是：
我們提供出去的一個 OpenAPI 反應時快時慢，快的時候幾十毫秒，慢的時候幾秒鐘才響應。

嘗試解決
由於這種也不是業務問題，不能直接定位。所以嘗試在測試環境復現，但遺憾的測試環境賊快。

沒辦法只能硬著頭皮上了。

中途有抱著僥幸心裏讓運維查看了 Nginx 裏 OpenAPI 的響應時間，想把鍋扔給網絡。結果果然打臉了；Nginx 裏的日誌也表明確實響應時間確實有問題。

為了清晰的了解這個問題，我簡單梳理了這個調用過程。
技術分享圖片
整個的流程算是比較常見的分層架構：

客戶端請求到 Nginx。

Nginx 負載了後端的 web 服務。
web 服務通過 RPC 調用後端的 Service 服務。
日誌大法

我們首先想到的是打日誌，在可能會慢的方法或接口處記錄處理時間來判斷哪裏有問題。

但通過剛才的調用鏈來說，這個請求流程不短。加日誌涉及的改動較多而且萬一加漏了還有可能定位不到問題。

再一個是改動代碼之後還會涉及到發版上線。

工具分析

所以最好的方式就是不改動一行代碼把這個問題分析出來。

這時就需要一個 agent 工具了。我們選用了阿裏以前開源的 Tprofile 來使用。

只需要在啟動參數中加入 -javaagent:/xx/tprofiler.jar 即可監控你想要監控的方法耗時，並且可以給你輸出報告，非常方便。對代碼沒有任何侵入性同時性能影響也較小。

工具使用
下面來簡單展示下如何使用這個工具。

首先第一步自然是 clone 源碼然後打包，可以克隆我修改過的源碼。

因為這個項目阿裏多年沒有維護了，還殘留一些 bug,我在它原有的基礎上修復了個影響使用的 bug，同時做了一些優化。

執行以下腳本即可。

git clone https://github.com/crossoverJie/TProfiler
mvn assembly:assembly
到這裏之後會在項目的 TProfiler/pkg/TProfiler/lib/tprofiler-1.0.1.jar 中生成好我們要使用的 jar 包。

接下來只需要將這個 jar 包配置到啟動參數中，同時再配置一個配置文件路徑即可。

這個配置文件我 copy 官方的解釋。

#log file name
logFileName = tprofiler.log
methodFileName = tmethod.log
samplerFileName = tsampler.log
#basic configuration items

開始取樣時間

startProfTime = 1:00:00

結束取樣時間

endProfTime = 23:00:00

取樣的時間長度

eachProfUseTime = 10

每次取樣的時間間隔

eachProfIntervalTime = 1
samplerIntervalTime = 20

端口，主要不要沖突了

port = 50000
debugMode = false
needNanoTime = false

是否忽略 get set 方法

ignoreGetSetMethod = true
#file paths 日誌路徑
logFilePath = /data/work/logs/tprofile/${logFileName}
methodFilePath =/data/work/logs/tprofile/${methodFileName}
samplerFilePath =/data/work/logs/tprofile/${samplerFileName}
#include & excludes items
excludeClassLoader = org.eclipse.osgi.internal.baseadaptor.DefaultClassLoader

需要監控的包

includePackageStartsWith = top.crossoverjie.cicada.example.action

不需要監控的包

excludePackageStartsWith = com.taobao.sketch;org.apache.velocity;com.alibaba;com.taobao.forest.domain.dataobject
最終的啟動參數如下：
-javaagent:/TProfiler/lib/tprofiler-1.0.1.jar
-Dprofile.properties=/TProfiler/profile.properties
為了模擬排查接口響應慢的問題，我用 cicada 實現了一個 HTTP 接口。其中調用了兩個耗時方法：

這樣當我啟動應用時，Tprofile 就會在我配置的目錄記錄它所收集的方法信息。

我訪問接口 http://127.0.0.1:5688/cicada-example/demoAction?name=test&id=10 幾次後它就會把每個方法的明細響應寫入 tprofile.log。技術分享圖片
由左到右每列分別代表為：

線程ID、方法棧深度、方法編號、耗時（毫秒）。

但 tmethod.log 還是空的；

這時我們只需要執行這個命令即可把最新的方法采樣信息刷到 tmethod.log 文件中。
java -cp /TProfiler/tprofiler.jar com.taobao.profile.client.TProfilerClient 127.0.0.1 50000 flushmethod
flushmethod success
其中的端口就是配置文件中的 port。
再打開 tmethod.log ：

不改一行代碼定位線上性能問題
其中會記錄方法的信息。

第一行數字為方法的編號。可以通過這個編號去 tprofile.log(明細)中查詢每次的耗時情況。
行末的數字則是這個方法在源碼中最後一行的行號。
其實大部分的性能分析都是統計某個方法的平均耗時。

所以還需要執行下面的命令，通過 tmethod.log tprofile.log來生成每個方法的平均耗時。

java -cp /TProfiler/tprofiler.jar com.taobao.profile.analysis.ProfilerLogAnalysis tprofiler.log tmethod.log topmethod.log topobject.log
print result success
打開 topmethod.log 就是所有方法的平均耗時。

4 為請求次數。
205 為平均耗時。
818 則為總耗時。
和實際情況是相符的。

方法的明細耗時

這是可能還會有其他需求；比如說我想查詢某個方法所有的明細耗時怎麽辦呢？

官方沒有提供，但也是可以的，只是要麻煩一點。

比如我想查看 selectDB() 的耗時明細：

首先得知道這個方法的編號，在 tmethod.log 中可以看查到。

2 top/crossoverjie/cicada/example/action/DemoAction:selectDB:84

編號為 2.

之前我們就知道 tprofile.log 記錄的是明細，所以通過下面的命令即可查看。

grep 2 tprofiler.log

通過第三列方法編號為 2 的來查看每次執行的明細。

但這樣的方式顯然不夠友好，需要人為來過濾幹擾，步驟也多；所以我也準備加上這樣一個功能。

只需要傳入一個方法名稱即可查詢采集到的所有方法耗時明細。

總結
回到之前的問題；線上通過這個工具分析我們得到了如下結果。

有些方法確實執行時快時慢，但都是和數據庫相關的。由於目前數據庫壓力較大，準備在接下來進行冷熱數據分離，以及分庫分表。
在第一步操作還沒實施之前將部分寫數據庫的操作改為異步，減小響應時間。
考慮接入 pinpoint 這樣的 APM工具。
類似於 Tprofile 的工具確實挺多的，找到適合自己的就好。

在還沒有使用類似於 pinpoint 這樣的分布式跟蹤工具之前應該會大量依賴於這個工具，所以後續說不定也會做一些定制，比如增加一些可視化界面等，可以提高排查效率。

你的點贊與分享是對我最大的支持

不改一行代碼定位線上性能問題

輸出所有每次 get end dom 啟動參數方便 hashset 背景最近時運不佳，幾乎天天被線上問題騷擾。前幾天剛解決了一個 HashSet 的並發問題，周一又來了一個性能問題。大致的現象是：我們提供出去的一個 OpenAPI 反應時快時慢，快的時候幾十毫秒，慢

不改一行代碼定位線上性能問題

開始取樣時間

結束取樣時間

取樣的時間長度

每次取樣的時間間隔

端口，主要不要沖突了

是否忽略 get set 方法

需要監控的包

不需要監控的包

不改一行代碼定位線上性能問題

【好文分享】老闆讓我不改一行程式碼，定位線上效能問題

不寫一行代碼，綠色三層我也行

Android性能測試一些適用於Android Studio的代碼審查和性能測試工具

Java中arraylist和linkedlist源代碼分析與性能比較

javascript代碼規範和性能整理

不改一行程式碼定位線上效能問題

監控真實的用戶體驗，從一行代碼開始

1987年國際C語言混亂代碼大賽獲獎的一行代碼

銀行卡驗證接口API(僅需一行代碼,實現全國銀行卡核驗)

CSDN日報20170404 ——《不不過寫代碼，而是完畢作品》

Android最簡單屏幕適配,項目用dp,sp的只需加一行代碼

一行代碼提取url中querystring的某個key的值

Java進階知識點2：看不懂的代碼 - 協變與逆變

【轉】編寫高質量代碼改善C#程序的157個建議——建議148：不重復代碼

【轉載】一行代碼加載網絡圖片到ImageView——Android Picasso

開源作品ThinkJDBC—一行代碼搞定數據庫操作

php一行代碼獲取本周一,本周日,上周一,上周日,本月一日,本月最後一日,上月一日,上月最後一日日期轉

html關於不換行代碼

寫在最前面 - 《看懂每一行代碼 - kubernetes》

不改一行代碼定位線上性能問題

開始取樣時間

結束取樣時間

取樣的時間長度

每次取樣的時間間隔

端口，主要不要沖突了

是否忽略 get set 方法

需要監控的包

不需要監控的包

相關推薦