由一次線上故障來理解下 TCP 三握、四揮 & Java 堆疊分析到原始碼的探祕
本文導讀:
- 生產故障場景介紹
- TCP 建連三次握手過程
- TCP 斷連四次揮手過程
- 結合 Java 堆疊剖析原始碼
- 再從堆疊中找到"罪魁禍首"
- 問題優化方案總結
1、生產故障場景介紹
業務簡介:
該服務主要是提供對外的代理介面,大部分介面都會呼叫第三方介面,獲取資料後做聚合處理後,提供給客戶端使用。
有一天晚上,系統正處於高峰期間,專案組小夥伴正在津津有味的吃著「加班餐」,剛把
相關推薦
由一次線上故障來理解下 TCP 三握、四揮 & Java 堆疊分析到原始碼的探祕
本文導讀: 生產故障場景介紹 TCP 建連三次握手過程 TCP 斷連四次揮手過程 結合 Java 堆疊剖析原始碼 再從堆疊中找到"罪魁禍首" 問題優化方案總結 1、生產故障場景介紹 業務簡介: 該服務主要是提供對外的代理介面,大部分介面都會呼叫第三方介面,獲取資料後做聚合處理後,提供給客戶端使用。 有一
dpdk-lvs的一次線上故障排查報告
本文記錄了dpdk-lvs叢集的一次線上故障排查過程,排查思路可供讀者參考。 上篇文章回顧: SOAR的IDE外掛——您的貼身DBA保鏢 背景 我們內部基於 dpdk 自研的高效能負載均衡器 dpdk-lvs 已經在多個機房部
從一次線上故障思考 Java 問題定位思路
問題出現:現網CPU飆高,Full GC告警 CGI 服務釋出到現網後,現網機器出現了Full GC告警,同時CPU飆高99%。在優先恢復現網服務正常後,開始著手定位Full GC的問題。在現場只能夠抓到四個GC執行緒佔用了很高的CPU,無法抓到引發Full GC的執行緒。查看了服務故障期間的錯
從一次線上故障思考Java問題定位思路
問題出現:現網CPU飆高,Full GC告警 CGI 服務釋出到現網後,現網機器出現了Full GC告警,同時CPU飆高99%。在優先恢復現網服務正常後,開始著手定位Full GC的問題。在現場只能夠抓到四個GC執行緒佔用了很高的CPU,無法抓到引發Full GC的執行緒。查看了服務故障期間的錯誤日誌,發現更
通過 jstack 與 jmap 分析一次線上故障
一、發現問題 下面是線上機器的cpu使用率,可以看到從4月8日開始,隨著時間cpu使用率在逐步增高,最終使用率達到100%導致線上服務不可用,後面重啟了機器後恢復。 二、排查思路 簡單分析下可能出問題的地方,分為5個方向: 系統本身程式碼問題 內部下游系統的問題導致的雪
一次線上故障:資料庫連線池洩露後的思考
一:初步排查 早上作為能效平臺系統的使用高峰期,系統負載通常比其它時間段更大一些,某個時間段會有大量使用者登入。當天系統開始有使用者報障,釋出系統線上無法構建釋出,然後後續有使用者不能登入系統,系統發生假死,當然系統不是真的宕機,而是所有和資料庫有關的連線都被阻塞,隨後檢視日誌發現有大量報錯。 和
藍的成長記——追逐DBA(18):小機上WAS集群故障,由一次更換IP引起
linu 是我 單點 看到了 做事 window 可能 fontsize error_log 原創作品。出自 “深藍的blog” 博客,歡迎轉載,轉載時請務必註明出處。否則追究版權法律責任。 深藍的blog:http://blog.csdn.net/huangyanlo
Maven實戰-由一次jar包衝突來詳述 Maven 依賴範圍及依賴調節原則
這篇文章的緣由是剛來搭建的專案有jar包衝突,報下面這個錯基本就是servlet-api包衝突無疑了 Caused by: java.lang.ClassCastException: org.springframework.web.SpringServletContainerInitia
一次線上GC故障解決過程記錄
排查了三四個小時,終於解決了這個GC問題,記錄解決過程於此,希望對大家有所幫助。本文假定讀者已具備基本的GC常識和JVM調優知識,關於JVM調優工具使用可以檢視我在同一分類下的另一篇文章: 背景說明 發生問題的系統部署在Unix上,發生問題前已經跑了兩週多
Mongodb---記一次事故故障
free 連接 最小 idt 日誌 垃圾清理 清空 mongodb -m 2014.06.19.001---故障報告 事故發生時間 事故簡述 事故責任方 是否解決 19:21-20:15 IISserverD盤即將溢出
一次DHCP故障的處理
cisco h3c dhcp故障描述:客戶端得不到ip,三層核心設備是cisco6509,二層是h3c e528查看二層交換機配置,dis int bri ,查看哪個口連接電腦,dis dhcp-snooping 查看哪個口得到ip,哪個沒得到ip,dis cu 查看端口下有沒有stp edged-port
記錄一次線上處理5千萬數據轉換的經驗
cas tro 資源 小數 sql腳本 為我 可執行 前言 邏輯 前言:剛來新公司2個月就面臨了一次線上真實數據的轉換,這些數據異常重要,對我們公司來說就是客戶的資源,說白了就是客戶存在我們公司的錢,一旦處理失敗將會影響極大,可以想象一下你存銀行2萬元,第二天查詢卻一分錢沒
記一次高並發場景下.net監控程序數據上報的性能調優
埋點 異步 上下 沒有 表現 上線 部分 技術 求和 最近在和小夥伴們做充電與通信程序的架構遷移。遷移前的架構是,通信程序負責接收來自充電集控設備的數據實時數據,通過Thrift調用後端的充電服務,充電服務收到響應後放到進程的Queue中,然後在管理線程的調度下,啟
記一次kafka故障
con type 檢查 狀態 shadow ef6 sed tex consumer 故障現象:kafka有3個Partition分別為0,1,2,在實際運行中發現consumer只能收到Partition:0和Partition:1的數據,檢查topic狀態均正常。查找P
記一次線上gc調優的過程
aspect hash 接下來 JD lac abs rac 數據庫 %x 近期公司運營同學經常表示線上我們一個後臺管理系統運行特別慢,而且經常出現504超時的情況。對於這種情況我們本能的認為可能是代碼有性能問題,可能有死循環或者是數據庫調用次數過多導致接口運
記一次線上MySQL數據庫死鎖問題
重復 成功 中一 主鍵 adl 一次 his TE BE 最近線上項目報了一個MySQL死鎖(DealLock)錯誤,雖說對業務上是沒有什麽影響的,由於自己對數據庫鎖這塊了解不是很多,之前也沒怎麽的在線上碰到過。這次剛好遇到了,便在此記錄一下。 出現
記一次線上Java程序導致服務器CPU占用率過高的問題排除過程
tasks all lob jstat rip 進行 runable tails 分享圖片 https://blog.csdn.net/u013991521/article/details/52781423 1、故障現象 客服同事反饋平臺系統運行緩慢,網頁卡頓嚴重,多次重啟
一次線上伺服器inode打滿的事故排查
早晨來到公司收到線上伺服器磁碟/目錄滿了的報警,於是登到伺服器上,使用df -h檢視磁碟情況: # df -h Filesystem Size Used Avail Use% Mounted on /dev/vda2 36G 36G 0
一次線上記憶體洩漏的問題排查
上線了好久的專案今天突然出現cpu到達100% 的情況,先將專案緊急重啟,恢復正常後登入伺服器排查gc日誌,發現存在記憶體洩漏的情況。 top命令檢視程序情況,top -Hp pid檢視執行緒,再jstack匯出日誌。過程匆忙,忘了截圖 搜尋jsatck日誌看到許多執行緒阻塞在這一行程式碼 基本可以
記一次線上Zabbix對Redis監控實錄
前言:Redis作為快取伺服器我想大家都比較的熟悉,那麼,如果想要更好的維護和監控,那麼我們會對其redis伺服器統一監控起來,如何監控呢?如果在生產環境一臺伺服器部署多個redis,這樣就會出現多個埠,如何實施有效的監控呢?下面看下多給出的實錄~ [redis-agent端] 主要用於接受r