1. 程式人生 > >【專案分析】到底哪裡出現了問題

【專案分析】到底哪裡出現了問題

故事發生在8月11日的某個上午,上午的9:00-11:00會有公司組織的全國的線上的考試,當時出現了問題,問題表現:當時使用者登陸之後,請求反映一直很慢,登陸可以成功,登陸的過程很慢,頁面反映就直接卡住了。

當時的反應是,使用者服務在Nginx上直接faild,然後nginx也掛掉了。但是同事解決的辦法是,Java同事重啟了使用者服務,於此同時,運維同事重啟了nginx伺服器,然後考試恢復了正常,保證了整場考試順利執行下來。

問題解決之後,但是到底是哪個環節出現了問題,大家都說不清楚。當初過程中,啟動了nginx,然同事啟動了使用者服務,所以到底哪裡出現了問題,成為了未知?接下來的一週,基本上都圍繞在排查問題上。

一,當時負載很高,然後最後掛掉

二,使用者服務當時確實當掉了一個節點,著重分析當時的使用者請求量,哪些介面的響應時間長。同時日誌分析,監控每段時間的使用者請求量,介面響應時長,最後分析出來部分的介面。

但是最後並未找到確切的證據。最後開始從access_logs日誌查起來,但是當時並未找到錯誤日誌,一切都陷入了未知的困境。

三,週三再次發生狀況

  週三下午1:00左右,又出現了使用者不能夠登陸,所有的服務都響應不了的狀況,大約持續了將近1個小時,