1. 程式人生 > >ECS雲主機SSH連接提示“Connection reset by peer”的解決辦法和解決思路

ECS雲主機SSH連接提示“Connection reset by peer”的解決辦法和解決思路

阿裏雲 運維思想 工單支持

三周前剛從上家公司換到新的公司,這家公司與上家公司相比對阿裏雲的雲計算環境更加的依賴,使用的ECS實例和其他服務如SLB、RDS、OSS等更多了一個數量級。這篇文章的背景就是為了解決阿裏雲ECS雲主機SSH連接的一個問題,從故障發現到故障排除到最後反思的一個詳細過程。文章比較長,圖片眾多,建議有時間仔細閱讀,沒時間就閱讀文末的“總結和反思”部分即可。

故障發現:

2017-05-23 下午17:00點前同事報告稱GitLab所在的服務器訪問出現異常。經查發現在公司內無法正常通過SSH連接GitLab服務器。經過測試後發現問題確實存在。

用戶(運維)自查過程:

  1. SSH連接公網IP地址失敗,ping正常,該服務器上的業務訪問正常,因此判斷不是服務器宕機;

  2. 連接到在阿裏雲剛搭建好的OpenVPN服務器,SSH連接內網IP地址,發現可以正常連接,排除SSH服務問題;

  3. 經過查詢ECS雲主機上的日誌,/etc/hosts.*,防火墻、SELinux以及ECS安全組,發現公司的IP根本沒有任何連接ECS雲主機的日誌記錄和存在配置不當的問題;

  4. 因此初步判斷問題不在ECS雲主機和公司網絡上,懷疑可能是阿裏雲安全組出了問題或者公網出口的防火墻對我們公司的IP地址進行了攔截,認真核對了安全組設置和確定雲主機以及運行環境沒有問題後,果斷向阿裏雲提工單支持。

阿裏雲工單支持過程:

說明:

(1)為了方便編輯和閱讀,所有內容均為原始截圖(在新標簽頁中打開圖片查看原始圖片),IP等敏感信息也不做隱藏處理,請大家不要惡意攻擊,如果發現漏洞歡迎留言和進一步交流;

(2)溝通記錄後面的圖片是溝通記錄中按次序出現的圖片,供大家查閱;

(3)工作任務比較繁重,時間倉促,如有問題請批評指正和多多諒解;

1.用戶報告問題,售後工程師給出初步診斷

技術分享

技術分享

技術分享

技術分享

技術分享

技術分享

技術分享

2.雙方互相協助排查

技術分享

技術分享

3.進一步測試問題

技術分享

技術分享

技術分享 技術分享

技術分享

技術分享

4.及時跟進進度,進一步診斷問題

技術分享

技術分享

5.進一步分析和確認原因

技術分享

技術分享

技術分享

技術分享

6.找到原因,解決問題

技術分享

技術分享

技術分享

7.售後工程師給出問題結論,用戶評價,完成工單

技術分享

問題和解決方案總結:

[ 問題現象 ] ECS雲主機的公網IP地址無法通過SSH連接,提示“Connection reset by peer”,內網地址連接正常

[ 解決方案 ] 排查發現是該客戶端IP掃描服務端多個敏感端口導致被雲盾攔截,如果確認沒有問題,您可以通過如下路徑設置白名單放行:雲盾控制臺--》DDOS防護--》基礎防護--》點擊具體的實例--》掃描攔截--》白名單設置--》添加源地址 124.129.14.90

總結和反思:

1.阿裏雲的產品的確為用戶提供了很大的便利,但用戶也需要了解用戶自己使用的阿裏雲產品的技術棧和相關知識,用戶需要有自己專業的運維支持

2.提交問題時,用戶要盡可能的為問題診斷人員提供盡可能的多的信息,這樣才能幫助問題診斷人員在較短的時間內定位問題

3.在工單過程中,用戶要盡可能的提供圖片,保留問題證據,為後期糾紛和索賠做好準備

4.利用排除法縮小問題範圍,判斷問題的種類和使用恰當的工具很重要,比如這個例子中:SSH無法連接-->排除其他問題定位到是網絡問題-->網絡問題的工具:tcpdump+Wireshark抓包排查-->判斷不是xxx的問題-->最終得出結論:雲盾攔截

5.當售後工程師幫助我們解決問題時,自己也要多動腦思考,並不是一勞永逸提交過工單說明情況就完結了,需要用戶在此過程中多做配合及時跟進問題,了解工單進展

6.問題解決過程中,用戶和售後要互相諒解,互幫互助,以解決問題為要

7.事故的責任問題,此事故不能說完全是用戶的問題,阿裏雲的雲盾確實存在缺陷,假設用戶辦公網絡內真的存在惡意掃描,雲盾在檢測到攻擊後應該及時告知用戶,例如給出攻擊威脅通知,在攔截並加入黑名單後,應該及時通知用戶

8.對於這位售後工程師的評價:其實他很不容易。但通過縱覽解決問題的全過程,可以發現這位工程師在解決問題的能力上和在為用戶解決問題的態度上還是有一定問題的。如果在溝通過程中能更主動一些,解決問題的思路上更靈活一些應該能在更短的時間內解決問題

9.自己的反思:

(1)作為運維人員來說,經驗要不斷積累,技能要不斷提升,這需要保持一個良好的心態和面對問題時的態度;

(2)在面臨問題時要考慮全面,把所有可能的問題因素都找出來,逐個排除最終解決問題;

(3)解決問題時工具和思路都很重要,平時運維過程中不僅需要經驗知識積累也需要關註針對某一部分問題的完整解決方案的積累,能靈活運用恰當的工具快速解決問題

(4)…… ……

時間有限,先到此為止,後期再慢慢整理和反思。

--end--

本文出自 “通信,我的最愛” 博客,謝絕轉載!

ECS雲主機SSH連接提示“Connection reset by peer”的解決辦法和解決思路