1. 程式人生 > >雲計算之路-阿裏雲上:針對 docker swarm 故障的部署調整以及應急措施

雲計算之路-阿裏雲上:針對 docker swarm 故障的部署調整以及應急措施

通過 pos https 服務 note 17.1 阿裏雲 應用 應急

針對上周 docker swarm 集群的頻繁故障(詳見故障一 、故障二、故障三),我們今天對 docker swarm 集群的部署進行了如下調整。

將 docker engine 由 “17.12.0-ce, build c97c6d6” 升級至 “17.12.1-ce, build 7390fc6” ,這是 docker 在 2 月 27 日發布的最新穩定版。

~# docker -v
Docker version 17.12.1-ce, build 7390fc6

將之前的 “5 個 manager 節點 + 1 個 worker 節點” 調整為 “3 個 manager 節點 + 3 個 worker 節點”,3 個 manager 節點的阿裏雲服務器配置為 1 臺 4 核 8 G + 2 臺 2 核 4 G ,3 個 worker 節點的配置為 3 臺 4 核 8 G ,應用容器盡量部署在 worker 節點上。

使用新的部署後,昨天 18:00 左右集群又出現了宕機,當時怎麽處理也無法恢復,最後實在沒辦法,通過阿裏雲控制臺強制重啟所有節點服務器後,竟然神奇地一切恢復正常。

在目前問題沒有根本解決的情況下,我們會采取這樣的應急措施:部署一個備用 docker swarm 集群,當主集群出現故障時,切換到備用集群。

另外在周末遇到一次節點服務器“死機”的情況,ssh 登錄無響應,通過阿裏雲控制臺管理終端登錄也沒有響應,唯有通過阿裏雲控制臺強制重啟服務器。

雲計算之路-阿裏雲上:針對 docker swarm 故障的部署調整以及應急措施