1. 程式人生 > >大型互聯網產品/應用運維職責

大型互聯網產品/應用運維職責

應用運維職責


一、 代碼風險控制和線上服務配置安全控制。

1、 通過我們的AOS系統對代碼上線進行合理的審核,從研發、測試、產品、總監、運維各個環節增加管控,來實現代碼安全性。
2、 通過我們的puppet管控對線上需要修改文件或修改系統配置,需要相關人員審核以便增加線上的安全性。
3、通過我們的puppet管控對線上需要安裝軟件等,需要相關人員審核以便增加線上的安全性。

二、 發現問題

1、 通過zabbix收集服務器上各個指標,比如系統負載、業務宕機,業務狀態是否良好通過短信和郵件方式進行報警。(第一種報警方式)
2、 通過grafana+ influxdb展現出各個業務的狀態是否良好、程序是否宕機、系統負載屬於正常等,通過NOC組24小時人員監控進行電話報警。(第二種報警方式)

3、 通過kibana+spark+es收集日誌信息,通過日誌篩選和過濾展現出出問題的接口以及慢接口。比如5分鐘內出現5XX的錯誤top10的url。通過noc組24小時人員監控進行電話報警。(第三種報警方式)
4、 通過我們的smokeping網絡監控,可以檢測出公司使用各個機房的網絡連接情況。能夠判斷出是否網絡問題導致業務有影響。

三、 分析問題

1、 通過kibana+es收集日誌信息,通過日誌的篩選和過濾找出慢接口和關聯性以及通過大量數據找出可能將要出現的問題,進行分析問題。
2、 通過kibana+es大量的日誌信息以及對整體業務的架構把控,做出合理的業務架構方案。使業務更合理和優越。

四、 處理問題

1、 收到短信和電話報警後,通過grafana+ influxdb找出問題具體事項,並通過kibana+es快速的查找問題接口以及出現問題的根本原因。
2、 接受到報警後,通過grafana+ influxdb、kibana+spark+es、smokeping、kibana+es綜合性的快速查找問題根本原因。
3、 通過grafana+ influxdb觀察確定依賴資源是否有問題。

五、 事後總結問題

1、 做出容災和應急方案,出現問題能第一時刻恢復業務,保障業務的穩定運行。
2、 針對每次出現的問題進行問題分析、改進。便於下次同樣類型的問題不會再次發生。

六、 運維自動化

1、 通過我們的puppet進行自動化配置,減少人工的手動操作避免人員的誤操作同時增加人員的管控,增加了線上服務器安全性。
2、 通過我們的cmdb能夠快速的查詢服務器硬件配置、域名歸屬、服務器管理員等。
3、 通過我們的rt事務追蹤管理能夠快度的定位最近服務器上進行了那些重要操作信息。
4、 通過我們的sip系統夠查看當前管理員負責當前業務下的所有服務器、域名等便於批量授權用戶。
5、 通過我們的AOS代碼上線,減少人員的操作避免人員的誤操作。
6、 通過我們的docker平臺,更好的合理運用服務器硬件資源,減少產品成本運算

大型互聯網產品/應用運維職責