1. 程式人生 > >孫宇聰:來自Google的DevOps理念及實踐

孫宇聰:來自Google的DevOps理念及實踐

SRE(Site Reliability Engineering)是最早由Google提出,又經由Google發展完善的一個嶄新運維理念。如今SRE已成為一個涵蓋運維理念、思路、組織架構和具體實踐的完整體系。數人云推出SRE系列教程,由SRE經驗豐富的技術大牛們為大家分享運維一線的獨家乾貨,揭示SRE背後的祕密。

數人云邀請了前Google SRE、《SRE:Google運維解密》的譯者孫宇聰與大家進行了線上分享。本文講述了SRE的基本概念和核心原理。與孫老師本人一樣風趣幽默的文章,小數希望大家閱讀愉快:)

34b76cede77161788e6f16420dae1a6d5c03e076

今天與大家分享的內容是關於最近我翻譯的這本書,據說反響還不錯,今天借這個機會聊一聊書中的內容,並與大家分享一下我回國兩年多以來,Google經驗在國內的一些思考和落地實踐。

什麼是SRE?

很多時候國內把DevOps的範圍定得有點狹窄, DevOps這件事情在國外更多是整個行業內的一個趨勢。DevOps是一種模式,主要是讓IT相關的東西與商業結合得更緊密一些,迭代速度變得更快一些,所以它適用於各個行業。今天說的SRE,我認為也是在運維行業上的一部分。

概括來說,我認為《SRE:Google運維解密》這本書是一個文集。GoogleSRE全球一千多人,這個組織在公司裡相對比較小眾,但又是一個比較重要的部門,整個Google所有業務線的運維環境都由SRE來負責。SRE是一個非常分散的組織,每個業務線、每個部門其實都有自己的SRE小團隊。這本書裡共有一百多個作者聯合寫成,其中也包括我以前所在的團隊,我們做過的一些Project也在書中也有提到,所以它是一本文集。我與原著的三個編輯聊天時,他們說成書最大的難處就是刪減內容,當時徵集來的內容大概有一千多頁,最後刪到了五百多頁。這也是這本書比較有意思的一個花絮。

b4ef80581c93f3c9a23d997b37e98c0b487ad894

回到這本書的宗旨, SRE到底是什麼?SRE是Google發明的一個詞語或者新定義的一個職業。以前這個運維角色,大家叫運維,美國叫Operation。現在Google把這個職位擴充套件為SRE,就是用軟體工程師的方法和手段,招了一些軟體工程師來解決運維的難題,這是SRE的官方定義。

原文連結