作者 | 陳星宇（宇慕）阿里雲基礎技術中臺技術專家

本文整理自《CNCF x Alibaba 雲原生技術公開課》第 17 講。

導讀：etcd 是容器雲平臺用於儲存關鍵元資訊的元件。阿里巴巴使用 etcd 已經有 3 年的歷史, 在今年雙11 過程中它又一次承擔了關鍵角色，接受了雙11 大壓力的檢驗。本文作者從 etcd 效能背景出發，帶領我們瞭解了 etcd server 端效能優化及 etcd client 使用最佳實踐，希望能夠為大家執行一個穩定而且高效的 etcd 叢集提供幫助。

一、etcd 簡要介紹

etcd 誕生於 CoreOs 公司，使用 Golang 語言開發，是一個分散式 KeyValue 儲存引擎。我們可以利用 etcd 來作為分散式系統元資料的儲存資料庫，儲存系統裡面重要的元資訊。etcd 同樣也被各大公司廣泛使用。

下圖為 etcd 的基本架構

如上所示，一個叢集有三個節點：一個 Leader 和兩個 Follower。每個節點通過 Raft 演算法同步資料，並通過 boltdb 儲存資料。當一個節點掛掉之後，另外的節點會自動選舉出來一個 Leader，保持整個叢集的高可用特性。Client 可以通過連線任意一個節點完成請求。

二、理解 etcd 效能

首先我們來看一張圖：

上圖是一個標準的 etcd 叢集架構簡圖。可以將 etcd 叢集劃分成幾個核心的部分：例如藍色的 Raft 層、紅色的 Storage 層，Storage 層內部又分為 treeIndex 層和 boltdb 底層持久化儲存 key/value 層。它們的每一層都有可能造成 etcd 的效能損失。

首先來看 Raft 層，Raft 需要通過網路同步資料，網路 IO 節點之間的 RTT 和 / 頻寬會影響 etcd 的效能。除此之外，WAL 也受到磁碟 IO 寫入速度影響。

再來看 Storage 層，磁碟 IO fdatasync 延遲會影響 etcd 效能，索引層鎖的 block 也會影響 etcd 的效能。除此之外，boltdb Tx 的鎖以及 boltdb 本身的效能也將大大影響 etcd 的效能。

從其他方面來看，etcd 所在宿主機的核心引數和 grpc api 層的延遲，也將影響 etcd 的效能。

三、etcd 效能優化 -server 端

下面具體來介紹一下 etcd server 端的效能優化。

etcd server 效能優化-硬體部署

server 端在硬體上需要足夠的 CPU 和 Memory 來保障 etcd 的執行。其次，作為一個非常依賴於磁碟 IO 的資料庫程式，etcd 需要 IO 延遲和吞吐量非常好的 ssd 硬碟，etcd 是一個分散式的 key/value 儲存系統，網路條件對它也很重要。最後在部署上，需要儘量將它獨立的部署，以防止宿主機的其他程式會對 etcd 的效能造成干擾。

附：etcd 官方推薦的配置要求資訊。

etcd server 效能優化-軟體

etcd 軟體分成很多層，下面根據不同層次進行效能優化的簡單介紹。想深度瞭解的同學可以自行訪問下面的 GitHub pr 來獲取具體的修改程式碼。

首先是針對於 etcd 的記憶體索引層優化：優化內部鎖的使用減少等待時間。原來的實現方式是遍歷內部引 BTree 使用的內部鎖粒度比較粗，這個鎖很大程度上影響了 etcd 的效能，新的優化減少了這一部分的影響，降低了延遲。

具體可參照如下連結：

針對於lease 規模使用的優化：優化了 lease revoke 和過期失效的演算法，將原來遍歷失效 list 時間複雜度從 O(n) 降為 O(logn)，解決了 lease 規模化使用的問題。

具體可參照如下連結：

最後是針對於後端 boltdb 的使用優化：將後端的 batch size limit/interval 進行調整，這樣就能根據不同的硬體和工作負載進行動態配置，這些引數以前都是固定的保守值。
還有一點是由谷歌工程師優化的完全併發讀特性：優化呼叫 boltdb tx 讀寫鎖使用，提升讀效能。

基於 segregated hashmap 的 etcd 內部儲存 freelist 分配回收新演算法

其他的效能優化也非常多，這裡我們重點介紹一下由阿里巴巴貢獻的一個性能優化。這個效能優化極大地提升了 etcd 內部儲存的效能，它的名字叫做：基於 segregated hashmap 的 etcd 內部儲存 freelist 分配回收新演算法。

上圖是 etcd 的一個單節點架構，內部使用 boltdb 作為持久化儲存所有的 key/value，因此 boltdb 的效能好壞對於 etcd 的效能好壞起著非常重要的作用。在阿里巴巴內部，我們大量使用 etcd 作為內部儲存元資料，在使用過程中我們發現了 boltdb 的效能問題，這裡分享給大家。

上圖中為 etcd 內部儲存分配回收的一個核心演算法，這裡先給大家介紹一下背景知識。首先，etce 內部使用預設為 4KB 的頁面大小來儲存資料。如圖中數字表示頁面 ID，紅色的表示該頁面正在使用，白色的表示未使用。

當用戶想要刪除資料的時候，etcd 並不會把這個儲存空間立即還給系統，而是內部先留存起來，維護一個頁面的池子，以提升下次使用的效能。這個頁面池子叫做 freelist，如圖所示，freelist 頁面 ID 為 43、45、 46、50、53 正在被使用，頁面 ID 為 42、44、47、48、49、51、52 處於空閒狀態。

當新的資料儲存需要一個連續頁面為 3 的配置時，舊的演算法需要從 freelist 頭開始掃描，最後返回頁面起始 ID 為 47，以此可以看到普通的 etcd 線性掃描內部 freelist 的演算法，在資料量較大或者是內部碎片嚴重的情況下，效能就會急速的下降。

針對這一問題，我們設計並實現了一個基於 segregated hashmap 新的 freelist 分配回收演算法。該演算法將連續的頁面大小作為 hashmap 的 key，value 是起始 ID 的配置集合。當需要新的頁面儲存時，我們只需要 O(1) 的時間複雜度來查詢這個 hashmap 值，快速得到頁面的起始 ID。

再去看上面例子，當需要 size 為 3 的連續頁面的時候，通過查詢這個 hashmap 很快就能找到起始頁面 ID 為 47。

同樣在釋放頁面時，我們也用了 hashmap 做優化。例如上圖當頁面 ID 為 45、46 釋放的時候，它可以通過向前向後做合併，形成一個大的連續頁面，也就是形成一個起始頁面 ID 為 44、大小為 6 的連續頁面。

綜上所述：新的演算法將分配的時間複雜度從 O(n) 優化到了 O(1)，回收從 O(nlogn) 優化到了 O(1)，etcd 內部儲存不再限制其讀寫的效能，在真實的場景下，它的效能優化了幾十倍。從單叢集推薦儲存 2GB 可以擴大到 100GB。該優化目前在阿里巴巴內部使用，並輸出到了開源社群。

這裡再提一點，本次說的多個軟體的優化，在新版本中的 etcd 中都會有釋出，大家可以關注使用一下。

四、etcd 效能優化 -client 端

再來介紹一下etce 客戶端的效能使用上的最佳實踐。

首先來回顧一下 etcd server 給客戶端提供的幾個 API：Put、Get、Watch、Transactions、Leases 等很多個操作。

針對於以上的客戶端操作，我們總結了幾個最佳實踐呼叫：

針對於 Put 操作避免使用大 value，精簡精簡再精簡，例如 K8s 下的 crd 使用；
其次，etcd 本身適用及儲存一些不頻繁變動的 key/value 元資料資訊。因此客戶端在使用上需要避免建立頻繁變化的 key/value。這一點例如 K8s下對於新的 node 節點的心跳資料上傳就遵循了這一實踐；
最後，我們需要避免建立大量的 lease，儘量選擇複用。例如在 K8s下，event 資料管理：相同 TTL 失效時間的 event 同樣會選擇類似的 lease 進行復用，而不是建立新的 lease。

最後請大家記住一點：保持客戶端使用最佳實踐，將保證你的 etcd 叢集穩定高效執行。

本節總結

本節內容到這裡就結束了，這裡為大家總結一下：

首先我們理解了 etcd 效能背景，從背後原理了解潛在的效能瓶頸點；
解析 etcd server 端效能優化，從硬體/部署/內部核心軟體演算法等方面優化；
瞭解 etcd client 使用最佳實踐；

最後希望各位同學讀完本文後，能夠有所收穫，為你們執行一個穩定而且高效的 etcd 叢集提供幫助。

“阿里巴巴雲原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐，做最懂雲原生開發者的技術圈。”

相關推薦

從零開始入門 K8s | etcd 效能優化實踐

作者 | 陳星宇（宇慕）阿里雲基礎技術中臺技術專家本文整理自《CNCF x Alibaba 雲原生技術公開課》第 17 講。導讀：etcd 是容器雲平臺用於儲存關鍵元資訊的元件。阿里巴巴使用 etcd 已經有 3 年的歷史, 在今年雙11 過程中它又一次承擔了關鍵角色，接受了雙11 大壓力的檢驗

從零開始入門 K8s | 手把手帶你理解 etcd

作者 | 曾凡鬆（逐靈）阿里雲容器平臺高階技術專家本文整理自《CNCF x Alibaba 雲原生技術公開課》第 16 講。導讀：etcd 是用於共享配置和服務發現的分散式、一致性的 KV 儲存系統。本文從 etcd 專案發展所經歷的幾個重要時刻開始，為大家介紹了 etc

從零開始入門 K8s| 阿里技術專家詳解 K8s 核心概念

作者| 阿里巴巴資深技術專家、CNCF 9個 TCO 之一李響一、什麼是 Kubernetes Kubernetes，從官方網站上可以看到，它是一個工業級的容器編排平臺。Kubernetes 這個單詞是希臘語，它的中文翻譯是“舵手”或者“飛行員”。在一些常見的資料中也會看到“ks”這個詞，也就是

從零開始入門 K8s| 詳解 Pod 及容器設計模式

作者|張磊阿里雲容器平臺高階技術專家，CNCF 官方大使一、為什麼需要 Pod 容器的基本概念我們知道 Pod 是 Kubernetes 專案裡面一個非常重要的概念，也是非常重要的一個原子排程單位，但是為什麼我們會需要這樣一個概念呢？在使用容器 Docker 的時候，也沒有這個說法。其實，如果想要理解

從零開始入門 K8s | 應用編排與管理（酒祝）

一、需求來源背景問題首先來看一下背景問題。如下圖所示：如果我們直接管理叢集中所有的 Pod，應用 A、B、C 的 Pod，其實是散亂地分佈在叢集中。現在有以下的問題：首先，如何保證叢集內可用 Pod 的數量？也就是說我們應用 A 四個 Pod 如果出現了一些宿主機故障，或者一些網路問題，如何

從零開始入門 K8s | 應用編排與管理：Job & DaemonSet

一、Job 需求來源 Job 背景問題首先我們來看一下 Job 的需求來源。我們知道 K8s 裡面，最小的排程單元是 Pod，我們可以直接通過 Pod 來執行任務程序。這樣做將會產生以下幾種問題：我們如何保證 Pod 內程序正確的結束？如何保證程序執行失敗後重試？如何管理多個任務，且任務之間有依賴關

從零開始入門 K8s | 應用編排與管理：Job & DaemonSet

一、Job 需求來源 Job 背景問題首先我們來看一下 Job 的需求來源。我們知道 K8s 裡面，最小的排程單元是 Pod，我

從零開始入門 K8s | 應用配置管理

一、需求來源背景問題首先一起來看一下需求來源。大家應該都有過這樣的經驗，就是用一個容器映象來啟動一個 container。要啟動這個容器，其實有很多需要配套的問題待解決：第一，比如說一些可變的配置。因為我們不可能把一些可變的配置寫到映象裡面，當這個配置需要變化的時候，可能需要我們重新編譯一次映象，這個

從零開始入門 K8s | 應用儲存和持久化資料卷：核心知識

作者 | 至天阿里巴巴高階研發工程師一、Volumes 介紹 Pod Volumes 首先來看一下 Pod Volumes 的使用場景：場景一：如果 pod 中的某一個容器在執行時異常退出，被 kubelet 重新拉起之後，如何保證之前容器產生的重要資料沒有丟失？場景二：如果同一個 pod

從零開始入門 K8s | 應用儲存和持久化資料卷：儲存快照與拓撲排程

作者 | 至天阿里巴巴高階研發工程師一、基本知識儲存快照產生背景在使用儲存時，為了提高資料操作的容錯性，我們通常有需要對線上資料進行 snapshot ，以及能快速 restore 的能力。另外，當需要對線上資料進行快速的複製以及遷移等動作，如進行環境的複製、資料開發等功能時，都可以通過儲存

從零開始入門 K8s | 可觀測性：你的應用健康嗎？

作者 | 莫源阿里巴巴技術專家一、需求來源首先來看一下，整個需求的來源：當把應用遷移到 Kubernetes 之後，要如何去保障應用的健康與穩定呢？其實很簡單，可以從兩個方面來進行增強：首先是提高應用的可觀測性；第二是提高應用的可恢復能力。從可觀測性上來講，可以在三個方面來去做增強：

從零開始入門 K8s | 可觀測性：監控與日誌

作者 | 莫源阿里巴巴技術專家一、背景監控和日誌是大型分散式系統的重要基礎設施，監控可以幫助開發者檢視系統的執行狀態，而日誌可以協助問題的排查和診斷。在 Kubernetes 中，監控和日誌屬於生態的一部分，它並不是核心元件，因此大部分的能力依賴上層的雲廠商的適配。Kubernetes 定

從零開始入門 K8s | Kubernetes 網路概念及策略控制

作者 | 阿里巴巴高階技術專家葉磊一、Kubernetes 基本網路模型本文來介紹一下 Kubernetes 對網路模型的一些想法。大家知道 Kubernetes 對於網路具體實現方案，沒有什麼限制，也沒有給出特別好的參考案例。Kubernetes 對一個容器網路是否合格做出了限制

從零開始入門 K8s | 深入剖析 Linux 容器

作者 | 唐華敏（華敏）阿里雲容器平臺技術專家本文整理自《CNCF x Alibaba 雲原生技術公開課》第 15 講。關注“阿里巴巴雲原生”公眾號，回覆關鍵詞“入門”，即可下載從零入門 K8s 系列文章 PPT。導讀：Linux 容器是一種輕量級的虛擬化技術，在共享核心的基礎上，基於

從零開始入門 K8s | Kubernetes 排程和資源管理

作者 | 子譽螞蟻金服高階技術專家關注“阿里巴巴雲原生”公眾號，回覆關鍵詞“入門”，即可下載從零入門 K8s 系列文章 PPT。 Kubernetes 排程過程首先來看第一部分 - Kubernetes 的排程過程。如下圖所示，畫了一個很簡單的 Kubernetes 叢集架構，它包

從零開始入門 K8s | GPU 管理和 Device Plugin 工作機制

作者 | 車漾阿里巴巴高階技術專家本文整理自《CNCF x Alibaba 雲原生技術公開課》第 20 講。關注“阿里巴巴雲原生”公眾號，回覆關鍵詞“入門”，即可下載從零入門 K8s 系列文章 PPT。導讀：2016 年，隨著 AlphaGo 的走紅和 TensorF

跟著我從零開始入門FPGA（一周入門XXOO系列）-1、Verilog語法

部分同步比較跑馬燈 begin 寫代碼人的 thread get （本連載共七部分，這是第一部分）作者：McuPlayer2013 （EETOP FPGA版塊版主）原帖地址：http://bbs.eetop.cn/thread-385362-1-1.htm

從零開始學SLAM: Ceres求解優化問題

從《視覺SLAM十四講》和ceres的tutorial開始學起，同時複習一下C++中的語法。 struct CURVE_FITTING_COST { CURVE_FITTING_COST ( double x,double y): _x(x),_

《從零開始搭建遊戲伺服器》優化——Jedis連線池

前言在Java的開發中，遇到一些耗時的操作，我們通常會啟動一個執行緒，讓新建的執行緒來完成這個耗時操作而不至於影響主執行緒工作的正常進行，而當需要同時進行多個耗時操作的時候，就要相應地為其建立多個執行緒，但是這樣顯然會造成執行緒的浪費，所以我們

快速冪演算法（全網最詳細地帶你從零開始一步一步優化）

快速冪演算法——帶你從零開始一步一步優化目錄快速冪演算法