1. 基本概念

oplog使用固定大小集合記錄了資料庫中所有修改操作的操作日誌(新增、修改和刪除,無查詢),mongodb收到修改請求後,先在主節點(Primary)執行請求,再把操作日誌儲存到oplog表中,其他從節點(Secondary)到主節點拉取oplog並在非同步程序中應用這些操作,從而達到主從資料的一致性。複製組內的所有節點都會儲存一份oplog(集合名local.oplog.rs),這讓他們可以保持同樣的資料庫狀態。

為了提高同步效率,所有複製組成員都會向其他成員傳送保活報文(pings),任意從節點可以從其他成員節點同步oplog(即可以從主節點同步,也可以從從節點同步)。oplog中的操作都是冪等的,即oplog中的某個操作日誌在目標資料庫中應用一次或者多次,其結果都是一樣的。

主從同步示意圖如下(客戶端寫資料到主節點,從節點從主節點同步oplog並應用到本節點):

2. Oplog 的預設儲存大小

當你首次啟動複製組節點時,在你未指定oplog大小時,mongodb會使用預設大小來建立oplog。

對於Unix和Windows系統來說,預設大小和儲存引擎的對應關係如下:

儲存引擎型別 oplog大小 下限 上限
記憶體 實體記憶體的5% 50MB 50GB
WiredTiger 空閒磁碟的5% 990MB 50GB 

(注意,最新4.4版本的mongodb移除了MMAP型別儲存引擎的支援。)

對於64位maxOS系統來說,參照使用的儲存引擎型別,該預設大小是192MB(實體記憶體或者磁碟空間),如下:

儲存引擎型別 oplog大小
記憶體 192MB實體記憶體
WiredTiger 192MB的磁碟空間

大部分情況下,oplog的預設大小是足夠的。舉個例子,如果5%的磁碟空間儲存了最近24小時的操作日誌,此時如果某個從節點的日誌同步時間差超過24小時時,

從節點將停止同步oplog,並將自身的狀態從“Secondery”切換到“STALE”。當然,在實際的執行環境中,大部分複製組成員的負載會低一些,他們的oplog中也會持有更長時間段的日誌。

3. 可能需要更大oplog的工作負載

如果你預測到你的複製組的工作負載屬於以下的模式,你需要建立比預設值更大一些的oplog。相反的,如果你的應用大部分情況下是讀操作,只有小部分的寫操作,那麼更小一些的oplog也是滿足需要的。

下面的工作負載可能需要更大一些的oplog

單次操作會更新多條記錄

為了滿足oplog的冪等性,單次操作更新多條記錄時,mongodb會記錄多條操作日誌到oplog中,這種場景就需要使用大量的oplog的空間,雖然此時資料大小或者磁碟大小並沒有相應的增加那麼多。

刪除操作和插入操作一樣多時

如果你的刪除操作請求量和插入操作的請求量大致相當時,資料庫在磁碟空間消耗方面不會有明顯增長,但是操作日誌的大小會非常巨大。

顯著數量的原文件更新

如果工作負載的大部分操作都是原文件更新,此時雖然不會增加資料庫中文件的數量,但是資料庫需要記錄大量的操作日誌。

4. Oplog狀態

如果要檢視oplog的狀態,包含記錄條數和時間範圍,可以使用"rs.printReplicationInfo() "命令,如下:

MongoDB Enterprise repa:PRIMARY> rs.printReplicationInfo()
configured oplog size: 1024MB // oplog大小是1024MB
log length start to end: 867353secs (240.93hrs) // 第一條和最後一條日誌的時間差是240.93小時
oplog first event time: Wed Jul 07 2021 20:24:57 GMT+0800
oplog last event time: Sat Jul 17 2021 21:20:50 GMT+0800
now: Sat Jul 17 2021 21:20:56 GMT+0800

5. Oplog格式

從前面知道oplog是儲存在資料庫local中,表名為“oplog.rs”,通過查詢命令看一下oplog的資料格式:

db.oplog.rs.find({"ns":"test.users"}).limit(1)   // ns欄位指明查詢對資料庫test中users表的操作日誌
{
"ts": Timestamp(1625660877, 2), // 日誌的操作時間戳,第一個數字是時間戳,單位秒,第二個數字是當前秒的第2個操作
"t": NumberLong(2),
"h": NumberLong("5521980394145765083"),
"v": 2,
"op": "i", // i表示insert,u表示update,d表示delete,c 表示的是資料庫的命令,比如建表,n表示noop,即空操作
"ns": "test.users", // 名稱空間,即資料庫和集合名稱
"ui": UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), // 連線到mongodb的客戶端會話id
"wall": ISODate("2021-07-07T12:27:57.689Z"), // 操作執行時間,utc時間
"o": { // 操作的內容,對於不同的op型別,其格式不盡相同
"_id": ObjectId("60e59dcd46db1fb4605f8b18"),
"name": "1"
}
}

6. CUD操作和Oplog的對應關係

前面分析oplog日誌格式的時候,查看了一條insert操作對應的日誌,就不再贅述,下面再看下delete和update對應的日誌格式(find不會產生oplog)。

delete操作

首先插入三條記錄:

MongoDB Enterprise repa:PRIMARY> use test
switched to db test
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"張三","age":NumberInt(10),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"李四","age":NumberInt(11),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"王五","age":NumberInt(12),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.find()
{ "_id" : ObjectId("60f2e11b0d98dc3b374199de"), "name" : "張三", "age" : 10, "sex" : "男" }
{ "_id" : ObjectId("60f2e11e0d98dc3b374199df"), "name" : "李四", "age" : 11, "sex" : "男" }
{ "_id" : ObjectId("60f2e11e0d98dc3b374199e0"), "name" : "王五", "age" : 12, "sex" : "男" }

執行delete操作,匹配條件是{"sex":"男"},即刪除所有性別為男的記錄:

MongoDB Enterprise repa:PRIMARY> db.users.remove({"sex":"男"})
WriteResult({ "nRemoved" : 3 })
MongoDB Enterprise repa:PRIMARY> db.users.find()
MongoDB Enterprise repa:PRIMARY>

可以看到,一條刪除命令刪除了三條記錄,對應的oplog是什麼呢,來,查一下:

MongoDB Enterprise repa:PRIMARY> use local
switched to db local
MongoDB Enterprise repa:PRIMARY> db.oplog.rs.find({"ns":"test.users","op":"d","wall":{"$gt":ISODate("2021-07-17T13:50:57.689Z")}})
{ "ts" : Timestamp(1626530154, 1), "t" : NumberLong(2), "h" : NumberLong("5834731856459959506"), "v" : 2, "op" : "d", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "wall" : ISODate("2021-07-17T13:55:54.424Z"), "o" : { "_id" : ObjectId("60f2e11b0d98dc3b374199de") } }
{ "ts" : Timestamp(1626530154, 2), "t" : NumberLong(2), "h" : NumberLong("-2164276082472824844"), "v" : 2, "op" : "d", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "wall" : ISODate("2021-07-17T13:55:54.424Z"), "o" : { "_id" : ObjectId("60f2e11e0d98dc3b374199df") } }
{ "ts" : Timestamp(1626530154, 3), "t" : NumberLong(2), "h" : NumberLong("3834858247238363179"), "v" : 2, "op" : "d", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "wall" : ISODate("2021-07-17T13:55:54.424Z"), "o" : { "_id" : ObjectId("60f2e11e0d98dc3b374199e0") } }
MongoDB Enterprise repa:PRIMARY>

從上可以看到,一條刪除命令,在oplog中記錄了三條日誌,下面分析其中的一條:

{
"ts": Timestamp(1626530154, 1),
"t": NumberLong(2),
"h": NumberLong("5834731856459959506"),
"v": 2,
"op": "d", // 刪除操作
"ns": "test.users", // 資料庫是test,集合是users
"ui": UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"),
"wall": ISODate("2021-07-17T13:55:54.424Z"),
"o": { // 待刪除記錄的_id
"_id": ObjectId("60f2e11b0d98dc3b374199de")
}
}

從上面日誌分析可以得到結論:

使用者的一次刪除請求,如果刪除了N條記錄,那麼oplog中將記錄N條日誌,日誌中會記錄待刪除記錄的“_id”欄位,與使用者的刪除請求的引數無關

update操作

下面再看下更新操作對應的oplog的日誌數量和格式。

首先插入三條記錄:

MongoDB Enterprise repa:PRIMARY> use test
switched to db test
MongoDB Enterprise repa:PRIMARY>
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"張三","age":NumberInt(10),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"李四","age":NumberInt(11),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.insert({"name":"王五","age":NumberInt(12),"sex":"男"})
WriteResult({ "nInserted" : 1 })
MongoDB Enterprise repa:PRIMARY> db.users.find()
{ "_id" : ObjectId("60f2e2db0d98dc3b374199e1"), "name" : "張三", "age" : 10, "sex" : "男" }
{ "_id" : ObjectId("60f2e2db0d98dc3b374199e2"), "name" : "李四", "age" : 11, "sex" : "男" }
{ "_id" : ObjectId("60f2e2dc0d98dc3b374199e3"), "name" : "王五", "age" : 12, "sex" : "男" }

再執行更新操作:

MongoDB Enterprise repa:PRIMARY> db.users.update({"sex":"男"},  {"$inc":{"age":NumberInt(1)}}, false, true)
WriteResult({ "nMatched" : 3, "nUpserted" : 0, "nModified" : 3 })
MongoDB Enterprise repa:PRIMARY> db.users.find()
{ "_id" : ObjectId("60f2e2db0d98dc3b374199e1"), "name" : "張三", "age" : 11, "sex" : "男" }
{ "_id" : ObjectId("60f2e2db0d98dc3b374199e2"), "name" : "李四", "age" : 12, "sex" : "男" }
{ "_id" : ObjectId("60f2e2dc0d98dc3b374199e3"), "name" : "王五", "age" : 13, "sex" : "男" }

從返回結果可以看到,更新操作執行成功,並更新了三條記錄,下面看下oplog的日誌:

MongoDB Enterprise repa:PRIMARY> use local
switched to db local
MongoDB Enterprise repa:PRIMARY> db.oplog.rs.find({"ns":"test.users","op":"u","wall":{"$gt":ISODate("2021-07-17T13:50:57.689Z")}})
{ "ts" : Timestamp(1626530575, 1), "t" : NumberLong(2), "h" : NumberLong("-6359278368726841648"), "v" : 2, "op" : "u", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "o2" : { "_id" : ObjectId("60f2e2db0d98dc3b374199e1") }, "wall" : ISODate("2021-07-17T14:02:55.319Z"), "o" : { "$v" : 1, "$set" : { "age" : 11 } } }
{ "ts" : Timestamp(1626530575, 2), "t" : NumberLong(2), "h" : NumberLong("-4351658862590633053"), "v" : 2, "op" : "u", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "o2" : { "_id" : ObjectId("60f2e2db0d98dc3b374199e2") }, "wall" : ISODate("2021-07-17T14:02:55.319Z"), "o" : { "$v" : 1, "$set" : { "age" : 12 } } }
{ "ts" : Timestamp(1626530575, 3), "t" : NumberLong(2), "h" : NumberLong("5911110003695351597"), "v" : 2, "op" : "u", "ns" : "test.users", "ui" : UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"), "o2" : { "_id" : ObjectId("60f2e2dc0d98dc3b374199e3") }, "wall" : ISODate("2021-07-17T14:02:55.319Z"), "o" : { "$v" : 1, "$set" : { "age" : 13 } } }

和delete類似,update操作也是產生了三條日誌,選第一條分析:

{
"ts": Timestamp(1626530575, 1),
"t": NumberLong(2),
"h": NumberLong("-6359278368726841648"),
"v": 2,
"op": "u", // 更新操作
"ns": "test.users", // 資料庫test,集合是users
"ui": UUID("edabbd93-76eb-42be-b54a-cdc29eb1f267"),
"o2": { // 更新操作的查詢條件,使用的記錄的_id
"_id": ObjectId("60f2e2db0d98dc3b374199e1")
},
"wall": ISODate("2021-07-17T14:02:55.319Z"),
"o": { // 更新操作的更新內容,原始的inc操作符轉變為set操作符,可以滿足冪等性
"$v": 1,
"$set": {
"age": 11
}
}
}

從上面日誌分析可以得到結論:

使用者的一次更新請求,如果更新了N條記錄,那麼oplog中將記錄N條日誌,日誌中記錄待更新記錄的“_id”欄位為查詢條件,更新操作使用的是set操作符,並不是使用者的更新操作符

小結

從上面的delete和update操作對應的oplog日誌分析可以看出,oplog記錄的不是使用者的原始命令,而是對應的邏輯命令,通過這種方式可以滿足oplog的冪等性,但是也會衍生出可能產生大量oplog記錄的問題,需要使用者根據業務模型的需要,來選擇合適的oplog大小。