MongoDB 如何保证 oplog 顺序?

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: MongoDB 复制集里,主备节点间通过 oplog 来同步数据,Priamry 上写入数据时,会记录一条oplog,Secondary 从 Primary 节点拉取 oplog并重放,以保证最终存储相同的数据集。 oplog 主要特性 幂等性,每一条oplog,重放一次或多次,得到的结果是一样

MongoDB 复制集里,主备节点间通过 oplog 来同步数据,Priamry 上写入数据时,会记录一条oplog,Secondary 从 Primary 节点拉取 oplog并重放,以保证最终存储相同的数据集。

oplog 主要特性

  • 幂等性,每一条oplog,重放一次或多次,得到的结果是一样的;为实现幂等 mongodb 对很多操作进行来转换,比如将 insert 转换为 upsert、$inc 操作转换为 $set等等。
  • 固定大小(capped collection),oplog 使用固定空间存储,当空间满了时,会自动删除最旧的文档。
  • oplog 按时间戳排序,并且在所有节点上顺序保持一致

本文主要介绍MongoDBD 如何保证 oplog 有序存储并读取,关于 oplog 扩展阅读

并发写 oplog 时,如何加锁?

Primary 上写入文档时,首先对写入的 DB 加写意向锁,再对集合加写意向锁,然后调用底层引擎接口写入文档,对 local 数据库加写意向锁,对oplog.rs集合加写意向锁,写入 oplog。关于MongoDB 多层级意向锁的机制,参考官方文档

Write1

DBLock("db1", MODE_IX);
CollectionLock("collection1", MODE_IX);
storageEngine.writeDocument(...);    
DBLock("local", MODEX_IX);
CollectionLock("oplog.rs", MODEX_IX);
storageEngine.writeOplog(...);

Write2

DBLock("db2", MODE_IX);
CollectionLock("collection2", MODE_IX);
storageEngine.writeDocument(...);    
DBLock("local", MODEX_IX);
CollectionLock("oplog.rs", MODEX_IX);
storageEngine.writeOplog(...);

如何保证Primar上oplog 顺序?

基于上述并发策略,在多个写并发的情况下,如何保证 oplog 顺序?

oplog是一个特殊的 capped collection,文档没有_id字段,但包含一个 ts(时间戳字段),所有 oplog 的文档按照 ts 顺序存储。如下是几条 oplog 的例子。


{ "ts" : Timestamp(1472117563, 1), "h" : NumberLong("2379337421696916806"), "v" : 2, "op" : "c", "ns" : "test.$cmd", "o" : { "create" : "sbtest" } }
{ "ts" : Timestamp(1472117563, 2), "h" : NumberLong("-3720974615875977602"), "v" : 2, "op" : "i", "ns" : "test.sbtest", "o" : { "_id" : ObjectId("57bebb3b082625de06020505"), "x" : "xkfjakfjdksakjf" } }

以 wiredtiger 为例,在写入 oplog 文档时,会以 oplog 的 ts 字段作为 key、文档内容作为 value,写入一条 KV 记录,wiredtiger 会保证存储(btree 或 lsm 的方式都能保证)的文档按 key 来排序,这样就解决『文档按 ts 字段顺序存储』的问题。但仍然存在并发乱序的问题,例如:

并发写入多条 oplog时,时间戳分别是ts1、ts2、ts3 (ts1 < ts2 < ts3 ),ts1、ts3先成功了,这时Secondary 拉取到这2条 oplog,然后 ts2才写成功,然后 Secondary 再拉取到ts2,也就是说 Secondary 看到的 oplog 顺序为ts1、ts3、ts2,就会出现 oplog 乱序的问题。

MongoDB(wiredtiger 引擎)的解决方案是通过在读取时进行限制,保证Secondary 节点看到一定是顺序的,具体实现机制如下:

  1. 写入 oplog前,会先加锁给 oplog 分配时间戳,并注册到未提交列表里

    lock();
    ts = getNextOpTime(); // 根据当前时间戳 + 计数器生成
    _uncommittedRecordIds.insert(ts);
    unlock();

  2. 正式写入 oplog,在写完后,将对应的 oplog 从未提交列表里移除

    writeOplog(ts, oplogDocument);
    lock();
    _uncommittedRecordIds.erase(ts);
    unlock();

  3. 在拉取 oplog 时

    if (_uncommittedRecordIds.empty()) {

    // 所有 oplog 都可读

    } else {

    // 只能到未提交列表最小值以前的 oplog

    }

通过上述规则,最终保证Primary 上 oplog 按 ts 字段存储,并且 Secondary能按序读取所有 oplog。

如何保证 Secondary 上 oplog 顺序与Primary 一致?

Secondary 把 oplog 拉取到本地后,会多线程重放,最后在一个线程里将拉取到的 oplog原样写入本地的 local.oplog.rs集合,这样就保证 Secondary oplog 最终与 Primary 上完全相同。

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
NoSQL 网络协议 关系型数据库
mongodb 基于oplog的时间点恢复
本文简单介绍mongodb时间点恢复的过程: 1.首先创建hezi集合,并插入10000条数据; MongoDB Enterprise liuhe_rs:PRIMARY>use liuwenhe MongoDB Enterprise liuhe_rs:PRIMARY>for ( var i = 0; i < 100000; i++) { db.hezi.insert({id: i}); } MongoDB Enterprise liuhe_rs:PRIMARY> db.hezi.count(); 100000 2.执行备份操作,使用参数 --oplog ,会在备份路径下产生oplog.b
716 0
|
存储 NoSQL MongoDB
MongoDB 定位 oplog 必须全表扫描吗?
MongoDB oplog (类似于 MySQL binlog) 记录数据库的所有修改操作,除了用于主备同步;oplog 还能玩出很多花样,比如 全量备份 + 增量备份所有的 oplog,就能实现 MongoDB 恢复到任意时间点的功能 通过 oplog,除了实现到备节点的同步,也可以额外再往单独的集群同步数据(甚至是异构的数据库),实现容灾、多活等场景,比如阿里云开源的 MongoShake 就能实现基于 oplog 的增量同步。
|
NoSQL 固态存储 Shell
MongoDB Oplog Stones 实现分析及启动加载优化
对 Oplog Stones 的实现和初始化流程进行了详细的分析,简单分析了 Oplog 回收的逻辑。并对 oplog stones 的启动加载流程进行了优化,对比有数量级提升。
20071 0
|
存储 监控 NoSQL
MongoDB journal 与 oplog,究竟谁先写入?
MongoDB journal 与 oplog,谁先写入?最近经常被人问到,本文主要科普一下 MongoDB 里 oplog 以及 journal 这两个概念。 journal journal 是 MongoDB 存储引擎层的概念,目前 MongoDB主要支持 mmapv1、wiredtiger、mongorocks 等存储引擎,都支持配置journal。
|
NoSQL MongoDB 存储
最佳实践 | MongoDB 定位 oplog 必须全表扫描吗?
MongoDB oplog (类似于 MySQL binlog) 记录数据库的所有修改操作,除了用于主备同步;oplog 还能玩出很多花样。
2518 0
|
存储 监控 NoSQL
MongoDB · 引擎特性 · journal 与 oplog,究竟谁先写入?
MongoDB journal 与 oplog,谁先写入?最近经常被人问到,本文主要科普一下 MongoDB 里 oplog 以及 journal 这两个概念。 journal journal 是 MongoDB 存储引擎层的概念,目前 MongoDB主要支持 mmapv1、wiredtiger、mongorocks 等存储引擎,都支持配置journal。
1947 0
|
存储 NoSQL
MongoDB Primary 为何持续出现 oplog 全表扫描?
线上某 MongoDB 复制集实例(包含 Primary、Secondary、Hidden 3个节点 ),Primary 节点突然 IOPS 很高,调查后发现,其中 Hidden 处于 RECOVERING 状态,同时 Priamry 上持续有一全表扫描 oplog 的操作,正是这个 oplog 的 COLLSCAN 导致IO很高。

相关产品

  • 云数据库 MongoDB 版