MongoDB主备副本集方案:两台服务器使用非对称部署的方式实现高可用与容灾备份

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云数据库 Tair(兼容Redis),内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 在资源受限的情况下,为了实现MongoDB的高可用性,本文探讨了两种在两台服务器上部署MongoDB的方案。方案一是通过主备身份轮换,即一台服务器作为主节点,另一台同时部署备节点和仲裁节点;方案二是利用`priority`设置实现自动主备切换。两者相比,方案二自动化程度更高,适合追求快速故障恢复的场景,而方案一则提供了更多的手动控制选项。文章最后对比了这两种方案与标准三节点副本集的优缺点,指出三节点方案在高可用性和数据一致性方面表现更佳。

昨天(2024/11/18)碰到这么个问题,因为要控制成本,公司只愿意出两台服务器(很小的盒子)部署业务,采用传统的主备模式。这其中就包括Mongodb数据库,最稳固的方法当然是采用官方推荐的最低3台。但没办法,只能是模拟部署了。

选举机制踩坑-必须获得超过半数票

一开始冒出来的想法是各部署两个mongodb节点(2+2),这样挂掉还有一半,但是实测不会进行选举,集群会卡住不可用!

后来我想,是不是因为偶数的原因,试了下(3+3),结果还是不可用。因为我问gpt说是获得的票数是 votes > ceil(total/2),被个ceil给坑了。因为按照这个设定,我以为是>=,不然3个节点挂一个就应该不可用。

实际上只要超过半数就可以,奇数的不会出现对等,所以更好控制!
另外三节点,挂掉一个后,rs.status() 会出现错误 : Error: Invalid UTF-8 string in BSON document

方案一:主备身份轮换

部署拓扑结构

在方案一中,我们使用两台服务器,部署一个主实例(Primary)和一个备用实例(Secondary),并额外配置一个投票节点(Arbiter)来保证选举的有效性。

  • 服务器A(主服务器):部署一个MongoDB实例(Primary)
  • 服务器B(备用服务器):部署一个MongoDB实例(Secondary)和一个Arbiter实例
graph LR
    A[服务器A - MongoDB Primary] --> B[服务器B - MongoDB Secondary]
    B --> C[服务器B - Arbiter]

实现步骤

  1. 初始配置

    • 服务器A上的MongoDB实例被设置为Primary节点。
    • 服务器B上的MongoDB实例被配置为Secondary,并在服务器B上额外部署一个Arbiter实例,用于选举。
    • 副本集初始化完成后,服务器A作为Primary处理所有写操作,服务器B作为Secondary提供读操作(如果配置为允许读操作)。
  2. 故障切换与维护流程

    • 故障切换:当Primary节点(服务器A)发生故障时,备用服务器B发起选举,获得自身和Arbiter的投票,从而成为新的Primary。
    • 维护切换:在需要手动切换主备角色时,可以先停止服务器A,将服务器B设置为Primary并确保其稳定运行,随后启动服务器A作为新的Secondary节点,并重新配置副本集。

数据一致性影响

  • 在此方案中,主备切换可能存在短暂的写入中断,特别是在Primary节点发生故障时,需要等待选举完成。
  • 若在Secondary节点成为新的Primary期间,未及时同步的数据可能会导致数据一致性风险,具体取决于复制滞后的程度和写入操作量。

客户端连接

客户端连接时需要使用副本集连接字符串,确保在Primary节点切换时能够自动连接新的Primary:

graph LR
    Client[客户端] --> A[服务器A - MongoDB Primary]
    Client --> B[服务器B - MongoDB Secondary]

方案二:基于priority的自动主备切换

部署拓扑结构

与方案一类似,方案二也依赖于两台服务器,但通过设置不同的priority来实现自动化的主备角色管理。

  • 服务器A(主服务器):Primary节点,配置较高的priority
  • 服务器B(备用服务器):Secondary节点,配置较低的priority,并包含一个Arbiter节点
graph LR
    A[服务器A - MongoDB Primary, Priority高] --> B[服务器B - MongoDB Secondary, Priority低]
    B --> C[服务器B - Arbiter]

实现步骤

  1. 配置优先级

    • 服务器A的priority值设置较高,确保在正常运行时始终担任Primary节点。
    • 服务器B的priority值设置较低,通常作为Secondary节点,但在Primary发生故障时会自动升级为Primary。
  2. 故障恢复与抢占

    • 当服务器A发生故障,备用服务器B会自动成为Primary节点,继续处理写入请求。
    • 服务器A恢复并重新加入副本集后,由于其priority值较高,会自动抢占Primary角色,恢复为主服务器。

数据一致性影响

  • 通过自动优先级切换,方案二能够更快响应主备角色的变化,减少切换过程中的写入中断。
  • 若发生网络分区或短暂故障,可能会导致短暂的"脑裂"风险。通过配置Arbiter节点,该风险可以得到一定程度的缓解。
  • 自动抢占可能引发短暂的切换过程,尤其是在较高负载下时,需要注意数据的一致性和写入冲突的处理。

客户端连接

客户端连接时也应使用副本集连接字符串,确保自动连接当前的Primary节点:

graph LR
    Client[客户端] --> A[服务器A - MongoDB Primary, Priority高]
    Client --> B[服务器B - MongoDB Secondary, Priority低]

方案对比

比较项 方案一:手动主备切换 方案二:基于priority的自动主备切换
实现复杂度 较高,需要手动干预和配置 较低,配置完成后自动处理
主备切换响应速度 需要一定的手动干预时间 自动响应,通常较快
灵活性 较高,可以控制主备角色转换的时机 灵活性相对较低,但自动化程度高
维护成本 需要手动操作和关注角色切换 自动维护成本较低
适用场景 需要较强的角色控制时,例如关键业务维护期间 适用于高可用和快速故障切换的场景

与三台设备组成的副本集对比

在标准的三节点副本集架构中,通常由一个Primary节点和两个Secondary节点组成,无需额外的Arbiter来参与投票,具备更好的高可用性和数据一致性保障。

三节点副本集的优势

  1. 更高的数据一致性

    • 数据在三节点中分布复制,出现节点故障时,仍能确保数据存在于至少两个节点上,从而减少数据丢失的风险。
    • 不同于两节点加Arbiter的方案,三节点架构能够更好地应对网络分区问题,降低“脑裂”风险。
  2. 自动化程度更高

    • 无需额外配置投票节点,节点之间的选举更加自然。
    • 主备切换流程中断更短,因三个节点始终存在一个备用Secondary作为下一任Primary候选。
  3. 扩展性更好

    • 在需要进一步扩展时,三节点副本集更容易增加节点,提升整体性能和可靠性。

两节点方案的局限性

  • 高可用性略低:由于仅有一个Secondary节点,任意节点故障都会显著影响集群的可用性。
  • 选举机制更复杂:需要通过Arbiter来确保选举票数多数,不如三节点架构直接稳定。
  • 维护复杂度更高:在进行角色切换时,需要手动操作或依赖于不同的priority配置,增加维护成本。

结论

  • 方案一适合需要更严格控制主备切换时机的场景,能够手动调整和维护,但维护成本较高。
  • 方案二通过priority实现自动切换,适合追求高可用性和快速故障响应的场景,但需要额外注意抢占过程中可能出现的临时一致性问题。
  • 相比于标准的三节点副本集,两节点方案具备一定的局限性和风险,适用于资源有限但需要基本高可用性的环境。三节点方案更为稳健,推荐在资源充足的情况下使用。

通过合理选择和配置,可以实现符合业务需求的MongoDB副本集方案,提高数据库系统的容灾能力和高可用性。

附录 - 启动脚本

说明: mongodb7.0 + windows 环境测试

副本集创建

简单的把数据放在三个目录去

.\mongod.exe --port 27017 --dbpath G:/mongo/node1/data --logpath G:/mongo/node1/log/mongo.log --replSet rs 

.\mongod.exe  --port 27018 --dbpath G:/mongo/node2/data --logpath G:/mongo/node2/log/mongo.log --replSet rs

.\mongod.exe  --port 27019 --dbpath G:/mongo/node3/data --logpath G:/mongo/node3/log/mongo.log --replSet rs

副本集初始化

rs.initiate({
  _id: "rs",
  members: [
    { _id: 0, host: "localhost:27017" },
    { _id: 1, host: "localhost:27019" }
  ]
})

一定概率不让直接加投票节点,需要配置默认writeConcern

db.adminCommand({
  "setDefaultRWConcern" : 1,
  "defaultWriteConcern" : {
    "w" : 1
  }
})

添加投票节点

rs.addArb("localhost:27018")
相关文章
|
8天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
12天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
3天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
8天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
19天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3940 3
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
8天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
521 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
15天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
991 3
|
7天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
12天前
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
444 18
白话文讲解大模型| Attention is all you need
|
13天前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
661 10
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎