MongoDB trouble shoot sharded clusters

本文涉及的产品
云数据库 MongoDB,通用型 2核4GB
简介:

Part1:写在最前

    在MongoDB sharding环境中,我们会遇到一些常见的错误,本文就MongoDB官网列出的错误进行翻译。



Part2:整体环境

    MongoDB 3.4.4



实战

Part1:某个应用或者Mongos宕机

    如果每个应用程序服务器都有自己的mongos实例,其他应用程序服务器可以继续访问数据库。 此外,mongos实例不保持持久状态,并且可以重新启动(启动过程中为unavailable),而不会丢失任何状态或数据。 当一个mongos实例启动时,它会从configserver取回数据,并可以开始路由查询。



Part2:在sharding集群中,其中一个mongod进程宕机

    对于sharding环境,副本集提供了非常好的高可用能力。如果宕机的是主库,则副本集会选出一个新的主库。如果宕机的是从库,则副本集会让这台从库与主库断开连接,并且这台从库的数据不会被清空。在三个成员副本集中,即使该组的单个成员遇到灾难性故障,另外两个成员也有完整的数据副本。

    经常去检查可用性是否中断以及是否有故障,如果系统出现不可恢复的故障,尽快替换掉出问题的服务器,并将一台新的成员加入到副本集中,以保证整个副本集集群的高可用性。



Part3:sharding中的所有成员都unavailable

    如果副本集分片的所有成员都不可用,则该分片中保留的所有数据都不可用。但是,所有其他分片上的数据将保持可用,并且可以将数据读取和写入其他分片。?但是,应用程序必须能够处理部分结果,此时DBA该调查中断的原因,并尝试尽快恢复分片。



Part4:configserver副本集成员不可用

    在版本3.2中更改:从MongoDB 3.2开始,分片集群的配置服务器可以部署为副本集。 副本集配置服务器必须运行WiredTiger存储引擎。 MongoDB 3.2不推荐使用配置服务器的三个镜像mongod实例。

    副本集为配置服务器提供高可用性。 如果不可用的配置服务器是主服务器,则副本集将选择新的主服务器。

    如果副本集配置服务器丢失其主服务器,并且无法选择主服务器,则集群的元数据将变为只读。 仍然可以从分片读取和写入数据,但是在primary可用之前无法进行块迁移或块分割。 如果所有配置数据库变得不可用,则集群无法使用。



Part5:configserver数据过旧导致游标失败

    当一个或多个mongos实例尚未从配置数据库更新其集群元数据的缓存时,查询返回以下警告:

1
could not initialize cursor across all shards because : stale config detected

    此警告不应传回应用程序。警告将重复,直到所有的mongos实例刷新其缓存。要强制实例刷新其缓存,请运行flushRouterConfig命令。



Part6:分片键和集群可用性

选择分片键时最重要的考虑因素是:

1.确保MongoDB能够在分片间均匀分配数据

2.衡量写操作可以遍布整个集群

3.确保mongos可以将大多数查询隔离成特定的mongod。

更多:

1.每个分片应该是副本集,如果特定的mongod实例失败,则副本集成员将选择另一个作为主节点并继续操作。?但是,如果整个分片由于某种原因无法访问或失败,则该数据将不可用。

2.如果分片键允许mongos将大多数操作分离成单个分片,则单个分片的失败只会使一些数据不可用。

3.如果分片建分布的数据要求获取整个集群,那么这个分片不可用将导致整个集群不可用

实质上,这也说明了选择合适的片键对于单个分片隔离查询操作的重要性




Part7:configserver串错误

    从MongoDB 3.2开始,configserver服务器可以部署为副本集。 分片集群的mongos实例必须指定相同的configserver服务器副本集名称,但可以指定副本集的不同成员的主机名和端口。

    3.4开始,不再支持使用镜像mongod实例作为配置服务器(SCCC)。 在将分片集群升级到3.4之前,必须将配置服务器从SCCC转换为CSRS。

    对于早期版本的MongoDB分片集群,configserver服务器使用三个镜像mongod实例的拓扑,分片集群中的mongos实例必须指定相同的configDB字符串。



Part8:移动configerserver服务器时避免停机

    使用CNAME来识别您的配置服务器到集群,以便可以重新命名和重新编号配置服务器,而不会停机。



Part9:move Chunk 报错

    chunk migration结束时,分片必须连接到configserver数据库才能更新群集元数据中的块的记录。 如果分片无法连接到configserver数据库,MongoDB会报告以下错误:

1
ERROR: moveChunk commit failed: version is at <n>|<nn> instead of <N>|<NN> " and " ERROR: TERMINATING"

    当发生这种情况时,shard副本集的primary 复制终止以保护数据一致性。 如果secondary成员可以访问配置数据库,则在选举为新主之后,分片上的数据将再次被访问。




 本文转自 dbapower 51CTO博客,原文链接:http://blog.51cto.com/suifu/1945078,如需转载请自行联系原作者

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
27天前
|
存储 SQL NoSQL
什么是 MongoDB,为什么它是当今最受欢迎的数据库之一?
什么是 MongoDB,为什么它是当今最受欢迎的数据库之一?
|
29天前
|
JSON NoSQL MongoDB
理解Nosql数据库的mongodb
【5月更文挑战第5天】MongoDB是2009年发布的一款通用型NoSQL数据库,结合了关系模型和NoSQL的优点,适用于各种现代应用。其特点包括图形界面、数据服务、云基础设施集成(AWS, Azure, Google Cloud)。它具备全面的查询能力、ACID事务、可调整的一致性保证,并有多语言驱动及工具,可在任何地方运行。
206 4
|
29天前
|
存储 NoSQL MongoDB
MongoDB数据库转换为表格文件的Python实现
MongoDB数据库转换为表格文件的Python实现
153 0
|
29天前
|
存储 NoSQL 关系型数据库
Percona XtraBackup是否支持MongoDB数据库备份?
【5月更文挑战第13天】Percona XtraBackup是否支持MongoDB数据库备份?
126 1
|
1天前
|
存储 JSON NoSQL
【文档数据库】ES和MongoDB的对比
【文档数据库】ES和MongoDB的对比
6 1
|
6天前
|
NoSQL JavaScript 安全
精心操作MongoDB:删除数据库的关键步骤和重要事项
精心操作MongoDB:删除数据库的关键步骤和重要事项
|
6天前
|
NoSQL 测试技术 MongoDB
MongoDB数据库管理:全面掌握mongodump和mongorestore的备份与恢复技巧
MongoDB数据库管理:全面掌握mongodump和mongorestore的备份与恢复技巧
|
6天前
|
存储 NoSQL 数据处理
探索MongoDB:灵活、高性能的NoSQL数据库解决方案与应用实践
探索MongoDB:灵活、高性能的NoSQL数据库解决方案与应用实践
|
8天前
|
存储 缓存 NoSQL
MongoDB数据库的主要应用场景是什么?
【6月更文挑战第5天】MongoDB数据库的主要应用场景是什么?
47 1
|
8天前
|
存储 NoSQL MongoDB
MongoDB数据库
【6月更文挑战第5天】MongoDB数据库
39 1