MongoDB 哈希分片为什么数据大小不均匀？-阿里云开发者社区

MongoDB 哈希分片为什么数据大小不均匀？

2017-08-02 3704

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

Redis 开源版，标准版 2GB

云原生多模数据库 Lindorm，多引擎多规格 0-4节点

简介： MongoDB 哈希分片为什么数据大小？今天接到一个用户反馈的问题，sharding集群，使用wiredtiger引擎，某个DB下集合全部用的hash分片，show dbs 发现其中一个shard里该DB的大小，跟其他的集合差别很大，其他基本在60G左右，而这个shard在200G左右？

今天接到一个用户反馈的问题，sharding集群，使用wiredtiger引擎，某个DB下集合全部用的hash分片，show dbs 发现其中一个shard里该DB的大小，跟其他的集合差别很大，其他基本在60G左右，而这个shard在200G左右？

_2017_08_02_7_31_54

由于这个DB下有大量的集合及索引，一眼也看不出问题，写了个脚本分析了一下，得到如下结论

somedb 下所有集合都是hash分片，并且chunk的分布是比较均匀的
show dbs 反应的是集合及索引对应的物理文件大小
集合的数据在各个shard上逻辑总大小是接近的，只有shard0占用的物理空间比其他大很多

从shard0上能找到大量 moveChunk 的记录，猜测应该是集合的数据在没有开启分片的情况下写到shard0了，然后开启分片后，从shard0迁移到其他shard了，跟用户确认的确有一批集合是最开始没有分片。

所以这个问题就转换成了，为什么复制集里集合的逻辑空间与物理空间不一致？即collection stat 里 size 与 storageSize 的区别。

mymongo:PRIMARY> db.coll.stats()
{
    "ns" : "test.coll",
    "size" : 30526664,
    "count" : 500808,
    "avgObjSize" : 33,
    "storageSize" : 19521536,
    "capped" : false,
    ....
}

逻辑存储空间与物理存储空间有差距的主要原因

存储引擎存储时，需要记录一些额外的元数据信息，这会导致物理空间总和比逻辑空间略大
存储引擎可能支持数据压缩，逻辑的数据块存储到磁盘时，经过压缩可能比逻辑数据小很多了（具体要看数据的特性，极端情况下压缩后数据变大也是有可能的）
引擎对删除空间的处理，很多存储引擎在删除数据时，考虑到效率，都不会立即去挪动数据回收删除的存储空间，这样可能导致删除很多文档后，逻辑空间变小，但物理空间并没有变小。如下图所示，灰色的文档删除表示被删除。删除的空间产生很多存储碎片，这些碎片空间不会立即被回收，但有新文档写入时，可以立即被复用。

_2017_08_02_8_03_44

而上述case里，集合数据先分到一个shard，然后启用分片后，迁移一部分到其他shard，就是一个典型的产生大量存储碎片的例子。存储碎片对服务通常影响不大，但如果因为空间不够用了需要回收，如何去强制的回收这些碎片空间？

数据清理掉重新加入复制集同步数据，或者直接执行resync命令（确保有还有其他的数据备份）
对集合调用 compact 命令

2017-08-03 15:42:04 update

关于 compact操作，有同学问道，问题链接

mongdb中由于删除了大量的数据，但是没有释放磁盘空间给系统，想通过compact命令来释放磁盘空间；但是对compact命令有几个疑问

compact命令在WiredTiger引擎上是库级别锁还是collection级别锁？
执行compact命令需要多大的空余磁盘空间呢

compact 加的是DB级别的互斥写锁，同一个DB上的读写都会被阻塞
compact基本不需要额外的空间，wiredtiger compact的原理是将数据不断往前面的空洞挪动，并不需要把数据存储到临时的位置（额外的存储空间）。

参考资料

相关实践学习

MongoDB数据库入门

MongoDB数据库入门实验。

快速掌握 MongoDB 数据库

本课程主要讲解MongoDB数据库的基本知识，包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用（唯一索引、地理索引、过期索引、全文索引等）、MapReduce操作实现、用户管理、Java对MongoDB的操作支持（基于2.x驱动与3.x驱动的完全讲解）。通过学习此课程，读者将具备MongoDB数据库的开发能力，并且能够使用MongoDB进行项目开发。   相关的阿里云产品：云数据库 MongoDB版云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构，具备安全审计，时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。云数据库MongoDB版（ApsaraDB for MongoDB）完全兼容MongoDB协议，基于飞天分布式系统和高可靠存储引擎，提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。产品详情: https://www.aliyun.com/product/mongodb

MongoDB 哈希分片为什么数据大小不均匀？

参考资料

NoSQL数据库

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像