MongoDB数据库查询性能提高40倍

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: MongoDB数据库查询性能提高40倍

MongoDB数据库查询性能提高40倍的经历分享

大家在使用 MongoDB 的时候有没有碰到过性能问题呢?下面这篇文章主要给大家分享了MongoDB数据库查询性能提高40倍的经历,需要的朋友可以参考借鉴,下面来一起看看吧。

前言

数据库性能对软件整体性能有着至关重要的影响,本文给大家分享了一次MongoDB数据库查询性能提高40倍的经历,感兴趣的朋友们可以参考学习。

背景说明

1、数据库:MongoDB

2、数据集:

    • A:字段数不定,这里主要用到的两个UID和Date
    • B:三个字段,UID、Date、Actions。其中Actions字段是包含260元素JSON数组,每个JSON对象有6个字段。共有数据800万条左右。

    3、业务场景:求平均数

      • 通过组合条件从A数据表查询出(UID,Date)列表,最多可能包含数万条记录;
      • 然后用第1步的结果从B中查询出对应的数据
      • 用第2步结果去Actions的某个固定位置的元素的进行计算

      进化过程

      在这里使用Python演示

      最直接想到的方法

      根据上面的业务场景描述,最容易想到的解决方法就是

      from pymongo import MongoClient
      # 连接数据库
      db = MongoClient('mongodb://127.0.0.1:27017')['my_db']
      # 简化的查询数据集A的条件
      filter = {...}
      # 查询Collection A
      a_cursor = db.a.find(_filter)
      a_docs = [x for x in a_cursor]
      # 变量的初始定义
      count = 0
      total = 0
      # 加入需要用到的元素为第21个
      index = 20
      # 查询Collection B,同时做累加
      for a_doc in a _docs:
       b_doc = db.b.find_one({'uid':a_doc['uid'], 'date': a_doc['date']})
       # 只有能查到相应的结果时,才可以
       if b_doc is not None:
       total += b_doc['actions'][20]['number']
       count += 1
       # 求平均数
       if count > 0 :
       avg = total/count

      image.gif

      实现难度当然是最低的,可是整个任务在第一步只有1万条左右的返回时,消耗的时间竟然达到了惊人38秒。当然这是已经加了索引的结果,否则可能都无法得到结果了。

      减少查询次数

      瓶颈显而易见,在循环中查询Collection B,增加了网络开销,自然也就增加时间,如果一次查询出所有结果,自然会大大提高效率。也就是说,我要把第一步的结果作为条件一次性传递,做一个$in操作。可是怎么才能做到呢?如果在uid和date上分别做$in操作,那么返回的结果就会是二者单独做$操作的合集,很显然这和要求是不符的。

      经过上面的分析,似乎进入了死胡同。其实答案也基本显现了,需要有一个字段可以满足上面的要求,那么这个字段就是uid和date的合体,就命名为uid_date。uid_date是一个新字段,在B中并不存在,在使用之前需要将数据库现有的数据做一下处理。

      处理完毕改造程序:

      # 下面的只体现和本次修改相关的内容
      uid_date_list = []
      for a_doc in a_docs:
       uid_date_list.append(a_doc['uid'] + '_' + a_doc['date'])
      # 查询B
      b_cursor = db.b.find({'uid_date':{'$in':uid_date_list}})
      # 下面就是取出结果,求平均数
      ...

      image.gif

      这一番改造颇费时间,主要是前期的数据处理。代码改造完毕,执行下看看吧。

      可是,可是…… 45秒

      我做错了什么?!

      增加返回记录数

      我还是坚信上面的优化思路是对的,现在看看数据库能给一些什么线索吧。

      登录到数据库服务器,找到MongoDB的日志/data/mongodb/logs/mongod.log。仔细查找,发现在查询数据集B时有很多getMore命令。这就奇怪了,我是一次性查询,为什么还有getMore。

      赶紧查下官方的文档,然后发现了下面的内容:

      image.gif编辑

      batcSize参数指定了每次返回的个数,默认的101个。那看来这个应该是问题所在。找下pymongo的文档,也可以设置这个参数,那就设个大的吧10000。

      再次改造程序如下:

      # 增加batch_size
      b_cursor = db.b.find({'uid_date':{'$in': uid_date_list}}, batch_size=10000)

      image.gif

      这次总该可以了。

      嗯,好了一些,降到了20秒左右。可是,这离1秒只能还差距20倍呢。

      返回值减负

      当日不能放弃,继续通过日志查找线索,发现还是有很多getMore。通过各方查找,发现mongodb每次最多返回16M的记录,通过getMore日志的比对,发现的确如此。由于B中每条记录的过去庞大,每次只能几百条记录,因此要一次多返回,那就必须要减少每次返回的记录数。因为在计算时,只用了特定索引位置上的数据,所以只返回该条记录就可以了。

      最后的代码就不再写了,具体可以参考官方文档的实例

      相关实践学习
      MongoDB数据库入门
      MongoDB数据库入门实验。
      快速掌握 MongoDB 数据库
      本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
      相关文章
      |
      2月前
      |
      XML Java 数据库连接
      性能提升秘籍:如何高效使用Java连接池管理数据库连接
      在Java应用中,数据库连接管理至关重要。随着访问量增加,频繁创建和关闭连接会影响性能。为此,Java连接池技术应运而生,如HikariCP。本文通过代码示例介绍如何引入HikariCP依赖、配置连接池参数及使用连接池高效管理数据库连接,提升系统性能。
      69 5
      |
      11天前
      |
      SQL NoSQL Java
      Java使用sql查询mongodb
      通过使用 MongoDB Connector for BI 和 JDBC,开发者可以在 Java 中使用 SQL 语法查询 MongoDB 数据库。这种方法对于熟悉 SQL 的团队非常有帮助,能够快速实现对 MongoDB 数据的操作。同时,也需要注意到这种方法的性能和功能限制,根据具体应用场景进行选择和优化。
      44 9
      |
      15天前
      |
      存储 JSON NoSQL
      学习 MongoDB:打开强大的数据库技术大门
      MongoDB 是一个基于分布式文件存储的文档数据库,由 C++ 编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。它与 MySQL 类似,但使用文档结构而非表结构。核心概念包括:数据库(Database)、集合(Collection)、文档(Document)和字段(Field)。MongoDB 使用 BSON 格式存储数据,支持多种数据类型,如字符串、整数、数组等,并通过二进制编码实现高效存储和传输。BSON 文档结构类似 JSON,但更紧凑,适合网络传输。
      52 15
      |
      23天前
      |
      存储 NoSQL 关系型数据库
      阿里云数据库MongoDB版助力信也科技 打造互联网金融企业样板
      我们的风控系统引入阿里云数据库MongoDB版后,解决了特征类字段灵活加减的问题,大大提高了开发效率,极大的提升了业务用户体验,获得了非常好的效果
      阿里云数据库MongoDB版助力信也科技 打造互联网金融企业样板
      |
      1月前
      |
      存储 缓存 网络协议
      数据库执行查询请求的过程?
      客户端发起TCP连接请求,服务端通过连接器验证主机信息、用户名及密码,验证通过后创建专用进程处理交互。服务端进程缓存以减少创建和销毁线程的开销。后续步骤包括缓存查询(8.0版后移除)、语法解析、查询优化及存储引擎调用,最终返回查询结果。
      29 6
      |
      30天前
      |
      SQL JavaScript 程序员
      数据库LIKE查询屡试不爽?揭秘大多数人都忽视的秘密操作符!
      本文分析了因数据库中的不可见空白字符导致的数据查询问题,探讨了问题的成因与特性,并提出了使用 SQL 语句修复问题的有效方案。同时,总结了避免类似问题的经验和注意事项。
      32 0
      |
      2月前
      |
      存储 缓存 固态存储
      怎么让数据库查询更快
      【10月更文挑战第28天】
      42 2
      |
      2月前
      |
      缓存 监控 关系型数据库
      如何根据监控结果调整 MySQL 数据库的参数以提高性能?
      【10月更文挑战第28天】根据MySQL数据库的监控结果来调整参数以提高性能,需要综合考虑多个方面的因素
      92 1
      |
      2月前
      |
      监控 关系型数据库 MySQL
      如何监控和诊断 MySQL 数据库的性能问题?
      【10月更文挑战第28天】监控和诊断MySQL数据库的性能问题是确保数据库高效稳定运行的关键
      222 1
      |
      2月前
      |
      缓存 关系型数据库 MySQL
      如何优化 MySQL 数据库的性能?
      【10月更文挑战第28天】
      137 1

      相关产品

    • 云数据库 MongoDB 版