4种方法解决MongoDB游标超时的问题

本文涉及的产品
云数据库 MongoDB,通用型 2核4GB
简介: 4种方法解决MongoDB游标超时的问题

摄影:产品经理

厨师:kingname

当我们使用Python从MongoDB里面读取数据时,可能会这样写代码:

import pymongo
handler = pymongo.MongoClient().db.col
for row in handler.find():
    parse_data(row)

短短4行代码,读取MongoDB里面的每一行数据,然后传入 parse_data做处理。处理完成以后再读取下一行。逻辑清晰而简单,能有什么问题?只要parse_data(row)不报错,这一段代码就完美无缺。

但事实并非这样。

你的代码可能会在 forrowinhandler.find()这一行报错。它的原因,说来话长。

要解释这个问题,我们首先就需要知道, handler.find()返回的并不是数据库里面的数据,而是一个 游标(cursor)对象。如下图所示:

只有当你使用for循环开始迭代它的时候,游标才会真正去数据库里面读取数据。

但是,如果每一次循环都连接数据库,那么网络连接会浪费大量时间。

所以pymongo会一次性获取100行, forrowinhandler.find()循环第一次的时候,它会连上MongoDB,读取一百条数据,缓存到内存中。于是第2-100次循环,数据都是直接从内存里面获取,不会再连接数据库。

当循环进行到底101次的时候,再一次连接数据库,再读取第101-200行内容……

这个逻辑非常有效地降低了网络I/O耗时。

但是,MongoDB默认游标的超时时间是10分钟。10分钟之内,必需再次连接MongoDB读取内容刷新游标时间,否则,就会导致游标超时报错:

pymongo.errors.CursorNotFound: cursor id 211526444773 not found

如下图所示:

所以,回到最开始的代码中来,如果 parse_data每次执行的时间超过6秒钟,那么它执行100次的时间就会超过10分钟。此时,当程序想读取第101行数据的时候,程序就会报错。

为了解决这个问题,我们有4种办法:

  1. 修改MongoDB的配置,延长游标超时时间,并重启MongoDB。由于生产环境的MongoDB不能随便重启,所以这个方案虽然有用,但是排除。
  2. 一次性把数据全部读取下来,再做处理:
all_data = [row for row in handler.find()]
for row in all_data:
    parse(row)

这种方案的弊端也很明显,如果数据量非常大,你不一定能全部放到内存里面。即使能够全部放到内存中,但是列表推导式遍历了所有数据,紧接着for循环又遍历一次,浪费时间。

  1. 让游标每次返回的数据小于100条,这样消费完这一批数据的时间就会小于10分钟:
# 每次连接数据库,只返回50行数据
for row in handler.find().batch_size(50):
    parse_data(row)

但这种方案会增加数据库的连接次数,从而增加I/O耗时。

  1. 让游标永不超时。通过设定参数 no_cursor_timeout=True,让游标永不超时:
cursor = handler.find(no_cursor_timeout=True)
for row in cursor:
    parse_data(row)
cursor.close()  # 一定要手动关闭游标

然而这个操作非常危险,因为如果你的Python程序因为某种原因意外停止了,这个游标就再也无法关闭了!除非重启MongoDB,否则这些游标会一直留在MongoDB上,占用资源。

当然可能有人会说,使用 try...except把读取数据的地方包住,只要抛出了异常,在处理异常的时候关闭游标即可:

cursor = handler.find(no_cursor_timeout=True)
try:
    for row in cursor:
        parse_data(row)
except Exception:
    parse_exception()
finally:
    cursor.close()  # 一定要手动关闭游标

其中 finally里面的代码,无论有没有异常,都会执行。

但这样写会让代码非常难看。为了解决这个问题,我们可以使用游标的上下文管理器:

with handler.find(no_cursor_timeout=True) as cursor:
    for row in cursor:
        parse_data(row)

只要程序退出了with的缩进,游标自动就会关闭。如果程序中途报错,游标也会关闭。

它的原理可以用下面两段代码来解释:

class Test:
    def __init__(self):
        self.x = 1
    def echo(self):
        print(self.x)
    def __enter__(self):
        print('进入上下文')
        return self
    def __exit__(self, *args):
        print('退出上下文')
with Test() as t:
    t.echo()
print('退出缩进')

运行效果如下图所示:

接下来在 with的缩进里面人为制造异常:

class Test:
    def __init__(self):
        self.x = 1
    def echo(self):
        print(self.x)
    def __enter__(self):
        print('进入上下文')
        return self
    def __exit__(self, *args):
        print('退出上下文')
with Test() as t:
    t.echo()
    1 + 'a'  # 这里一定会报错
print('退出缩进')

运行效果如下图所示:

无论在 with的缩进里面发生了什么, Test这个类中的 __exit__里面的代码始终都会运行。

我们来看看pymongo的游标对象里面, __exit__是怎么写的,如下图所示:

可以看到,这里正是关闭游标的操作。

因此,如果我们使用上下文管理器,就可以放心大胆地使用 no_cursor_timeout=True参数了。


相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
目录
相关文章
|
NoSQL Java MongoDB
Springboot中设置MongoDB的超时时间
Springboot中设置MongoDB的超时时间
1979 0
|
NoSQL Shell MongoDB
MongoDB(15)- 查询操作里面的游标 cursor
MongoDB(15)- 查询操作里面的游标 cursor
324 0
MongoDB(15)- 查询操作里面的游标 cursor
|
存储 JavaScript NoSQL
《MongoDB管理与开发精要》——3.4节游标和存储过程
本节书摘来自华章社区《MongoDB管理与开发精要》一书中的第3章,第3.4节游标和存储过程,作者:红 丸,更多章节内容可以访问云栖社区“华章社区”公众号查看
1320 0
|
NoSQL 数据库 MongoDB
MongoDB 游标
MongoDB中的游标与关系型数据库中的游标在功能上大同小异。游标相当于C语言的指针,可以定位到某条记录,在MongoDB中,则是文档。
1117 0
|
SQL NoSQL JavaScript
mongoDB查询及游标
find文档 1.find简介 使用find查询集合中符合条件的子集合 1 db.test.blog.find(); 类似于sql查询 1 select * from test.blog   上面的查询是返回多有多有集合,并且是所有键。
1442 0
|
NoSQL 关系型数据库 数据库
3.非关系型数据库(Nosql)之mongodb:升降序排序,排序分页,$all,$in,$nin,$or,$nor, $exists,游标,更新(update,$set,$unset,$inc)
 1排序sort() A降序排列 db.c4.find().sort().sort({age:-1}); B升序排列: db.c4.find().sort({age:-1}); C排序分页 db.collectionName.find().sort({age:-1}).skip(2
1219 0
|
4天前
|
NoSQL MongoDB 数据库
MongoDB数据恢复—MongoDB数据库文件被破坏的数据恢复案例
服务器数据恢复环境: 一台Windows Server操作系统服务器,服务器上部署MongoDB数据库。 MongoDB数据库故障&检测: 工作人员在未关闭MongoDB数据库服务的情况下,将数据库文件拷贝到其他分区。拷贝完成后将原MongoDB数据库所在分区进行了格式化操作,然后将数据库文件拷回原分区,重新启动MongoDB服务,服务无法启动。
|
8天前
|
NoSQL MongoDB Redis
Python与NoSQL数据库(MongoDB、Redis等)面试问答
【4月更文挑战第16天】本文探讨了Python与NoSQL数据库(如MongoDB、Redis)在面试中的常见问题,包括连接与操作数据库、错误处理、高级特性和缓存策略。重点介绍了使用`pymongo`和`redis`库进行CRUD操作、异常捕获以及数据一致性管理。通过理解这些问题、易错点及避免策略,并结合代码示例,开发者能在面试中展现其技术实力和实践经验。
130 8
Python与NoSQL数据库(MongoDB、Redis等)面试问答