Mongodb千万级数据在python下的综合压力测试及应用探讨

本文涉及的产品
云数据库 MongoDB,通用型 2核4GB
简介:



曾经在收集数据的项目中,用过mongodb的数据存储,但是当数据很大的时候,还是比较的吃力。很可能当时的应用水平不高,也可以是当时的服务器不是很强。 所以这次能力比以前高点了,然后服务器比以前也高端了很多,好嘞 ~再测试下。

(更多的是单机测试,没有用复制分片的测试 ~)!


相比较MySQLMongoDB数据库更适合那些读作业较重的任务模型MongoDB能充分利用机器的内存资源。如果机器的内存资源丰富的话,MongoDB的查询效率会快很多。


这次测试的服务器是dell 的 r510!

235621353.jpg

内存还行,是48G的,本来想让同事给加满,但是最终还是没有说出口 ~  

235739466.jpg磁盘是10个2T的,但是因为格式化的时间太久了,哥们直接把其他的硬盘给拔出来了,就用了三个盘。。。data目录没有做raid,是为了让他们体现更好的硬盘速度。

235930831.jpg


既然说好了是在python下的应用测试,那就需要安装mongodb python下的模块 !

对了,不知道mongodb-server的安装要不要说下?

1
2
3
4
5
cat /etc/yum.repos.d/ 10 .repo
[10gen]
name=10gen Repository
baseurl=http: //downloads-distro.mongodb.org/repo/redhat/os/x86_64
gpgcheck= 0


000408806.jpg

Pymongo的基本用法


1
2
3
4
5
6
7
8
9
10
11
12
13
from pymongo  import  * # 导包
con = Connection(...) # 链接
db = con.database # 链接数据库
db.authenticate( 'username' 'password' ) # 登录
db.drop_collection( 'users' ) #删除表
db.logout() # 退出
db.collection_names() # 查看所有表
db.users.count() # 查询数量
db.users.find_one({ 'name'  'xiaoming' }) # 单个对象
db.users.find({ 'age'  18 }) # 所有对象
db.users.find({ 'id' : 64 }, { 'age' : 1 , '_id' : 0 }) # 返回一些字段 默认_id总是返回的  0 不返回  1 返回
db.users.find({}).sort({ 'age' 1 }) # 排序
db.users.find({}).skip( 2 ).limit( 5 ) # 切片


测试的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/usr/bin/env python
from pymongo  import  Connection
import  time,datetime
import  os,sys
connection = Connection( '127.0.0.1' 27017 )
db = connection[ 'xiaorui' ]
def func_time(func):
     def _wrapper(*args,**kwargs):
         start = time.time()
         func(*args,**kwargs)
         print func.__name__, 'run:' ,time.time()-start
     return  _wrapper
@func_time
def ainsert(num):
     posts = db.userinfo
     for  in  range(num):
         post = { "_id"  : str(x),
         "author" : str(x)+ "Mike" ,
         "text" "My first blog post!" ,
         "tags" : [ "xiaorui" "xiaorui.cc" "rfyiamcool.51cto" ],
         "date" : datetime.datetime.utcnow()}
         posts.insert(post)
if  __name__ ==  "__main__" :
     num = sys.argv[ 1 ]
     ainsert( int (num))

咱们就先来个百万的数据做做测试~

综合点的数据:

002508131.jpg

在top下看到的程序占用资源的情况 ~ 我们看到的是有两个进程的很突出,对头 ! 正是mongodb的服务和我们正在跑的python脚本 !

002605855.jpg


看下服务的io的情况 ~

002741677.jpg


脚本运行完毕,总结下运行的时间 ~

002816300.jpg


查看mongodb的状态~

他的insert也不到5k ~ 插入量也就800k左右 ~

它的输出有以下几列:


inserts/s 每秒插入次数

query/s 每秒查询次数

update/s 每秒更新次数

delete/s 每秒删除次数

getmore/s 每秒执行getmore次数

command/s 每秒的命令数,比以上插入、查找、更新、删除的综合还多,还统计了别的命令

flushs/s 每秒执行fsync将数据写入硬盘的次数。

mapped/s 所有的被mmap的数据量,单位是MB,

vsize 虚拟内存使用量,单位MB

res 物理内存使用量,单位MB

faults/s 每秒访问失败数(只有Linux有),数据被交换出物理内存,放到swap。不要超过100,否则就是机器内存太小,造成频繁swap写入。此时要升级内存或者扩展

locked % 被锁的时间百分比,尽量控制在50%以下吧

idx miss % 索引不命中所占百分比。如果太高的话就要考虑索引是不是少了

q t|r|w 当Mongodb接收到太多的命令而数据库被锁住无法执行完成,它会将命令加入队列。这一栏显示了总共、读、写3个队列的长度,都为0的话表示mongo毫无压力。高并发时,一般队列值会升高。

conn 当前连接数

time 时间戳

瞅下面的监控数据 !

003310317.jpg

然后我们在测试下在一千万的数据下的消耗时间情况 ~

共用了2294秒,每秒插入 4359个数据 ~

010140526.jpg看看他的内存的使用情况:

虚拟内存在8gb左右,真实内存在2gb左右

010245223.jpg

再换成多线程的模式跑跑 ~  个人不太喜欢用多线程,这东西属于管你忙不忙,老大说了要公平,我就算抢到了,但是没事干,我也不让给你。。。属于那种蛮干的机制 ~


nima,要比单个跑的慢呀 ~  线程这东西咋会这么不靠谱呀 ~

应该是没有做线程池pool,拉取队列。导致线程过多导致的。不然不可能比单进程都要慢~

还有就是像这些涉及到IO的东西,交给协程的事件框架更加合理点 !!!


1
2
3
4
5
6
7
8
9
10
11
12
def goodinsert(a):
     posts.insert(a)
def ainsert(num):
     for  in  range(num):
         post = { "_id"  : str(x),
         "author" : str(x)+ "Mike" ,
         "text" "My first blog post!" ,
         "tags" : [ "mongodb" "python" "pymongo" ],
         "date" : datetime.datetime.utcnow()}
#       goodinsert(post)
         a=threading.Thread(target=goodinsert,args=(post,))
         a.start()


023536618.jpg


python毕竟有gil的限制,虽然multiprocess号称可以解决多进程的。但是用过的朋友知道,这个东西更不靠谱 ~  属于坑人的东西 ~

要是有朋友怀疑是python的单进程的性能问题,那咱们就用supervisord跑了几个后台的python压力脚本 ~ supervisord的配置我就不说了,我以前的文章里面有详述的 ~

015034609.jpg

cpu方面是跑的有点均匀了,但是mongodb那边的压力总是上不去

当加大到16个后台进程做压力测试的时候 ~ 大家会发现insert很不稳定。 看来他的极限也就是2MB左右的数据 ~

015448335.jpg

当减少到8个压力进程的时候 ~ 我们发现他的insert慢慢的提供到正常了,也就是说  他真的是2MB的极限 ~

015559242.jpg

脚本里面是有做有序的id插入的,我们试试把id的插入给去掉,看看有没有提升~

结果和不插入id差不多的结果 ~

085221687.jpg

调优之后~ 再度测试

ulimit的优化

1
2
3
cat /etc/security/limits.conf
*       soft   nofile        102400
*       hard   nofile        102400


内核的tcp优化

1
2
3
4
5
6
7
8
9
10
11
12
13
14
cat /etc/sysctl.conf
net.ipv4.tcp_syncookies =  1
net.ipv4.tcp_tw_reuse =  1
net.ipv4.tcp_tw_recycle =  1
net.ipv4.tcp_timestsmps =  0
net.ipv4.tcp_synack_retries =  2
net.ipv4.tcp_syn_retries =  2
net.ipv4.tcp_wmem =  8192  436600  873200
net.ipv4.tcp_rmem =  32768  436600  873200
net.ipv4.tcp_mem =  94500000  91500000  92700000
net.ipv4.tcp_max_orphans =  3276800
net.ipv4.tcp_fin_timeout =  30
#直接生效
/sbin/sysctl -p

启动的时候,加上多核的优化参数

1
多核问题可以在启动时加入启动参数: numactl --interleave=all


insert的频率已经到了2w左右 ~  内存占用了8G左右 ~


143629965.png

143630829.png



我想到的一个方案:

当然不用非要celery,就算咱们用socket写分发,和zeromq的pub sub也可以实现这些的。这是celery的调度更加专业点。

021114653.jpg

刚才我们测试的都是insert,现在我们再来测试下在千万级别数据量下的查询如何:

查询正则的,以2开头的字符

1
2
3
posts = db.userinfo
for  in  posts.find({ "author" :re.compile( '^2.Mike' )}):
     print i


013606877.jpg

精确的查询:

查询在5s左右 ~

013944841.jpg


225244177.jpg225244313.jpg


225244670.jpg

225244798.jpg


总结:

典型的高读低写数据库 !






 本文转自 rfyiamcool 51CTO博客,原文链接:http://blog.51cto.com/rfyiamcool/1329351,如需转载请自行联系原作者




相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
1天前
|
机器学习/深度学习 算法 Python
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
16 4
|
1天前
|
机器学习/深度学习 算法 算法框架/工具
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
17 0
|
1天前
|
机器学习/深度学习 数据挖掘 网络架构
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
12 0
|
1天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0
|
1天前
|
测试技术 持续交付 API
Python的UI自动化测试
【4月更文挑战第17天】Python UI自动化测试涉及Selenium(Web)、Appium(移动应用)和PyQt(桌面应用)等框架。基本步骤包括确定测试目标、选择合适框架、安装配置、编写测试脚本、运行调试以及集成到CI/CD流程。注意自动化测试不能完全取代人工测试,应根据需求平衡使用。
8 1
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
21 1
|
2天前
|
前端开发 测试技术 C++
Python自动化测试面试:unittest、pytest与Selenium详解
【4月更文挑战第19天】本文聚焦Python自动化测试面试,重点讨论unittest、pytest和Selenium三大框架。unittest涉及断言、TestSuite和覆盖率报告;易错点包括测试代码冗余和异常处理。pytest涵盖fixtures、参数化测试和插件系统,要注意避免过度依赖unittest特性。Selenium的核心是WebDriver操作、等待策略和测试报告生成,强调智能等待和元素定位策略。掌握这些关键点将有助于提升面试表现。
14 0
|
2天前
|
XML Web App开发 测试技术
python的Web自动化测试
【4月更文挑战第16天】Python在Web自动化测试中广泛应用,借助Selenium(支持多浏览器交互)、BeautifulSoup(解析HTML/XML)、Requests(发送HTTP请求)和Unittest(测试框架)等工具。测试步骤包括环境搭建、编写测试用例、初始化浏览器、访问页面、操作元素、验证结果、关闭浏览器及运行报告。注意浏览器兼容性、动态内容处理和错误处理。这些组合能提升测试效率和质量。
11 6
|
2天前
|
测试技术 持续交付 数据库
python集成测试
【4月更文挑战第16天】在Python集成测试中,确保模块间正确交互是关键。选择合适的测试框架如`unittest`或`pytest`,定义全面的测试用例,编写测试代码并设置类似生产环境的测试环境。执行测试后分析修复问题,将测试整合到持续集成流程,以尽早发现并解决问题。例如,使用`pytest`,我们可以创建测试用例验证不同模块间的功能是否按预期协同工作。
9 2
|
2天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
13 2

热门文章

最新文章