一、背景知识
1、链接类型
A、短链接:一般都是PHP环境,因为PHP的框架决定了PHP短链接的特性,并且链接数的需求一般是在1000-3000左右,具体多少还要根据业务部署的PHP数量来计算。
并且MongoDB开源版本在短链接Auth处理上并不优雅,会消耗非常多的CPU资源,3000链接即可跑满24Core的CPU。
Facebook也有同样的问题,所以他们用go语言自行开发了一套Proxy代理,来解决对MongoDB的短链接请求问题,但这毕竟带来部署成本和兼容性问题。
B、长链接:比较健康合理的使用方式,但是也要正确的配置客户端,相关的参数为&maxPoolSize=xx 在ConnectionURI上追加上去即可,否则默认每个客户端就是高出100来个,平白的浪费资源
链接数的上限需要综合考虑性能,稳定性,业务需求。多方面去考虑,缺一不可。
2、连接消耗资源
连接是要消耗资源的,而且消耗的并不少。
A、内存:以MongoDB为例,每个线程都要分配1MB的栈内存出来。1000个连接,就耗费1G内存,不管是否活跃连接。
B、文件句柄:每个连接都要打开一个文件句柄,当然从成本上讲,这个消耗相对内存是小了很多。但换个角度,文件句柄也被其他模块消耗着,比如WT存储引擎,就需要消耗大量的文件句柄。
3、限制连接数目
Mongod 的服务模型是每个网络连接由一个单独的线程来处理,每个线程配置了1MB 的栈空间,当网络连接数太多时,过多的线程会导致上下文切换开销变大,同时内存开销也会上涨。
是否真的需要这么多的链接?
举例:一般的业务场景下请求压力在1000QPS左右,按照每个请求50ms计算,最多也就需要1000/(1000/50)==50个链接即可满足需求,并且是整个系统50个链接即可。
二、连接池管理
1、正确的连接池配置方式:
MongoDB 各个语言的Driver 基本都会封装包含一个 MongoClient 的对象(不同语言的 Driver 名字可能稍有不同),通常应用在使用时通过 MongoDB connection string URI 来构造一个全局的 MongoClient,然后在后续的请求中使用该全局对象来发送请求给Mongod。
应用使用的方式大致类似于
// 通常的用法
// global MongoClient object
mongoClient = new MongoClient("mongodb://root:****@host1:port1,host2:port2/admin?replicaSet=repl00&maxPoolSize=100");
// request1
db1 = mongoClient.getDatabase("db1");
coll1 = db1.getCollection("coll1");
coll1.find({...})
// request2
db2 = mongoClient.getDatabase("db2");
coll2 = db2.getCollection("coll2");
coll2.update({...})
// requestN
...
通常每个 MongoClient 会包含一个连接池,默认大小为100,也可以在构造 MongoClient 的时候通过 maxPoolSize 选项来指定。
2、错误的连接池配置方式
一种典型的错误使用方式是,用户为每个请求都构造一个 MongoClient,请求结束释放 MongoClient(或根本没释放),这样做问题是请求模型从长连接变成了短连接,每次短连接
都会增加『建立 tcp 连接 + mongodb鉴权』的开销,并且并发的请求数会受限于连接数限制,极大的影响性能;另外如果 MongoClient 忘记释放,会导致MongoClient 连接池里连接一直保持着,最终耗光所有的可用连接。
// 错误的用法
// request1
mongoClient = new MongoClient("mongodb://root:****@host1:port1,host2:port2/admin?replicaSet=repl00&maxPoolSize=100");
db1 = mongoClient.getDatabase("db1");
coll1 = db1.getCollection("coll1");
coll1.find({...});
mongoClient.close();
// request2
mongoClient = new MongoClient("mongodb://root:****@host1:port1,host2:port2/admin?replicaSet=repl00&maxPoolSize=100");
db2 = mongoClient.getDatabase("db2");
coll2 = db2.getCollection("coll2");
coll2.update({...});
MongoClient.close()
// requestN
...
3、选择合适大小的连接池
通常 MongoClient 使用默认100的连接池(具体默认值以 Driver 的文档为准)都没问题,当访问同一个 Mongod 的源比较多时,则需要合理的规划连接池大小。
举个例子,Mongod 的连接数限制为2000,应用业务上有40个服务进程可能同时访问 这个Mongod,这时每个进程里的 MongoClient 的连接数则应该限制在 2000 / 40 = 50 以下。
(连接复制集时,MongoClient 还要跟复制集的每个成员建立一条连接,用于监控复制集后端角色的变化情况)
三、副本集配置
1、MongoDB复制集(Replica Set)
MongoDB复制集里Primary节点是不固定的,当遇到复制集轮转升级、Primary宕机、网络分区等场景时,复制集可能会选举出一个新的Primary,而原来的Primary则会降级为Secondary,即发生主备切换。
总而言之,MongoDB复制集里Primary节点是不固定的。
当连接复制集时,如果直接指定Primary的地址来连接,当时可能可以正确读写数据的,但一旦复制集发生主备切换,连接的Primary会降级为Secondary,将无法继续执行写操作,将严重影响生产服务。
所以生产环境千万不要直连Primary。
2、正确连接复制集的姿势
要正确连接复制集,需要先了解下MongoDB的Connection String URI,所有官方的driver都支持以Connection String的方式来连接MongoDB。
下面就是Connection String包含的主要内容
mongodb://[username:password@]host1[:port1][,host2[:port2],...[,hostN[:portN]]][/[database][?options]]
mongodb:// 前缀,代表这是一个Connection String
username:password@ 如果启用了鉴权,需要指定用户密码
hostX:portX 复制集成员的ip:port信息,多个成员以逗号分割
/database 鉴权时,用户帐号所属的数据库
?options 指定额外的连接选项
-- 例如通过java来连接:
MongoClientURI connectionString = new MongoClientURI("mongodb://root:****@dds-xxxxxxxxxxxxxxx.mongodb.rds.aliyuncs.com:3717,dds-xxxxxxxxxxxx.mongodb.rds.aliyuncs.com:3717/admin?replicaSet=mgset-677201"); // ****替换为root密码
MongoClient client = new MongoClient(connectionString);
MongoDatabase database = client.getDatabase("mydb");
MongoCollection<Document> collection = database.getCollection("mycoll");
-- spring boot
spring.data.mongodb.uri = mongodb://xxxxx:xxxxxxxx@dds-xxxxxxxxxxxxxx.mongodb.rds.aliyuncs.com:3717,dds-xxxxxxxxxxxxxxx.mongodb.rds.aliyuncs.com:3717/admin?replicaSet=mgset-2293069
spring.data.mongodb.database = xxxxxxxxxxx
3、常用连接参数:
如何实现读写分离?
在options里添加readPreference=secondaryPreferred即可实现,读请求优先到Secondary节点,从而实现读写分离的功能。
mongodb://db1.example.net,db2.example.net:2500/?replicaSet=test&readPreference=secondaryPreferred
如何限制连接数?
mongodb://db1.example.net,db2.example.net:2500/?replicaSet=test&maxPoolSize=50
-- The maximum number of connections in the connection pool. The default value is 100.
如何保证数据写入到大多数节点后才返回?
在options里添加w= majority即可保证写请求成功写入大多数节点才向客户端确认。
mongodb://db1.example.net,db2.example.net:2500/?replicaSet=test&maxPoolSize=50&w=majority
-- connectTimeoutMS:建立新连接超时时间(Only used for new connections), 默认无限制(可以打开连接的时间。)
The time in milliseconds to attempt a connection before timing out. The default is never to timeout。
-- socketTimeoutMS:socket通讯超时时间,默认无限制(发送和接受sockets的时间。)
The time in milliseconds to attempt a send or receive on a socket before the attempt times out. The default is never to timeout。