池化技术
池化技术能够减少资源对象的创建次数,提高程序的响应性能,特别是在高并发的场景下这种提升会更加明显,所以池化技术相当于一层缓冲。使用池化技术缓存的资源对象有如下共同特点:
- 对象创建时间长
- 对象创建需要大量资源;
- 对象创建后可被重复使用
像 线程池,内存池,请求池,对象池,连接池 都具备以上的共同特点。
数据库连接池
什么是数据库连接池
数据库连接池是程序启动时建立足够数量的数据库连接,并将这些连接统一管理起来组成一个连接池,程序动态的从池中取连接与归还连接。
创建数据库连接相对来说是比较耗时的,不仅有三次握手,还有mysql的三次认证过程。所以在程序启动时就创建多个连接统一管理,可以提高程序的响应性能。
为什么使用数据库连接池
资源复用:由于数据库的连接得到的复用,避免频繁的创建和销毁连接的性能开销。在减少系统消耗的基础上,另一方面也增进了系统运行环境的平稳性(减少内存碎片以及数据库临时进程/线程的数量)。
更快的系统响应速度:数据库连接池在初始化后,往往已经创建了若干数据库连接置于池中备用。此时连接的初始化工作均已完成。对于业务请求处理而言,直接利用现有可用连接,避免了从数据库连接初始化和释放过程的开销,从而缩减了系统整体响应时间。
统一的连接管理,避免数据库连接泄露:在较为完备的数据库连接池实现中,可根据预先的连接占用超时设定,强制收回被占用连接。从而避免了常规数据库连接操作中可能出现的资源泄露。
不使用数据库连接池的执行过程
可以看到,为了执行一条sql,要经历五个步骤:
- TCP建立连接的三次握手
- MySQL认证的三次握手
- 真正的SQL执行
- MySQL的关闭
- TCP的四次握手关闭
不使用连接池的优点是 代码实现起来比较简单,但是不使用连接池的缺点有很多:
网络IO较多
带宽利用率低
QPS较低
应用频繁低创建连接和关闭连接,导致临时对象较多,带来更多的内存碎片
在关闭连接后,会出现大量TIME_WAIT 的TCP状态(在2个MSL之后关闭)
使用连接池的执行过程
在连接池初始化的时候,会按照需求建立N个连接,但是之后的访问,都会从池里面取,复用初始化时创建的连接,直接执行sql语句。
使用连接池的优点:
- 降低了网络开销
- 连接复用,有效减少连接数。
- 提升性能,避免频繁的新建连接。新建连接的开销比较大
- 没有TIME_WAIT状态的问题
但是缺点也很明显,就是代码实现较为复杂。
长连接和连接池的区别
- 长连接是一些驱动、驱动框架、ORM工具的特性,由驱动来保持连接句柄的打开,以便后续的数据 库操作可以重用连接,从而减少数据库的连接开销。
- 而连接池是应用服务器的组件,它可以通过参数来配置连接数、连接检测、连接的生命周期等。
- 连接池内的连接,其实就是长连接。
数据库连接池运行机制
- 连接池初始化时创建多条连接
- 从连接池获取可用连接
- 使用完毕后,将连接归还置连接池
- 在程序结束前,断开所有连接,释放连接资源
连接池和线程池的关系
连接池和线程池区别
- 线程池:主动去调用任务,当任务队列不为空的时候从任务队列中取任务(比如去银行办理业务,窗口柜员是线程,多个窗口组成了线程池,柜员从排号队列叫号执行。)
- 连接池:被动被任务使用,当某任务需要操作数据库时,只要从连接池中取出一个连接对象,当任务使用完该连接对象后,将该连接对象放回到连接池中。如果连接池中没有连接对象可以用,那么该任务就必须等待。(比如去银行用笔填单,笔是连接对象,我们要用笔的时候去取,用完了还回去。)
连接池和线程池设置数量的关系
- 一般线程池线程数量和连接池连接对象数量一致
- 一般线程执行任务完毕的时候归还连接对象
连接池设计与代码实现
连接池设计要点
使用连接池需要预先建立数据库连接。连接池设计思路:
1.连接到数据库,涉及到数据库ip、端口、用户名、密码、数据库名字等; (数据库的名字主要是为了分库管理,部分库只允许root权限)
- 连接的操作,每个连接对象都是独立的连接通道,它们是独立的 (长连接)
- 配置最小连接数和最大连接数(比如同时并发128个线程,通常64个线程同时操作数据库,就配置最小连接数64个,最大连接数128个,我们需保证多个任务不能同时获取一个连接)
2.需要一个队列管理他的连接,比如使用list;
3.获取连接对象:
4.归还连接对象;
5.连接池的名字(给每个池分配不同的名称,那么就可以用多个连接池实现不同的业务。)
构造函数
CDBPool *pDBPool = new CDBPool(db_pool_name, db_host, db_port,db_username, db_password, db_dbname, db_maxconncnt); CDBPool::CDBPool(const char *pool_name, const char *db_server_ip, uint16_t db_server_port, const char *username, const char *password, const char *db_name, int max_conn_cnt) { m_pool_name = pool_name; m_db_server_ip = db_server_ip; m_db_server_port = db_server_port; m_username = username; m_password = password; m_db_name = db_name; m_db_max_conn_cnt = max_conn_cnt; // m_db_cur_conn_cnt = MIN_DB_CONN_CNT; // 最小连接数量 }
初始化
if (pDBPool->Init()) { printf("init db instance failed: %s", db_pool_name); return -1; } int CDBPool::Init() { // 创建固定最小的连接数量 for (int i = 0; i < m_db_cur_conn_cnt; i++) { CDBConn *pDBConn = new CDBConn(this); int ret = pDBConn->Init(); if (ret) { delete pDBConn; return ret; } m_free_list.push_back(pDBConn); } return 0; }
说明:
1、为什么连接池的初始化工作不在构造函数中做?而新增加了一个init函数去做呢?
主要是因为构造函数中是没有返回值的,只能通过捕获异常的方式来捕获错误,异常的开销有点大,而自己创建的init函数可以有返回值
获取连接池内的连接
CDBConn *pDBConn = pDBPool->GetDBConn(); // 获取连接 CDBConn *CDBPool::GetDBConn(const int timeout_ms) { std::unique_lock<std::mutex> lock(m_mutex); if (m_abort_request) { log_warn("have aboort\n"); return NULL; } if (m_free_list.empty()) { // 当没有连接可以用时 // 第一步先检测 当前连接数量是否达到最大的连接数量 if (m_db_cur_conn_cnt >= m_db_max_conn_cnt) { // 如果已经到达了,看看是否需要超时等待 if (timeout_ms <= 0) // 死等,直到有连接可以用 或者 连接池要退出 { log_info("wait ms:%d\n", timeout_ms); m_cond_var.wait(lock, [this] { // log_info("wait:%d, size:%d\n", wait_cout++, m_free_list.size()); // 当前连接数量小于最大连接数量 或者请求释放连接池时退出 return (!m_free_list.empty()) | m_abort_request; }); } else { // return如果返回 false,继续wait(或者超时), 如果返回true退出wait // 1.m_free_list不为空 // 2.超时退出 // 3. m_abort_request被置为true,要释放整个连接池 m_cond_var.wait_for(lock, std::chrono::milliseconds(timeout_ms), [this] { // log_info("wait_for:%d, size:%d\n", wait_cout++, m_free_list.size()); return (!m_free_list.empty()) | m_abort_request; }); // 带超时功能时还要判断是否为空 if (m_free_list.empty()) // 如果连接池还是没有空闲则退出 { return NULL; } } if (m_abort_request) { log_warn("have aboort\n"); return NULL; } } else // 还没有到最大连接则创建连接 { CDBConn *pDBConn = new CDBConn(this); //新建连接 int ret = pDBConn->Init(); if (ret) { log_error("Init DBConnecton failed\n\n"); delete pDBConn; return NULL; } else { m_free_list.push_back(pDBConn); m_db_cur_conn_cnt++; // log_info("new db connection: %s, conn_cnt: %d\n", m_pool_name.c_str(), m_db_cur_conn_cnt); } } } CDBConn *pConn = m_free_list.front(); // 获取连接 m_free_list.pop_front(); // STL 吐出连接,从空闲队列删除 m_used_list.push_back(pConn); // return pConn; }
归还连接至连接池
pDBPool->RelDBConn(pDBConn); // 一定要归还 void CDBPool::RelDBConn(CDBConn *pConn) { std::lock_guard<std::mutex> lock(m_mutex); list<CDBConn *>::iterator it = m_free_list.begin(); for (; it != m_free_list.end(); it++) { // 避免重复归还 if (*it == pConn) { break; } } if (it == m_free_list.end()) { m_used_list.remove(pConn); m_free_list.push_back(pConn); m_cond_var.notify_one(); // 通知取队列 } else { log_error("RelDBConn failed\n"); } }
析构函数
// 释放连接池 CDBPool::~CDBPool() { std::lock_guard<std::mutex> lock(m_mutex); m_abort_request = true; m_cond_var.notify_all(); // 通知所有在等待的 for (list<CDBConn *>::iterator it = m_free_list.begin(); it != m_free_list.end(); it++) { CDBConn *pConn = *it; delete pConn; } m_free_list.clear(); }
连接池名的作用
给每个池分配不同的名称,那么就可以用多个连接池实现不同的业务。
mysql_poll测试
本地虚拟机测试
本地虚拟机测试 Ubuntu 16.04 cpu逻辑核数4 插入1000条数据
io密集型 线程池 线程数量 2*cpu核数 +( 1/2) = 2 * 4 + (1/2) = 9 , 10个线程
思考:为什么这里在32~64个线程之间效率是最高?
在文章中IO密集型的任务中进行解答。
阿里云服务器测试
阿里云服务器 5.7.33-0ubuntu0.16.04.1 cpu逻辑核数1
mysql连接重连机制
设置启用(当发现连接断开时的)自动重连
my_bool reconnect = true; mysql_options(m_mysql, MYSQL_OPT_RECONNECT, &reconnect); // 配合mysql_ping实现自动重连
检测连接是否正常
int STDCALL mysql_ping(MYSQL *mysql);
- 描述:检查与服务端的连接是否正常。连接断开时,如果自动重新连接功能未被禁用,则尝试重新连接服务器。该函数可被客户端用来检测闲置许久以后,与服务端的连接是否关闭,如有需要,则重新连接。
- 返回值:连接正常,返回0;如有错误发生,则返回非0值。返回非0值并不意味着服务器本身关闭掉,也有可能是网络原因导致网络不通。
连接池连接设置数量
经验公式
连接数 = ((核心数 * 2) + 有效磁盘数) 按照这个公式,即是说你的服务器 CPU 是 4核 i7 的,那连接池连接数大小应该为 ((4*2)+1)=9 这里只是一个经验公式。还要和线程池数量以及具体业务结合在一起。
IO密集型的任务
如果任务整体上是一个IO密集型的任务。在处理一个请求的过程中(处理一个任务),总共耗时 100+5=105ms,而其中只有5ms是用于计算操作的(消耗cpu),另外的100ms等待io响应,CPU利用 率为5/(100+5)。 使用线程池是为了尽量提高CPU的利用率,减少对CPU资源的浪费,假设以100%的CPU利用率来说,要 达到100%的CPU利用率,对于一个CPU就要设置其利用率的倒数个数的线程数,也即 1/(5/(100+5))=21,4个CPU的话就乘以4。那么算下来的话,就是……84,这个时候线程池要设置84个线 程数,然后连接池也是设置为84个连接。
对于这种io密集型的任务,我们需要先算一下处理一个请求的时间,然后大概算一下计算操作的时间,再根据上面的经验公式算一下线程池和连接池的数量设置多少个合适。