正文
一、分库分表是什么?
是一种数据分片技术,主要分为垂直拆分和水平拆分。垂直拆分的意思是,把部分字段及其值挪到其它表或者其它数据库实例中;水平拆分的意思是,把部分记录挪到其它表或者其它数据库实例中;
二、为什么需要分库分表?
单表的存储总是有上限的,并且随着单表中数据量和字段数的增长,查询效率会越来越低,无法满足正常的查询时效要求。因此需要将数据进行分片,实现降低单表中数据行数、字段个数的目标,保持单表查询效率。
2.1 单表最多能存储多少条记录?
以MySQL为例,单表存储的上限MySQL本身并没有做限制,它是和操作系统所允许的最大文件大小有关的,单表中字段数量越多,行数越多,那么就会使得单表的存储大小越大,一旦单表总大小超过操作系统的限制了,那么就达到了存储上限。
2.2 单表最多能存储多少个字段?
同上,和操作系统所允许的最大文件大小有关的。
2.3 为什么数据行数越多查询效率就会越慢?
为了提高性能,表的索引会被加载到内存中,如果表中数据不多的时候,索引能被全部一次性加载到内存中,查询效率都是OK的。但是如果表中数据超过某一个阈值,使得该表的索引太大超过内存限制,不能被一次性加载到内存中了,此时如果查找表中数据,会使得多次磁盘IO加载索引,从而导致查询效率大幅下降。
2.4 什么时候需要进行分库分表了?
按照业界的通用建议,如果表中数据行数超过500万时,可以考虑分库分表了;如果超过1000万的时候,就建议进行分库分表了。
如果数据量没有达到500万行或者2G大小的时候,可以先不用考虑分库分表。
三、如何分库分表?
分库分表其实是两个操作,我们可以只选择其中之一,也可以两者结合起来使用。分库指的是将表中的部分数据挪到其它数据库实例中进行存储,分表指的是在同一数据库实例中用另外一张表来存储部分数据。每一种操作都包含垂直拆分和水平拆分两种方式。
3.1 垂直拆分
垂直拆分,就是将表中的部分字段及其值从该表中移出去,放到别的表或者别的数据库实例中。
一般而言,优先考虑垂直拆分,尽量分到同一个数据库实例的不同表中。
3.2 水平拆分
水平拆分,就是将表中的部分记录行从该表中移出去,放到别的表或者别的数据库实例中。
水平拆分的核心就是路由算法:
- 范围限定,划分数据值的范围,不同范围的数据放到不通的表中;优点是计算简单,同一用户的数据不存在跨表跨库操作,而且扩展方便;缺点是可能存在热点数据,使得不同表或者数据实例访问不均衡;
- 取模运算/哈希运算,对需要插入/查询的数据值进行取模运算,找到其对应的表;优点是解决了热点数据问题,访问均衡;缺点是不方便扩展,如果需要扩展的话,所有数据需要重新计算找到应该存放的表;
- 一致性Hash算法,对需要插入/查询的数据值进行hash计算,按照顺时针方式找到最近的(物理/虚拟)节点进行操作;既解决了热点数据问题,也解决了不方便扩展的问题,其增删节点的影响仅仅控制在变更的相邻节点的范围内,但缺点是需要设置虚拟节点,而且扩展时增删节点还是有一定影响的,而且如果节点分布得不均匀可能会存在数据倾斜的问题,即小部分节点存放了大部分的数据。
- 哈希槽,这个是参照redis集群而得来,总共初始16384个哈希槽,分别位于不同的机器上,通过hash算法(CRC16算法)来将数据映射到某个具体的槽上面,因为槽量比较多,所以不用进行扩展了。
水平拆分的具体实施方案分为两种:
- 基于客户端的形式,寻找或者自建分库分表工具库,在业务服务器上就完成分库分表,然后访问具体的DB,比如sahrding-jdbc;
- 基于代理服务器的形式,建立代理服务器,接收业务请求后,根据配置的分库分表规则来访问具体的DB,比如MyCat;