【数据库专题】一文搞懂数据库分库分表的原理

简介: 【数据库专题】一文搞懂数据库分库分表的原理

正文


一、分库分表是什么?


是一种数据分片技术,主要分为垂直拆分和水平拆分。垂直拆分的意思是,把部分字段及其值挪到其它表或者其它数据库实例中;水平拆分的意思是,把部分记录挪到其它表或者其它数据库实例中;


二、为什么需要分库分表?


单表的存储总是有上限的,并且随着单表中数据量和字段数的增长,查询效率会越来越低,无法满足正常的查询时效要求。因此需要将数据进行分片,实现降低单表中数据行数、字段个数的目标,保持单表查询效率。


2.1 单表最多能存储多少条记录?


以MySQL为例,单表存储的上限MySQL本身并没有做限制,它是和操作系统所允许的最大文件大小有关的,单表中字段数量越多,行数越多,那么就会使得单表的存储大小越大,一旦单表总大小超过操作系统的限制了,那么就达到了存储上限。


2.2 单表最多能存储多少个字段?


同上,和操作系统所允许的最大文件大小有关的。


2.3 为什么数据行数越多查询效率就会越慢?


为了提高性能,表的索引会被加载到内存中,如果表中数据不多的时候,索引能被全部一次性加载到内存中,查询效率都是OK的。但是如果表中数据超过某一个阈值,使得该表的索引太大超过内存限制,不能被一次性加载到内存中了,此时如果查找表中数据,会使得多次磁盘IO加载索引,从而导致查询效率大幅下降。


2.4 什么时候需要进行分库分表了?


按照业界的通用建议,如果表中数据行数超过500万时,可以考虑分库分表了;如果超过1000万的时候,就建议进行分库分表了。


如果数据量没有达到500万行或者2G大小的时候,可以先不用考虑分库分表。


三、如何分库分表?


分库分表其实是两个操作,我们可以只选择其中之一,也可以两者结合起来使用。分库指的是将表中的部分数据挪到其它数据库实例中进行存储,分表指的是在同一数据库实例中用另外一张表来存储部分数据。每一种操作都包含垂直拆分和水平拆分两种方式。


3.1 垂直拆分


垂直拆分,就是将表中的部分字段及其值从该表中移出去,放到别的表或者别的数据库实例中。


一般而言,优先考虑垂直拆分,尽量分到同一个数据库实例的不同表中。


3.2 水平拆分


水平拆分,就是将表中的部分记录行从该表中移出去,放到别的表或者别的数据库实例中。


水平拆分的核心就是路由算法:


  • 范围限定,划分数据值的范围,不同范围的数据放到不通的表中;优点是计算简单,同一用户的数据不存在跨表跨库操作,而且扩展方便;缺点是可能存在热点数据,使得不同表或者数据实例访问不均衡;
  • 取模运算/哈希运算,对需要插入/查询的数据值进行取模运算,找到其对应的表;优点是解决了热点数据问题,访问均衡;缺点是不方便扩展,如果需要扩展的话,所有数据需要重新计算找到应该存放的表;
  • 一致性Hash算法,对需要插入/查询的数据值进行hash计算,按照顺时针方式找到最近的(物理/虚拟)节点进行操作;既解决了热点数据问题,也解决了不方便扩展的问题,其增删节点的影响仅仅控制在变更的相邻节点的范围内,但缺点是需要设置虚拟节点,而且扩展时增删节点还是有一定影响的,而且如果节点分布得不均匀可能会存在数据倾斜的问题,即小部分节点存放了大部分的数据。
  • 哈希槽,这个是参照redis集群而得来,总共初始16384个哈希槽,分别位于不同的机器上,通过hash算法(CRC16算法)来将数据映射到某个具体的槽上面,因为槽量比较多,所以不用进行扩展了。


水平拆分的具体实施方案分为两种:

  • 基于客户端的形式,寻找或者自建分库分表工具库,在业务服务器上就完成分库分表,然后访问具体的DB,比如sahrding-jdbc;
  • 基于代理服务器的形式,建立代理服务器,接收业务请求后,根据配置的分库分表规则来访问具体的DB,比如MyCat;
相关文章
|
4月前
|
算法 关系型数据库 MySQL
【MySQL 解析】数据库的乐观锁和悲观锁实现原理
【1月更文挑战第11天】【MySQL 解析】数据库的乐观锁和悲观锁实现原理
|
3天前
|
缓存 关系型数据库 Java
不要将数据库中的“分库分表”理论盲目应用到 Elasticsearch
不要将数据库中的“分库分表”理论盲目应用到 Elasticsearch
12 0
|
4月前
|
NoSQL 中间件 API
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)(下)
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)
86 2
|
4月前
|
NoSQL Java API
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)(上)
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)
75 0
|
10天前
|
存储 算法 搜索推荐
矢量数据库基础:概念、原理与应用场景
【4月更文挑战第30天】矢量数据库,处理高维向量数据的工具,应用于GIS、推荐系统、图像搜索及语义搜索。核心原理是将原始数据嵌入到高维空间,通过索引算法优化搜索性能。现代深度学习模型如Word2Vec提升向量表示准确性,KD-Tree、LSH等算法加速相似性搜索。随着技术发展,矢量数据库在数据科学领域的重要性日益增强。
|
18天前
|
存储 SQL 数据库
数据库库表结构设计:原理、实例与最佳实践
数据库库表结构设计:原理、实例与最佳实践
49 0
|
18天前
|
C#
【自考】之数据库系统原理
【自考】之数据库系统原理
15 0
|
22天前
|
存储 缓存 负载均衡
数据库分库分表常见算法
数据库分库分表常见算法
|
1月前
|
存储 缓存 监控
数据库分库分表
数据库分库分表
34 0
|
2月前
|
缓存 Java 数据库连接
mybatis 数据库缓存的原理
MyBatis 是一个流行的 Java 持久层框架,它封装了 JDBC,使数据库交互变得更简单、直观。MyBatis 支持两级缓存:一级缓存(Local Cache)和二级缓存(Global Cache),通过这两级缓存可以有效地减少数据库的访问次数,提高应用性能。
283 1