【数据库专题】一文搞懂数据库分库分表的原理

简介: 【数据库专题】一文搞懂数据库分库分表的原理

正文


一、分库分表是什么?


是一种数据分片技术,主要分为垂直拆分和水平拆分。垂直拆分的意思是,把部分字段及其值挪到其它表或者其它数据库实例中;水平拆分的意思是,把部分记录挪到其它表或者其它数据库实例中;


二、为什么需要分库分表?


单表的存储总是有上限的,并且随着单表中数据量和字段数的增长,查询效率会越来越低,无法满足正常的查询时效要求。因此需要将数据进行分片,实现降低单表中数据行数、字段个数的目标,保持单表查询效率。


2.1 单表最多能存储多少条记录?


以MySQL为例,单表存储的上限MySQL本身并没有做限制,它是和操作系统所允许的最大文件大小有关的,单表中字段数量越多,行数越多,那么就会使得单表的存储大小越大,一旦单表总大小超过操作系统的限制了,那么就达到了存储上限。


2.2 单表最多能存储多少个字段?


同上,和操作系统所允许的最大文件大小有关的。


2.3 为什么数据行数越多查询效率就会越慢?


为了提高性能,表的索引会被加载到内存中,如果表中数据不多的时候,索引能被全部一次性加载到内存中,查询效率都是OK的。但是如果表中数据超过某一个阈值,使得该表的索引太大超过内存限制,不能被一次性加载到内存中了,此时如果查找表中数据,会使得多次磁盘IO加载索引,从而导致查询效率大幅下降。


2.4 什么时候需要进行分库分表了?


按照业界的通用建议,如果表中数据行数超过500万时,可以考虑分库分表了;如果超过1000万的时候,就建议进行分库分表了。


如果数据量没有达到500万行或者2G大小的时候,可以先不用考虑分库分表。


三、如何分库分表?


分库分表其实是两个操作,我们可以只选择其中之一,也可以两者结合起来使用。分库指的是将表中的部分数据挪到其它数据库实例中进行存储,分表指的是在同一数据库实例中用另外一张表来存储部分数据。每一种操作都包含垂直拆分和水平拆分两种方式。


3.1 垂直拆分


垂直拆分,就是将表中的部分字段及其值从该表中移出去,放到别的表或者别的数据库实例中。


一般而言,优先考虑垂直拆分,尽量分到同一个数据库实例的不同表中。


3.2 水平拆分


水平拆分,就是将表中的部分记录行从该表中移出去,放到别的表或者别的数据库实例中。


水平拆分的核心就是路由算法:


  • 范围限定,划分数据值的范围,不同范围的数据放到不通的表中;优点是计算简单,同一用户的数据不存在跨表跨库操作,而且扩展方便;缺点是可能存在热点数据,使得不同表或者数据实例访问不均衡;
  • 取模运算/哈希运算,对需要插入/查询的数据值进行取模运算,找到其对应的表;优点是解决了热点数据问题,访问均衡;缺点是不方便扩展,如果需要扩展的话,所有数据需要重新计算找到应该存放的表;
  • 一致性Hash算法,对需要插入/查询的数据值进行hash计算,按照顺时针方式找到最近的(物理/虚拟)节点进行操作;既解决了热点数据问题,也解决了不方便扩展的问题,其增删节点的影响仅仅控制在变更的相邻节点的范围内,但缺点是需要设置虚拟节点,而且扩展时增删节点还是有一定影响的,而且如果节点分布得不均匀可能会存在数据倾斜的问题,即小部分节点存放了大部分的数据。
  • 哈希槽,这个是参照redis集群而得来,总共初始16384个哈希槽,分别位于不同的机器上,通过hash算法(CRC16算法)来将数据映射到某个具体的槽上面,因为槽量比较多,所以不用进行扩展了。


水平拆分的具体实施方案分为两种:

  • 基于客户端的形式,寻找或者自建分库分表工具库,在业务服务器上就完成分库分表,然后访问具体的DB,比如sahrding-jdbc;
  • 基于代理服务器的形式,建立代理服务器,接收业务请求后,根据配置的分库分表规则来访问具体的DB,比如MyCat;
相关文章
|
4月前
|
存储 关系型数据库 MySQL
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
|
21天前
|
存储 SQL 关系型数据库
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
MySQL如何进行分库分表、数据迁移?从相关概念、使用场景、拆分方式、分表字段选择、数据一致性校验等角度阐述MySQL数据库的分库分表方案。
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
|
2月前
|
消息中间件 Kafka 数据库
深入理解Kafka的数据一致性原理及其与传统数据库的对比
【8月更文挑战第24天】在分布式系统中,确保数据一致性至关重要。传统数据库利用ACID原则保障事务完整性;相比之下,Kafka作为高性能消息队列,采用副本机制与日志结构确保数据一致性。通过同步所有副本上的数据、维护消息顺序以及支持生产者的幂等性操作,Kafka在不牺牲性能的前提下实现了高可用性和数据可靠性。这些特性使Kafka成为处理大规模数据流的理想工具。
47 6
|
3月前
|
存储 SQL 关系型数据库
(六)MySQL索引原理篇:深入数据库底层揭开索引机制的神秘面纱!
《索引原理篇》它现在终于来了!但对于索引原理及底层实现,相信大家多多少少都有了解过,毕竟这也是面试过程中出现次数较为频繁的一个技术点。在本文中就来一窥`MySQL`索引底层的神秘面纱!
237 5
|
3月前
|
SQL 存储 安全
SQL数据库:核心原理、应用实践与未来展望
在电子商务领域,SQL数据库用于存储商品信息、用户信息、订单信息等。通过SQL数据库,电商平台可以实现商品的快速检索、用户行为的跟踪分析、订单状态的实时更新等功能,提升用户体验和运营效率。
|
3月前
|
关系型数据库 分布式数据库 数据库
PolarDB产品使用问题之是否支持分库分表创建数据库
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
2月前
|
存储 NoSQL 关系型数据库
Web中的数据库:原理、应用与代码实现
Web中的数据库:原理、应用与代码实现
|
4月前
|
SQL 存储 关系型数据库
数据库的基本原理
数据库的基本原理
41 2
|
3月前
|
SQL Java 关系型数据库
Java面试题:描述JDBC的工作原理,包括连接数据库、执行SQL语句等步骤。
Java面试题:描述JDBC的工作原理,包括连接数据库、执行SQL语句等步骤。
52 0
|
3月前
|
SQL 存储 搜索推荐
SQL游标的原理与在数据库操作中的应用
SQL游标的原理与在数据库操作中的应用
下一篇
无影云桌面