哈啰一面:如何优化大表的查询速度?

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介: 哈啰一面:如何优化大表的查询速度?

哈啰出行作为阿里系共享单车的头部企业,在江湖中的知名度还是有的,而今天我们就来看一道哈啰 Java 一面中的经典面试题:当数据表中数据量过大时,应该如何优化查询速度?

哈啰出行的面试题目如下:
image.png
其他面试题相对来说比较简单,大部人题目都可以在我的网站上(www.javacn.site)找到答案,这里就不再赘述,咱们今天只聊“数据表中数据量过大时,应该如何优化查询速度?”这个问题。

1.如何优化查询速度?

所谓的“大表”指的是一张表中有大量的数据,而通常情况下数据量越多,那么也就意味着查询速度越慢。这是因为当数据量增多时,那么查询一个数据需要匹配和检索的内容也就越多,而检索的项目越多,那么查询速度也就越慢。

举个例子,比如当家里只有一个孩子的时候,可能一个月的花销不算太大,但是随着家里的孩子越来越多,那么这个家庭的花销也就越来越大是一样的,而表中的数据量和查询效率的关系也是如此。

那问题来了,怎么优化查询速度呢?

这个问题的主要优化方案有以下几个。

1.1 创建适当的索引

通过创建适当的索引,可以加速查询操作。索引可以提高查询语句的执行效率,尤其是对于常用的查询条件和排序字段进行索引,可以显著减少查询的扫描范围和 IO 开销。

1.2 优化查询语句

优化查询语句本身,避免全表扫描和大数据量的关联查询。可以优化查询条件,使用合适的索引、合理的查询策略,减少不必要的字段和数据返回。

1.3 缓存查询结果

对于一些相对稳定的查询结果,可以将其缓存在内存中,避免重复查询数据库,提高查询速度。

缓存的查询速度一定比直接查询数据库的效率高,这是因为缓存具备以下特征:

  1. 内存访问速度快:缓存通常将数据存储在内存中,而数据库将数据存储在磁盘上。相比于磁盘访问,内存访问速度更快,可以达到纳秒级别的读取速度,远远快于数据库的毫秒级别的读取速度。
  2. IO 操作次数少:数据库通常需要进行磁盘 IO 操作,包括读取和写入磁盘数据。而缓存将数据存储在内存中,避免了磁盘 IO 的开销。内存访问不需要进行磁盘寻址和机械运动,相对来说速度更快。
  3. 特殊的数据结构:缓存的数据结构通常为 key-value 形式的,也就是说缓存可以做到任何数据量级下的查询数据复杂度为 O(1),所以它的查询效率是非常高的;而数据库采用的是传统数据结构设计,可能需要查询二叉树、或全文搜索、或回表查询等操作,所以其查询性能是远低于缓存系统的。

    1.4 提升硬件配置

    对于大数据量的表,可以考虑采用更高性能的硬件设备,如更快的存储介质(如固态硬盘),更大的内存容量等,以提升查询的 IO 性能。

    1.5 数据归档和分离

    对于历史数据或不经常访问的数据,可以进行归档和分离,将这些数据从主表中独立出来,减少主表的数据量,提高查询速度。

    1.6 数据库分片

    当单个数据库无法满足查询性能需求时,可以考虑使用数据库分片技术,将数据分散到多个数据库中,每个数据库只处理部分数据,从而提高查询的并发度和整体性能。

数据库分片技术的具体实现是分库分表

2.何为分库分表?

首先来说,分库分表是一组技术,而不是一个单一的技术,分库分表可以分为以下几种情况:

  1. 只分库:将一个大数据库分为 N 个小数据库。例如将一个电商数据库,分为多个数据库,如:用户数据库、仓库数据库、订单数据库、商品数据库等。
  2. 只分表:在一个数据库中,将一张表拆分成多张表,而分表又有以下两种实现:
    1. 横向拆分:不修改原有的表结构,将原本一张表中的数据,分成 N 个表来存储数据。
    2. 纵向拆分:修改原有的表结构,将常用的字段放到主表中,将不常用的和查询效率低的字段放到扩展表中。
  3. 既分库又分表:它的实现最复杂,顾名思义,它是将一个数据库拆分成多个数据库,并将一个数据库的一张表,同时有拆分为多张表。

    2.分库分表的实现

    目前市面上分库分表的主要实现技术有以下几个:

  4. ShardingSphere:ShardingSphere 是一个功能丰富的开源分布式数据库中间件,提供了完整的分库分表解决方案。它支持主流关系型数据库(如 MySQL、Oracle、SQL Server 等),提供了分片、分布式事务、读写分离、数据治理等功能。ShardingSphere 具有灵活的配置和扩展性,支持多种分片策略,使用简单方便,项目地址:https://shardingsphere.apache.org

  5. MyCAT:MyCAT(MySQL Clustering and Advancement Toolkit)是一个开源的分布式数据库中间件,特别适合于大规模的分库分表应用。它支持 MySQ L和 MycatSQL,提供了分片、读写分离、分布式事务等功能。MyCAT 具有高性能、高可用性、可扩展性和易用性的特点,广泛应用于各种大型互联网和电商平台,项目地址:https://github.com/MyCATApache/Mycat2
  6. TDDL:TDDL(Taobao Distributed Data Layer)是阿里巴巴开源的分库分表中间件。它为开发者提供了透明的分库分表解决方案,可以将数据按照指定的规则分布到不同的数据库和表中。TDDL 支持 MyISAM 和 InnoDB 引擎,提供了读写分离、动态扩容、数据迁移等功能,项目地址:https://github.com/alibaba/tb_tddl
  7. Vitess:Vitess 是一个由 YouTube 开发和维护的分布式数据库集群中间件,支持 MySQL 作为后端存储系统。Vitess 提供了水平拆分、弹性缩放、负载均衡、故障恢复等功能,可以在大规模的数据集和高并发访问场景下提供高性能和可扩展性,项目地址:https://vitess.io/zh/

小结

大数据量的表的查询优化方案有很多,例如:创建索引、优化查询语句、缓存查询结果、提升硬件配置、数据归档和分离,以及数据分片技术(分库分表)等,而这些技术通常是一起配合使用,来共同解决大数据量表的查询速度慢的问题的,其中分库分表的实现最为复杂,所以需要根据自身业务的需要酌情使用。

本文已收录到我的面试小站 www.javacn.site,其中包含的内容有:Redis、JVM、并发、并发、MySQL、Spring、Spring MVC、Spring Boot、Spring Cloud、MyBatis、设计模式、消息队列等模块。

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5天前
|
缓存 关系型数据库 MySQL
研优化数据库查询性能
研优化数据库查询性能
16 0
|
23天前
|
关系型数据库 MySQL 定位技术
解谜MySQL索引:优化查询速度的不二法门
解谜MySQL索引:优化查询速度的不二法门
17 0
|
6月前
|
存储 监控 关系型数据库
传统库分表麻烦查询慢?TDengine 如何解决“搜狐基金”的应用难题
搜狐基金团队使用的 MySQL 数据库在面对海量数据时存在能力瓶颈,在此背景下,其决定基于 TDengine 尝试一下全新的方案。
105 0
|
6月前
|
存储 关系型数据库 MySQL
太强了!三种方案优化 2000w 数据大表!
太强了!三种方案优化 2000w 数据大表!
|
7月前
|
SQL 关系型数据库 MySQL
106分布式电商项目 - MySQL优化(查询优化)
106分布式电商项目 - MySQL优化(查询优化)
48 0
|
7月前
|
存储 关系型数据库 MySQL
108分布式电商项目 - MySQL优化(插入数据优化)
108分布式电商项目 - MySQL优化(插入数据优化)
32 0
|
7月前
|
存储 SQL 运维
单表 1000 万条数据,TDengine 助力麦当劳中国实现 PERCENTILE 秒级查询优化
今天我们为大家分享一个关于 TDengine 在 PERCENTILE 函数性能优化上的真实案例。
82 0
|
8月前
|
负载均衡 监控 定位技术
分库表数据倾斜的处理让我联想到了 AKF 模型
这里的特殊性可以是表中字段的某一个属性,比如订单编号、创建时间等等。这就需要我们根据实际情况,既要拆分的均匀又要拆分之后能满足未来几年的发展,同时还要满足现有业务的支持。
45 0
|
11月前
|
SQL 关系型数据库 MySQL
线上千万级大表排序:优化攻略揭秘,轻松应对海量数据!
前段时间应急群有客服反馈,会员管理功能无法按到店时间、到店次数、消费金额 进行排序。经过排查发现是Sql执行效率低,并且索引效率低下。遇到这样的情况我们该如何处理呢?今天我们聊一聊Mysql大表查询优化。
线上千万级大表排序:优化攻略揭秘,轻松应对海量数据!
|
12月前
|
存储 JavaScript Java
亿级别大表拆分 —— 记一次分表工作的心路历程
亿级别大表拆分 —— 记一次分表工作的心路历程