聊聊性能,如何合理设置索引?

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 【6月更文挑战第1天】本文介绍了数据库索引过多的索引会使更新表的速度变慢,增大数据库体积和维护成本。索引过多的风险包括降低增删改操作性能、增大数据库体积、增加存储压力和维护开销,以及加大SQL Server优化开销。建议的核心表索引不超过7个,普通表不超过5个,小型表不超过3个。针对索引过多的问题,文章提出需要根据实际需求进行分析并提供解决方案。

1 简介

这里主要介绍索引的功能,索引的作用和原理,它能加速数据查询但过度使用会导致性能下降。索引是一种数据结构,用于快速访问数据库中的信息,通过减少磁盘访问次数提升性能。
以及为什么索引可帮助使用者优化如何查询已经存储的数据的同时,过多的使用反而导致性能下降。

question_ans.png

索引通过最大限度地减少完成查询所需的光盘访问次数来提高数据库性能。

它是一种数据结构技术,用于查找和快速访问数据库中的数据。多个数据库字段用于生成索引。表的主键或候选键在第一列中重复,即搜索键。

为了加快数据检索速度,这些值也按排序顺序保存。应该强调的是,不需要对数据进行排序。

第二列是数据引用或指针,其中包含一组指针,用于保存可以找到该特定键值的磁盘块的地址

索引和优化器提示 可单独使用或一起使用。

索引提示适用于 SELECT,DELETE 和 UPDATE 语句。 索引提示一般在表名之后指定。

2 数据库索引

MySQL和Oracle等数据库本身提供索引的功能,合理创建索引可以提高数据的检索效率,降低数据库服务器IO和CPU的消耗。

但由于索引也会降低更新表的速度,经常增删改的表或字段不适合创建索引,所以在开发初期,我们就应该根据数据库模型表和字段的作用来决定是否为该表建立索引,为数据记录较多的表中,频繁作为查询条件的字段建立索引。

            #python3
        class Article(models.Model):
            "文章"
            title = models.CharField('标题',max_length=200,)
            class Meta:
                indexes = [models.Index(fields=['title']),]

3 索引过多的问题

表所允许的索引数量,数据库允许的索引数量,最大并发事务处理能力,负载均衡能力,最大连接数。

  • 索引太多的问题

    对于太小的表,经常更新的的属性和表,属性值很少的查询,过长的属性,特殊数据类型的属性比如大文本,多媒体数据,不出现或很少出现的属性不宜建立索引。

而对于常用属性建立太多属性将会降低增删改查的性能。

也会导致数据库体积变大,加大数据库优化的开销,数据库将对索引定义建立列计算统计信息更新开销,过多的索引导致更新范围大,时间变长。索引失效维护成本高。

  • 索引过多

是指单表上非聚集索引数量太多,至于多少才为太多,这个实际上没有标准,虽然某些书上有说过单表上不要超过6个索引,但是那些书是 通常是很久远的书籍(大概10年前左右),那时候的硬件资源还没比较紧张,不可能支持太多索引。

但是即使是今天的硬件资源,随着系统的复杂程度和数据量的 增长,硬件资源也容易不足,同时索引过多也会带来很多风险。 以下详细解读。

4 索引过多具体风险主要有以下几个:

  • 降低增删改操作的性能。

由于增删改操作特别是删、增两个,往往引发聚集索引键的变更,标上的非聚集索引叶节点存储了聚集索引键,所以也会连带被更 新。而这些非聚集索引往往是没有提高这些操作的性能,反而对操作带来负面影响。这就是所谓的牵一发而动全身。

如果有些增删改操作带有WHERE条 件,这些情况下,有些索引能提高性能,比如百万级别的表中删除一行数据,如果没有索引(假设连聚集索引也没有),那么就只有扫描全表删除,那速度简直无法接受。

  • 过多索引还导致了数据库“体积”变大。

本质上,数据库的性能问题几乎都是由于“体积”过大导致的。我们知道,聚集索引就是表本身,表多大,聚集索 引几乎就有多大,根据B-Tree的层级,可能会比表更大(不过一般大不了多少)。而非聚集索引叶子节点由于存储了索引键的数据,索引也有一定体量。

  • 过多索引导致存储压力和维护开销。

由于SQL Server不直接访问磁盘,每个操作都需要先把数据从磁盘加载到内存中,内存的容量相对磁盘来说又比较小,一旦索引很大,查询过程造成的内存压力也会随 之而来,对数据缓存和计划缓存都有不可忽视的影响。对聚集索引的维护,比如重建,会引发非聚集索引的连带效应。索引越多速度越慢。很多系统并没有充足的时 间让你任意维护索引。

  • 加大了SQL Server优化开销。

虽然通常优化引擎不会花太多时间在优化上,最起码相对于执行而言,优化的时间你可能感知不到,但是过度优化、编译重编译,都会对 CPU带来压力。

当索引很多时,优化器必须针对查询及上面的统计信息进行分析,如果有一些索引都能支持这个查询时,优化器又必须比对哪个索引开销更低。 要优化器选择也有选择恐惧症,太多的选择它就会折中,不一定会花更多资源去选择最优方案,万一当时其他操作的影响导致优化器选择了不合理的索引,性 能反而更差。

统计信息更新开销,默认情况下,SQL Server会对索引定义中的列计算统计信息,这种统计信息是索引级别的,每个索引有自己的统计信息,索引越多,由于数据变更或者其他变更带来统计信息更新时,需要更新的范围就越大,时间越久。

  • 索引失效:
    在运维的数据库时,不定期可能出现某些功能卡顿的情况,通过重建索引,功能恢复一定时间的稳定,但是过一段时间 后又出现了卡顿。

从表象看来,这类似与索引失效的情况,但是目前官方资料中并没有出现索引失效的描述,所以可以认为索引失效其实只是个表象,更多的是优化器对 索引选择的混乱。

通过降低索引的数量和提高每个索引的重用度,这种情况目前再无发生。简单来说,对于OLTP数据库,单表索引不应该过多。

5 总结

一个简单的经验标准:

对于核心表:所有索引不要超过7个。
对于普通表:所有索引不要超过5个。
对于小型表:所有索引不要超过3个。

当单表有很多索引(比如上面提到的20多个)时,就应该考虑是否真有必要维持这种数量,在本系列的最后部分会给出解决方案。

当然极端情况下,20多个索引的表性能表现也不一定不好。当然,总是需要按照实际场景需求去分析的。

目录
相关文章
|
7月前
|
关系型数据库 Serverless 分布式数据库
|
7月前
|
SQL Oracle 关系型数据库
分析索引失效的几种情况
联合索引 is not null 只要在建立的索引列(不分先后)都会走, in null时 必须要和建立索引第一列一起使用,当建立索引第一位置条件是is null 时,其他建立索引的列可以是is null(但必须在所有列 都满足is null的时候),或者=一个值; 当建立索引的第一位置是=一个值时,其他索引列可以是任何情况(包括is null =一个值),以上两种情况索引都会走。其他情况不会走。
101 1
|
7月前
|
SQL 存储 分布式计算
流批一体技术简介
本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。
50604 3
流批一体技术简介
|
NoSQL Java Redis
Spring boot整合Redis实现发布订阅(超详细)
Redis发布订阅(pub/sub)是一种消息通信模式:发送者(pub)发送消息,订阅者(sub)接收信息。微信,微博,关注系统 Redis客户端可以订阅任意数量的频道
4894 0
Spring boot整合Redis实现发布订阅(超详细)
|
运维 JavaScript Java
govaluate 规则引擎
govaluate 规则引擎
2283 0
govaluate 规则引擎
|
存储 算法 定位技术
每个系统都在用的appid、appkey、appsecret都是什么意思?
每个系统都在用的appid、appkey、appsecret都是什么意思?
9123 0
|
6月前
|
存储 缓存 分布式数据库
数据库性能优化方向的三大类别
【6月更文挑战第6天】本文介绍了数据库优化策略,包括集中式数据库的反规范化设计(如增加冗余列、派生列、重组合表、水平和垂直分表)和数据一致性保障;这些方法旨在提升性能、确保数据安全和适应大规模数据场景。
151 1
数据库性能优化方向的三大类别
|
6月前
|
数据库 SQL 存储
在编制代码时优化数据库操作性能
【6月更文挑战第3天】本文介绍了代码中可使用的SQL语句优化策略,了解并应用本文介绍的这些技巧可显著提升数据库性能。
53 2
|
7月前
|
算法 Oracle Java
一文详解|从JDK8飞升到JDK17,再到未来的JDK21
本文深入浅出地解析了从JDK8到JDK17版本升级的新特性,并展望后续将会更新的JDK21.
|
7月前
|
存储 NoSQL 关系型数据库
聊一聊分布式锁的设计模型
本文介绍了分布式锁的设计模型、运行原理以及具体用法,作者也在文中体现了自己的关于分布式锁的思考以及具体实践。
52859 0