使用索引注意合理的数量

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 【6月更文挑战第9天】本文介绍数据库索引是提升数据检索速度的数据结构,通过减少磁盘访问提高性能。建议根据表的大小和使用频率谨慎创建索引,如核心表不超过7个索引,普通表不超过5个,小型表不超过3个。

简介

这里主要记录索引的功能,以及为什么,它可帮助使用者优化如何查询已经存储的数据的同时,过多的索引却会导致更新操作变慢,增加数据库体积和维护成本,甚至影响查询优化。

主要风险包括降低增删改性能、增大存储压力、优化开销增加及索引失效问题。

mandala曼德罗符号.png

索引通过最大限度地减少完成查询所需的光盘访问次数来提高数据库性能。

它是一种数据结构技术,用于查找和快速访问数据库中的数据。多个数据库字段用于生成索引。表的主键或候选键在第一列中重复,即搜索键。

为了加快数据检索速度,这些值也按排序顺序保存。应该强调的是,不需要对数据进行排序。

第二列是数据引用或指针,其中包含一组指针,用于保存可以找到该特定键值的磁盘块的地址

索引和优化器提示 可单独使用或一起使用。

索引提示适用于 SELECT,DELETE 和 UPDATE 语句。 索引提示一般在表名之后指定。

1 数据库索引

MySQL和Oracle等数据库本身提供索引的功能,合理创建索引可以提高数据的检索效率,降低数据库服务器IO和CPU的消耗。

但由于索引也会降低更新表的速度,经常增删改的表或字段不适合创建索引,所以在开发初期,我们就应该根据数据库模型表和字段的作用来决定是否为该表建立索引,为数据记录较多的表中,频繁作为查询条件的字段建立索引。

            #python3
        class Article(models.Model):
            "文章"
            title = models.CharField('标题',max_length=200,)
            class Meta:
                indexes = [models.Index(fields=['title']),]

2 索引过多的问题

表所允许的索引数量,数据库允许的索引数量,最大并发事务处理能力,负载均衡能力,最大连接数。

索引太多的问题

对于太小的表,经常更新的的属性和表,属性值很少的查询,过长的属性,特殊数据类型的属性比如大文本,多媒体数据,不出现或很少出现的属性不宜建立索引。

而对于常用属性建立太多属性将会降低增删改查的性能。

也会导致数据库体积变大,加大数据库优化的开销,数据库将对索引定义建立列计算统计信息更新开销,过多的索引导致更新范围大,时间变长。
索引失效维护成本高。

  • 索引过多

是指单表上非聚集索引数量太多,至于多少才为太多,这个实际上没有标准,虽然某些书上有说过单表上不要超过6个索引,但是那些书是 通常是很久远的书籍(大概10年前左右),那时候的硬件资源还没比较紧张,不可能支持太多索引。

但是即使是今天的硬件资源,随着系统的复杂程度和数据量的 增长,硬件资源也容易不足,同时索引过多也会带来很多风险。

3 具体风险主要有以下几个:

  • 降低增删改操作的性能。

由于增删改操作特别是删、增两个,往往引发聚集索引键的变更,标上的非聚集索引叶节点存储了聚集索引键,所以也会连带被更 新。而这些非聚集索引往往是没有提高这些操作的性能,反而对操作带来负面影响。这就是所谓的牵一发而动全身。

如果有些增删改操作带有WHERE条 件,这些情况下,有些索引能提高性能,比如百万级别的表中删除一行数据,如果没有索引(假设连聚集索引也没有),那么就只有扫描全表删除,那速度简直无法接受。

  • 过多索引还导致了数据库“体积”变大。

本质上,数据库的性能问题几乎都是由于“体积”过大导致的。我们知道,聚集索引就是表本身,表多大,聚集索 引几乎就有多大,根据B-Tree的层级,可能会比表更大(不过一般大不了多少)。而非聚集索引叶子节点由于存储了索引键的数据,索引也有一定体量。

  • 过多索引导致存储压力和维护开销。

由于SQL Server不直接访问磁盘,每个操作都需要先把数据从磁盘加载到内存中,内存的容量相对磁盘来说又比较小,一旦索引很大,查询过程造成的内存压力也会随 之而来,对数据缓存和计划缓存都有不可忽视的影响。对聚集索引的维护,比如重建,会引发非聚集索引的连带效应。索引越多速度越慢。很多系统并没有充足的时 间让你任意维护索引。

  • 加大了SQL Server优化开销。

虽然通常优化引擎不会花太多时间在优化上,最起码相对于执行而言,优化的时间你可能感知不到,但是过度优化、编译重编译,都会对 CPU带来压力。

当索引很多时,优化器必须针对查询及上面的统计信息进行分析,如果有一些索引都能支持这个查询时,优化器又必须比对哪个索引开销更低。 要优化器选择也有选择恐惧症,太多的选择它就会折中,不一定会花更多资源去选择最优方案,万一当时其他操作的影响导致优化器选择了不合理的索引,性 能反而更差。

统计信息更新开销,默认情况下,SQL Server会对索引定义中的列计算统计信息,这种统计信息是索引级别的,每个索引有自己的统计信息,索引越多,由于数据变更或者其他变更带来统计信息更新时,需要更新的范围就越大,时间越久。

  • 索引失效:
    这是我写这系列文章的原因,因为本人运维的数据库不定期出现某些功能卡的情况,通过重建索引,功能恢复一定时间的稳定,但是过一段时间 后又出现了。

从表象看来,这类似与索引失效的情况,但是目前官方资料中并没有出现索引失效的描述,所以可以认为索引失效其实只是个表象,更多的是优化器对 索引选择的混乱。

通过降低索引的数量和提高每个索引的重用度,这种情况目前再无发生。简单来说,对于OLTP数据库,单表索引不应该过多。

4 总结

一个简单的旧式经验标准:

对于核心表:所有索引不要超过7个。
对于普通表:所有索引不要超过5个。
对于小型表:所有索引不要超过3个。

当单表有很多索引(比如上面提到的20多个)时,就应该考虑是否真有必要维持这种数量,在本系列的最后部分会给出解决方案。

当然极端情况下,20多个索引的表性能表现也不一定不好。当然,总是需要按照实际场景需求去分析的。

目录
相关文章
|
2月前
|
SQL 监控 关系型数据库
大数量的DML时对索引处理的技巧
【8月更文挑战第15天】在执行大批量DML操作(如INSERT、UPDATE、DELETE)时,可通过禁用索引、分批处理、选用适宜的索引类型与结构以及持续监控调整等策略优化性能。禁用索引可加速数据修改,分批处理减轻系统负担,合理索引类型支持不同查询需求,并定期优化索引结构保持高效。全程监控确保适时调整策略,提升整体效能。
|
5月前
|
对象存储
统计数组中的重复数据的数量
这篇文章总结了5种统计数组中重复数据数量的方法。方法1和4使用for循环和对象存储计数;方法2和5利用`reduce`函数,其中方法5是最简写形式;方法3是特定场景下的应用,针对特定值计数。所有方法最终都返回一个对象,键为数组元素,值为出现次数。
|
5月前
|
算法 前端开发 Serverless
1729. 求关注者的数量
1729. 求关注者的数量
33 0
|
11月前
|
索引
Thymeleaf获取th:each索引值以及固定数量遍历的实现
Thymeleaf获取th:each索引值以及固定数量遍历的实现
313 0
|
SQL 分布式计算 MaxCompute
一次性查询一张表所有字段的空值率
一次性查询一张表所有字段的空值率
1464 2
|
数据库 索引
索引是越多越好嘛? 什么样的字段需要建索引
索引的作用是加快数据库的查询速度,但并不是索引越多越好。过多的索引会增加数据库的存储空间和维护成本,并且在写操作时可能会降低性能。
218 0
|
算法
求煤球的数量
求煤球的数量
70 0
|
关系型数据库 MySQL 索引
一个表中索引的数量是不是越多越好?
往InnoDB表新增数据时,都会基于主键给自动建立聚簇索引。 随着我们不停的在表里插入数据,会不停的在数据页里插入数据。一个数据页放满后,就会分裂成多个数据页,这时就需要索引页去指向各个数据页。
122 0
【TP5.1】查询在数组内的所有数据,并且根据用户id分组,计算消费金额总和大于100的数量
【TP5.1】查询在数组内的所有数据,并且根据用户id分组,计算消费金额总和大于100的数量
190 0
【TP5.1】查询在数组内的所有数据,并且根据用户id分组,计算消费金额总和大于100的数量
|
存储 索引
599. 两个列表的最小索引总和 : 哈希表模拟题
599. 两个列表的最小索引总和 : 哈希表模拟题