开发者社区> kobo_骷堡> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

31_mysql数据库优化之sql编写规范与调优整体步骤

简介: 每天进步亿点点
+关注继续查看
参考来源:

康师傅:https://www.bilibili.com/video/BV1iq4y1u7vj?p=157

一、SQL 编写规范

1. 关于库

  • 【强制】库的名称必须控制在32个字符以内,只能使用英文字母数字下划线,建议以英文字母开头。
  • 【强制】库名中英文一律小写,不同单词采用下划线分割。须见名知意。
  • 【强制】库的名称格式:业务系统名称_子系统名
  • 【强制】库名禁止使用关键字(如 type, order 等)。
  • 【强制】创建数据库时必须显式指定字符集,并且字符集只能是 utf8 或者 utf8mb4 。

    创建数据库 SQL 举例:CREATE DATABASE crm_fund DEFAULT CHARACTER SET 'utf8' ;

  • 【建议】对于程序连接数据库账号,遵循权限最小原则

    使用数据库账号只能在一个DB下使用,不准跨库。程序使用的账号原则上不准有 drop 权限

  • 【建议】 临时库以 tmp_ 为前缀,并以日期为后缀;

    ​ 备份库以 bak_ 为前缀,并以日期为后缀。

2. 关于表、列

  • 【强制】表和列的名称必须控制在32个字符以内,表名只能使用英文字母数字下划线,建议以英文字母开头。
  • 【强制】表名、列名一律小写,不同单词采用下划线分割。须见名知意。
  • 【强制】表名要求有模块名强相关同一模块的表名尽量使用统一前缀。比如:crm_fund_item
  • 【强制】创建表时必须显式指定字符集为 utf8 或 utf8mb4 。
  • 【强制】表名、列名禁止使用关键字(如 type, order 等)。
  • 【强制】创建表时必须显式指定表存储引擎类型。如无特殊需求,一律为 InnoDB。
  • 【强制】建表必须有comment。
  • 【强制】字段命名应尽可能使用表达实际含义的英文单词或缩写。如:公司 ID,不要使用corporation_id,而用 corp_id 即可。
  • 【强制】布尔值类型的字段命名为 is_ 描述。如 member 表上表示是否为 enabled 的会员的字段命名为 is_enabled。
  • 【强制】禁止在数据库中存储图片、文件等大的二进制数据

    通常文件很大,短时间内造成数据量快速增长,数据库进行数据库读取时,通常会进行大量的随机 IO 操作,文件很大时,lO 操作很耗时。通常存储于文件服务器,数据库只存储文件地址信息。

  • 【建议】建表时关于主键:表必须有主键
    ⑴ 强制要求主键为 id,类型为 int 或 bigint,且为 auto_increment 建议使用 unsigned 无符号型。
    ⑵ 标识表里每一行主体的字段不要设为主键,建议设为其他字段如 user_id, order_id 等,并建立 unique key 索引。因为如果设为主键且主键值为随机插入,则会导致 innodb 内部页分裂和大量随机I/O,性能下降。
  • 【建议】核心表(如用户表)必须有行数据的创建时间字段(create_time)和最后更新时间字段(update_time),便于查问题。
  • 【建议】表中所有字段尽量都是 NOT NULL 属性,业务可以根据需要定义 DEFAULT 值。
    因为使用 NULL 值会存在每一行都会占用额外存储空间、数据迁移容易出错、聚合函数计算结果偏差等问题
  • 【建议】所有存储相同数据的列名和列类型必须一致(一般作为关联列,如果查询时关联列类型不一致会自动进行数据类型隐式转换,会造成列上的索引失效,导致查询效率降低)。
  • 【建议】中间表(或临时表)用于保留中间结果集,名称以 tmp_ 开头。

    ​ 备份表用于备份或抓取源表快照,名称以 bak_ 开头。中间表和备份表定期清理。

  • 【建议】创建表时,可以使用可视化工具。这样可以确保表、字段相关的约定都能设置上。

    实际上,我们通常很少自己写 DDL 语句,可以使用一些可视化工具来创建和操作数据库和数据表。
    可视化工具除了方便,还能直接帮我们将数据库的结构定义转化成 SQL 语言,方便数据库和数据表结构的导出和导入。

  • 【示范】一个较为规范的建表语句:
CREATE TABLE user_info (
    `id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
    `user_id` bigint(11) NOT NULL COMMENT '用户id',
    `username` varchar(45) NOT NULL COMMENT '真实姓名',
    `email` varchar(30) NOT NULL COMMENT '用户邮箱',
    `nickname` varchar (45) NOT NULL COMMENT '昵称',
    `birthday` date NOT NULL COMMENT '生日',
    `sex` tinyint(4) DEFAULT '0' COMMENT '性别',
    `short_introduce` varchar(150) DEFAULT NULL COMMENT '一句话介绍自己,最多50个汉字',
    `user_resume` varchar(388) NOT NULL COMMENT '用户提交的简历存放地址',
    `user_register_ip` int NOT NULL COMMENT '用户注册时的源ip',
    `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
    `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改时间',
    `user_review_status` tinyint NOT NULL COMMENT '用户资料审核状态,1为通过,2为审核中,3为未通过,4为还未提交审核',
    PRIMARY KEY ( `id` ),
    UNIQUE KEY `uniq_user_id`( `user_id`),
    KEY `idx_username`( `username` ),
    KEY `idx_create_time_status` ( `create_time`, `user_review_status`) 
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='网站用户基本信息'

3. 关于索引

  • 【强制】InnoDB 表必须主键为 id int/bigint auto_increment,且主键值禁止被更新
  • 【强制】lnnoDB 和 MyISAM 存储引擎表,索引类型必须为 BTREE
  • 【建议】主键的名称以 pk_ 开头,唯一键以 uni_uk_ 开头,普通索引以 idx_ 开头,一律使用小写格式,以字段的名称或缩写作为后缀。
  • 【建议】多单词组成的 columnname,取前几个单词首字母,加末单词组成 column_name 。如: sample 表 member_id 上的索引: idx_sample_mid。
  • 【建议】单个表上的索引个数不能超过6个
  • 【建议】在建立索引时,多考虑建立联合索引,并把区分度最高的字段放在最前面。
  • 【建议】在多表 JOIN 的 SQL 里,保证被驱动表的连接列上有索引,这样 JOIN 执行效率最高。
  • 【建议】建表或加索引时,保证表里互相不存在冗余索引
    比如:如果表里已经存在 key(a,b),则 key(a) 为冗余索引,需要删除。

4. SQL编写

  • 【强制】程序端 SELECT 语句必须指定具体字段名称,禁止写成 *
  • 【建议】程序端 insert 语句指定具体字段名称,不要写成 INSERT INTO t1 VALUES(...)
  • 【建议】除静态表或小表(100行以内),DML 语句必须有 WHERE 条件,且使用索引查找。
  • 【建议】INSERT INTO..VALUES(XX),(XX),(XX).这里XX的值不要超过5000个。值过多虽然上线很快,但会引起主从同步延迟
  • 【建议】SELECT 语句不要使用 UNION,推荐使用 UNION ALL,并且 UNION 子句个数限制在 5 个以内
  • 【建议】线上环境,多表 JOIN 不要超过 5 个表
  • 【建议】减少使用 ORDER BY,和业务沟通能不排序就不排序,或将排序放到程序端去做。ORDER BY、GROUP BY、DISTINCT 这些语句较为耗费 CPU,数据库的 CPU 资源是极其宝贵的。
  • 【建议】包含了 ORDER BY、GROUP BY、DISTINCT 这些查询的语句,WHERE 条件过滤出来的结果集请保持在 1000 行以内,否则 SQL 会很慢。
  • 【建议】对单表的多次 alter 操作必须合并为一次
    对于超过100W行的大表进行alter table,必须经过 DBA 审核,并在业务低峰期执行,多个 alter 需整合在一起因为 alter table 会产生表锁,期间阻塞对于该表的所有写入,对于业务可能会产生极大影响。
  • 【建议】批量操作数据时,需要控制事务处理间隔时间,进行必要的 sleep
  • 【建议】事务里包含 SQL 不超过5个。
    因为过长的事务会导致锁数据较久,MySQL内部缓存、连接消耗过多等问题。
  • 【建议】事务里更新语句尽量基于主键或 UNIQUE KEY,如 UPDATE... WHERE id=XX;
    否则会产生间隙锁,内部扩大锁定范围,导致系统性能下降,产生死锁。

二、调优步骤

1. 数据库调优的措施

1.1 调优的目标

  • 尽可能节省系统资源,以便系统可以提供更大负荷的服务。(吞吐量更大)
  • 合理的结构设计和参数调整,以提高用户操作响应的速度。(响应速度更快)
  • 减少系统的瓶颈,提高 MySQL 数据库整体的性能。

1.2 如何定位调优问题

不过随着用户量的不断增加,以及应用程序复杂度的提升,我们很难用“更快”去定义数据库调优的目标,因为用户在不同时间段访问服务器遇到的瓶颈不同,比如双十一促销的时候会带来大规模的并发访问,还有用户在进不同业务操作的时候,数据库的事务处理SQL查询都会有所不同。因此我们还需要更加精细的定位,去确定调优的目标。

如何确定呢?一般情况下,有如下几种方式:

  • 用户的反馈(主要)
    用户是我们的服务对象,因此他们的反馈是最直接的。虽然他们不会直接提出技术建议,但是有些问题往往是用户第一时间发现的。我们要重视用户的反馈,找到和数据相关的问题。
  • 日志分析(主要)
    我们可以通过查看数据库日志和操作系统日志等方式找出异常情况,通过它们来定位遇到的问题。
  • 服务器资源使用监控
    通过监控服务器的 CPU、内存、I/O 等使用情况,可以实时了解服务器的性能使用,与历史情况进行对比。
  • 数据库内部状况监控
    在数据库的监控中,活动会话(Active Session)监控是一个重要的指标。通过它,你可以清楚地了解数据库当前是否处于非常繁忙的状态,是否存在 SQL 堆积等。
  • 其它
    除了活动会话监控以外,我们也可以对事务锁等待等进行监控,这些都可以帮助我们对数据库的运行状态有更全面的认识。

1.4 调优的维度和步骤

我们需要调优的对象是整个数据库管理系统,它不仅包括 SQL查询,还包括数据库的部署配置、架构等。从这个角度来说,我们思考的维度就不仅仅局限在 SQL 优化上了。通过如下的步骤我们进行梳理:

第1步:选择适合的DBMS

如果对事务性处理以及安全性要求高的话,可以选择商业的数据库产品。这些数据库在事务处理和查询性能上都比较强,比如采用SQL Server、Oracle,那么单表存储上亿条数据是没有问题的。如果数据表设计得好,即使不采用分库分表的方式,查询效率也不差。

除此以外,你也可以采用开源的 MySQL 进行存储,它有很多存储引擎可以选择,如果进行事务处理的话可以选择 lnnoDB,非事务处理可以选择 MylSAM。

NoSQL 阵营包括键值型数据库、文档型数据库、搜索引擎、列式存储和图形数据库。这些数据库的优缺点和使用场景各有不同,比如列式存储数据库可以大幅度降低系统的 I/O,适合于分布式文件系统,但如果数据需要频繁地增删改,那么列式存储就不太适用了。

DBMS 的选择关系到了后面的整个设计过程,所以第一步就是要选择适合的 DBMS。如果已经确定好了 DBMS,那么这步可以跳过。

第2步:优化表设计

选择了 DBMS 之后,我们就需要进行表设计了。而数据表的设计方式也直接影响了后续的 SQL 查询语句。RDBMS中,每个对象都可以定义为一张表,表与表之间的关系代表了对象之间的关系。如果用的是MySQL,我们还可以根据不同表的使用需求,选择不同的存储引擎。除此以外,还有一些优化的原则可以参考:

  1. 表结构要尽量遵循三范式的原则。这样可以让数据结构更加清晰规范,减少冗余字段,同时也减少了在更新,插入和删除数据时等异常情况的发生。
  2. 如果查询应用比较多,尤其是需要进行多表联查的时候,可以采用反范式进行优化。反范式采用空间换时间的方式,通过增加冗余字段提高查询的效率。
  3. 表字段的数据类型选择,关系到了查询效率的高低以及存储空间的大小。一般来说,如果字段可以采用数值类型就不要采用字符类型;字符长度要尽可能设计得短一些。针对字符类型来说,当确定字符长度固定时,就可以采用 CHAR 类型,当长度不固定时,通常采用 VARCHAR 类型。

数据表的结构设计很基础,也很关键。好的表结构可以在业务发展和用户量增加的情况下依然发挥作用,不好的表结构设计会让数据表变得非常臃肿,查询效率也会降低

第3步:优化逻辑查询

当我们建立好数据表之后,就可以对数据表进行增删改查的操作了。这时我们首先需要考虑的是逻辑查询优化。

SQL查询优化,可以分为逻辑查询优化物理查询优化。逻辑查询优化就是通过改变 SQL 语句的内容让 SQL 执行效率更高效,采用的方式是对 SQL 语句进行等价变换,对查询进行重写。

SQL的查询重写包括了子查询优化、等价谓词重写、视图重写、条件简化、连接消除和嵌套连接消除等

比如我们在讲解 EXISTS 子查询和 IN 子查询的时候,会根据小表驱动大表的原则选择适合的子查询。在 WHERE 子句中会尽量避免对字段进行函数运算,它们会让字段的索引失效。

举例:查询评论内容开头为 abc 的内容都有哪些,如果在 WHERE 子句中使用了函数,语句就会写成下面这样:

SELECT comment_id, comment_text, comment_time FROM product_comment WHERE SUBSTRING(comment_text, 1, 3) = 'abc'

采用查询重写的方式进行等价替换:

SELECT comment_id, comment_text, comment_time FROM product_comment WHERE comment_text LIKE 'abc%'

第4步:优化物理查询

物理查询优化是在确定了逻辑查询优化之后,采用物理优化技术(比如索引等),通过计算代价模型对各种可能的访问路径进行估算,从而找到执行方式中代价最小的作为执行计划。在这个部分中,我们需要掌握的重点是对索引的创建和使用。

但索引不是万能的,我们需要根据实际情况来创建索引。那么都有哪些情况需要考虑呢?我们在前面几章中已经进行了细致的剖析。

SQL 查询时需要对不同的数据表进行查询,因此在物理查询优化阶段也需要确定这些查询所采用的路径,具体的情况包括:

  1. 单表扫描︰对于单表扫描来说,我们可以全表扫描所有的数据,也可以局部扫描。
  2. 两张表的连接:常用的连接方式包括了嵌套循环连接、HASH连接和合并连接。
  3. 多张表的连接∶多张数据表进行连接的时候,顺序很重要,因为不同的连接路径查询的效率不同,搜索空间也会不同。我们在进行多表连接的时候,搜索空间可能会达到很高的数据量级,巨大的搜索空间显然会占用更多的资源,因此我们需要通过调整连接顺序,将搜索空间调整在一个可接受的范围内。

第5步:使用 Redis 或 Memcached 作为缓存

除了可以对 SQL 本身进行优化以外,我们还可以请外援提升查询的效率。

因为数据都是存放到数据库中,我们需要从数据库层中取出数据放到内存中进行业务逻辑的操作,当用户量增大的时候,如果频繁地进行数据查询,会消耗数据库的很多资源。如果我们将常用的数据直接放到内存中,就会大幅提升查询的效率。

键值存储数据库可以帮我们解决这个问题。

常用的键值存储数据库有 RedisMemcached,它们都可以将数据存放到内存中

从可靠性来说,Redis 支持持久化,可以让我们的数据保存在硬盘上,不过这样一来性能消耗也会比较大。而 Memcached 仅仅是内存存储,不支持持久化。

从支持的数据类型来说,Redis 比 Memcached 要多,它不仅支持 key-value 类型的数据,还支持 List,Set,Hash 等数据结构。当我们有持久化需求或者是更高级的数据处理需求的时候,就可以使用 Redis。如果是简单的 key-value 存储,则可以使用Memcached。

通常我们对于查询响应要求高的场景(响应时间短,吞吐量大),可以考虑内存数据库,毕竟术业有专攻。传统的 RDBMS 都是将数据存储在硬盘上,而内存数据库则存放在内存中,查询起来要快得多。不过使用不同的工具,也增加了开发人员的使用成本。

第6步:库级优化

库级优化是站在数据库的维度上进行的优化策略,比如控制一个库中的数据表数量。另外,单一的数据库总会遇到各种限制,不如取长补短,利用"外援"的方式。通过主从架构优化我们的读写策略,通过对数据库进行垂直或者水平切分,突破单一数据库或数据表的访问限制,提升查询的性能。

  1. 读写分离

    如果读和写的业务量都很大,并且它们都在同一个数据库服务器中进行操作,那么数据库的性能就会出现瓶颈这时为了提升系统的性能,优化用户体验,我们可以采用读写分离的方式降低主数据库的负载,比如用主数据库(master)完成写操作,用从数据库(slave)完成读操作。

    102.png

103.png

  1. 数据分片

    数据库分库分表。当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。如果你使用的是 MySQL,就可以使用 MySQL 自带的分区表功能,当然你也可以考虑自己做垂直拆分(分库)、水平拆分(分表)、垂直+水平拆分(分库分表)

    104.png

105.png

但需要注意的是,分拆在提升数据库性能的同时,也会增加维护和使用成本。

2. 优化 MySQL 服务器

优化 MySQL 服务器主要从两个方面来优化,一方面是对硬件进行优化;另一方面是对 MySQL 服务的参数进行优化。这部分的内容需要较全面的知识,一般只有专业的数据库管理员才能进行这一类的优化。对于可以定制参数的操作系统,也可以针对 MySQL 进行操作系统优化。

2.1 优化服务器硬件

服务器的硬件性能直接决定着 MySQL 数据库的性能。硬件的性能瓶颈直接决定 MySQL 数据库的运行速度和效率。针对性能瓶颈提高硬件配置,可以提高 MySQL 数据库查询、更新的速度。

(1)配置较大的内存。足够大的内存是提高 MySQL 数据库性能的方法之一。内存的速度比磁盘 I/O 快得多,可以通过增加系统的缓冲区容量使数据在内存中停留的时间更长,以减少磁盘 I/O

(2)配置高速磁盘系统,以减少读盘的等待时间,提高响应速度。磁盘的 I/O 能力,也就是它的寻道能力,目前的 SCSI 高速旋转的是7200转/分钟,这样的速度,一旦访问的用户量上去,磁盘的压力就会过大,如果是每天的网站 pv (page view)在150w,这样的一般的配置就无法满足这样的需求了。现在 SSD 盛行,在 SSD 上随机访问和顺序访问性能几乎差不多,使用 SSD 可以减少随机 IO 带来的性能损耗。

(3) 合理分布磁盘 I/O,把磁盘 I/O 分散在多个设备上,以减少资源竞争,提高并行操作能力。

(4)配置多处理器,MySQL是多线程的数据库,多处理器可同时执行多个线程。

2.2 优化MySQL的参数

通过优化 MySQL 的参数可以提高资源利用率,从而达到提高 MySQL 服务器性能的目的。

MySQL 服务的配置参数都在 my.cnf 或者 my.ini 文件的 [mysqld] 组中。配置完参数以后,需要重新启动 MySQL 服务才会生效。

下面对几个对性能影响比较大的参数进行详细介绍。

  • innodb_buffer_pool_size:这个参数是 MySQL 数据库最重要的参数之一,表示 InnoDB 类型的表和索引的最大缓存。它不仅仅缓存索引数据,还会缓存表的数据。这个值越大,查询的速度就会越快。但是这个值太大会影响操作系统的性能。
  • key_buffer_size:表示索引缓冲区的大小。索引缓冲区是所有的线程共享。增加索引缓冲区可以得到更好处理的索引(对所有读和多重写)。当然,这个值不是越大越好,它的大小取决于内存的大小。如果这个值太大,就会导致操作系统频繁换页,也会降低系统性能。对于内存在 4GB 左右的服务器该参数可设置为 256M 或 384M
  • table_cache:表示同时打开的表的个数。这个值越大,能够同时打开的表的个数越多。物理内存越大,设置就越大。默认为2048,调到 512-1024 最佳。这个值不是越大越好,因为同时打开的表太多会影响操作系统的性能。
  • query_cache_size:表示查询缓冲区的大小。可以通过在 MySQL 控制台观察,如果 Qcache_lowmem_prunes 的值非常大,则表明经常出现缓冲不够的情况,就要增加 Query_cache_size 的值;如果 Qcache_hits 的值非常大,则表明查询缓冲使用非常频繁,如果该值较小反而会影响效率,那么可以考虑不用查询缓存;Qcache_free_blocks,如果该值非常大,则表明缓冲区中碎片很多。MySQL8.0之后失效。该参数需要和query_cache_type配合使用。
  • query_cache_type 的值是 0 时,所有的查询都不使用查询缓存区。但是 query_cache_type=0 并不会导致 MySQL 释放query_cache_size所配置的缓存区内存。

    • 当 query_cache_type=1 时,所有的查询都将使用查询缓存区,除非在查询语句中指定 SQL_NO_CACHE,如 SELECT SQL_NO_CACHE * FROM tbl_name。
    • 当 query_cache_type=2 时,只有在查询语句中使用 SQL_CACHE 关键字,查询才会使用查询缓存区。使用查询缓存区可以提高查询的速度,这种方式只适用于修改操作少且经常执行相同的查询操作的情况。

      详细可以回顾 12_mysql中sql的执行流程 篇的参考来源

      监控查询缓存的命中率

      show status like '%Qcache%';

      106.png

  • sort_buffer_size:表示每个需要进行排序的线程分配的缓冲区的大小。增加这个参数的值可以提高 ORDER BYGROUP BY 操作的速度。默认数值是 2 097 144 字节(约2MB)。对于内存在4GB左右的服务器推荐设置为6-8M,如果有100个连接,那么实际分配的总共排序缓冲区大小为 100 × 6 = 600MB。
  • join_buffer_size = 8M︰表示联合查询操作所能使用的缓冲区大小,和 sort_buffer_size 一样,该参数对应的分配内存也是每个连接独享。
  • read_buffer_size:表示每个线程连续扫描时为扫描的每个表分配的缓冲区的大小(字节)。当线程从表中连续读取记录时需要用到这个缓冲区。SET SESSION read_buffer_size=n可以临时设置该参数的值。默认为64K,可以设置为4M。
  • innodb_flush_log_at_trx_commit:表示何时将缓冲区的数据写入日志文件,并且将日志文件写入磁盘中。该参数对于 innoDB 引擎非常重要。该参数有3个值,分别为 0、1和2。该参数的默认值为1。

    • 值为 0 时,表示每秒1次的频率将数据写入日志文件并将日志文件写入磁盘。每个事务的 commit 并不会触发前面的任何操作。该模式速度最快,但不太安全,mysqld 进程的崩溃会导致上一秒钟所有事务数据的丢失。
    • 值为 1 时,表示每次提交事务时将数据写入日志文件并将日志文件写入磁盘进行同步。该模式是最安全的,但也是最慢的一种方式。因为每次事务提交或事务外的指令都需要把日志写入(flush)硬盘。
    • 值为 2 时,表示每次提交事务时将数据写入日志文件,每隔1秒将日志文件写入磁盘。该模式速度较快,也比 0 安全,只有在操作系统崩溃或者系统断电的情况下,上一秒钟所有事务数据才可能丢失。
  • innodb_log_buffer_size:这是 InnoDB 存储引擎的事务日志所使用的缓冲区。为了提高性能,也是先将信息写入Innodb Log Buffer中,当满足 innodb_flush_log_trx_commit 参数所设置的相应条件(或者日志缓冲区写满)之后,才会将日志写到文件(或者同步到磁盘)中。
  • max_connections:表示允许连接到 MySQL 数据库的最大数量,默认值是151。如果状态变量 connection_errors_max_connections不为零,并且一直增长,则说明不断有连接请求因数据库连接数已达到允许最大值而失败,这是可以考虑增大 max_connections 的值。在 Linux 平台下,性能好的服务器,支持 500-1000 个连接不是难事,需要根据服务器性能进行评估设定。这个连接数不是越大越好,因为这些连接会浪费内存的资源。过多的连接可能会导致 MySQL 服务器僵死。
  • back_log:用于控制 MySQL 监听 TCP 端口时设置的积压请求栈大小。如果 MySQL 的连接数达到 max_connections 时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量即 back_log,如果等待连接的数量超过 back_log,将不被授予连接资源,将会报错。5.6.6 版本之前默认值为 50,之后的版本默认为 50+(max_connections / 5),对于Linux系统推荐设置为小于512的整数,但最大不超过 900。
    如果需要数据库在较短的时间内处理大量连接请求,可以考虑适当增大 back_log 的值。
  • thread_cache_size线程池缓存线程数量的大小,当客户端断开连接后将当前线程缓存起来,当在接到新的连接请求时快速响应无需创建新的线程。这尤其对那些使用短连接的应用程序来说可以极大的提高创建连接的效率。那么为了提高性能可以增大该参数的值。默认为 60,可以设置为 120。

    可以通过如下几个 MySQL 状态值来适当调整线程池的大小:

    mysql> show global status like 'Thread%';
    +-------------------+-------+
    | Variable_name     | Value |
    +-------------------+-------+
    | Threads_cached    | 5     |
    | Threads_connected | 6     |
    | Threads_created   | 11    |
    | Threads_running   | 2     |
    +-------------------+-------+
    4 rows in set (0.69 sec) 

    当 Threads_cached 越来越少,但 Threads_connected 始终不降,且 Threads_created 持续升高,可适当增加 thread_cache_size的大小。

  • wait_timeout:指定一个请求的最大连接时间,对于 4GB 左右内存的服务器可以设置为 5-10。
  • interactive_timeout:表示服务器在关闭连接前等待行动的秒数。

这里给出一份 my.cnf 的参考配置:

[mysqld]
port = 3306
serverid = 1
socket = /tmp/mysql.sock

# 避免 MySQL 的外部锁定,减少出错几率增强稳定性。
skip-locking

# 禁止 MySQL 对外部连接进行 DNS 解析,使用这一选项可以消除 MySQL 进行 DNS 解析的时间。但需要注意,如果开启该选项,则所有远程主机连接授权都要使用IP地址方式,否则MySQL将无法正常处理连接请求!
skip-name-resolve
back_log = 384
key_buffer_size = 256
max_allowed_packet = 4M
thread_stack = 256K
table_cache = 128K
sort_buffer_size = 6M
read_buffer_size = 4M
read_rnd_buffer_size = 16M
join_buffer_size = 8M
myisam_sort_buffer_size = 64M
table_cache = 512
# table_cache = 1024
thread_cache_size = 64
query_cache_size = 64M
tmp_table_size = 256M
max_connections = 768
max_connect_errors = 10000000
wait_timeout = 18

# 该参数取值为服务器逻辑CPU数量*2,在本例中,服务器有2颗物理CPU,而每颗物理CPU又支持H.T超线程,所以实际取值为 4*2=8
thread_concurrency = 8

# 开启该选项可以彻底关闭MySQL的 TCP/IP 连接方式,如果 WEB服务器是以远程连接的方式访问 MySQL 数据库服务器则不要开启该选项!否则将无法正常连接!
skip-networking

# 默认为2M
innodb_additional_mem_pool_size=4M 
innodb_flush_log_at_trx_commit=1

# 默认为1M
innodb_log_buffer_size=2M

# 你的服务器CPU有几个就设置为几。建议用默认一般为8
innodb_thread_concurrency=8

# 默认为16M,调到64-256最挂
tmp_table_size=64M
thread_cache_size=120
query_cache_size=32M

很多情况还需要具体情况具体分析!

举例:

下面是一个电商平台,类似京东或天猫这样的平台。商家购买服务,入住平台,开通之后,商家可以在系统中上架各种商品,客户通过手机 App、微信小程序等渠道购买商品,商家接到订单以后安排快递送货。

刚刚上线的时候,系统运行状态良好。但是,随着入住的商家不断增多,使用系统的用户量越来越多,每天的订单数据达到了5万条以上。这个时候,系统开始出现问题,CPU 使用率不断飙升。终于,双十一或者618活动高峰的时候,CPU使用率达到 99%,这实际上就意味着,系统的计算资源已经耗尽,再也无法处理任何新的订单了。换句话说,系统已经崩溃了。

这个时候,我们想到了对系统参数进行调整,因为参数的值决定了资源配置的方式和投放的程度。为了解决这个问题,一共调整3个系统参数,分别是:

  • innoDB_flush_log_at_trx_commit = 2
  • lnnoDB_buffer_pool_size = 64G
  • lnnoDB_buffer_pool_instances

下面我们就说一说调整这三个参数的原因是什么。

(1)调整系统参数 InnoDB_flush_log_at_trx_commit = 2

这个参数适用于 InnoDB 存储引擎,电商平台系统中的表用的存储引擎都是 InnoDB。默认的值是1,意思是每次提交事务的时候,都把数据写入日志,并把日志写入磁盘。这样做的好处是数据安全性最佳,不足之处在于每次提交事务,都要进行磁盘写入的操作。在大并发的场景下,过于频繁的磁盘读写会导致 CPU 资源浪费,系统效率变低

这个参数的值还有 2 个可能的选项,分别是 0 和 2。我们把这个参数的值改成了 2。这样就不用每次提交事务的时候都启动磁盘读写了,在大并发的场景下,可以改善系统效率,降低 CPU 使用率。即便出现故障,损失的数据也比较小。

(2)调整系统参数 InnoDB_buffer_pool_size = 64G

这个参数的意思是,InnoDB 存储引擎使用缓存来存储索引和数据。这个值越大,可以加载到缓存区的索引和数据量就越多,需要的磁盘读写就越少

因为我们的 MySQL 服务器是数据库专属服务器,只用来运行 MySQL 数据库服务,没有其他应用了,而我们的计算机是64位机器,内存也有 128G。于是我们把这个参数的值调整为 64G。这样一来,磁盘读写次数可以大幅降低,我们就可以充分利用内存,释放出一些 CPU 的资源。

(3)调整系统参数 InnoDB_buffer_pool_instances = 64

这个参数可以将 InnoDB 的缓存区分成几个部分,这样可以提高系统的并行处理能力,因为可以允许多个进程同时处理不同部分的缓存区。

我们把 InnoDB_buffer_pool_instances 的值修改为 64,意思就是把 InnoDB 的缓存区分成 64 个分区,这样就可以同时有多个进程进行数据操作,CPU 的效率就高多了。修改好了系统参数的值,要重启 MySQL 数据库服务器。

总结一下就是遇到 CPU 资源不足的问题,可以从下面 2 个思路去解决。

  • 疏通拥堵路段,消除瓶颈,让等待的时间更短;
  • 开拓新的通道,增加并行处理能力。

3. 优化数据库结构

一个好的数据库设计方案对于数据库的性能常常会起到事半功倍的效果。合理的数据库结构不仅可以使数据库占用更小的磁盘空间,而且能够使查询速度更快。数据库结构的设计需要考虑数据冗余、查询和更新的速度、字段的数据类型是否合理等多方面的内容。

3.1 拆分表:冷热数据分离

拆分表的思路是,把1个包含很多字段的表拆分成2个或者多个相对较小的表。这样做的原因是,这些表中某些字段的操作频率很高(热数据),经常要进行查询或者更新操作,而另外一些字段的使用频率却很低(冷数据),冷热数据分离,可以减小表的宽度。如果放在一个表里面,每次查询都要读取大记录,会消耗较多的资源。

MySQL限制每个表最多存储 4096 列,并且每一行数据的大小不能超过 65535 字节。表越宽,把表装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的 lO。冷热数据分离的目的是:①减少磁盘IO,保证热数据的内存缓存命中率。②更有效的利用缓存,避免读入无用的冷数据。

举例1:会员 members 表存储会员登录认证信息,该表中有很多字段,如 id、姓名、密码、地址、电话、个人描述字段。其中地址、电话、个人描述等字段并不常用,可以将这些不常用的字段分解出另一个表。将这个表取名叫 members_detail,表中有 member_id、address、telephone、description等字段。这样就把会员表分成了两个表分别为 members 表和 members_detail 表。

(省略建表语句)

如果需要查询会员的基本信息或详细信息,那么可以用会员的id来查询。如果需要将会员的基本信息和详细信息同时显示,那么可以将 members 表和 members_detail 表进行联合查询。

(省略 JOIN 查询语句)

通过这种分解可以提高表的查询效率。对于字段很多且有些字段使用不频繁的表,可以通过这种分解的方式来优化数据库的性能。

3.2 增加中间表

对于需要经常联合查询的表,可以建立中间表以提高查询效率。通过建立中间表,把需要经常联合查询的数据插入中间表中,然后将原来的联合查询改为对中间表的查询,以此来提高查询效率
首先,分析经常联合查询表中的字段;然后,使用这些字段建立一个中间表,并将原来联合查询的表的数据插中间表中;最后,使用中间表来进行查询。

(省略建表语句)

3.3 增加冗余字段

设计数据库表时应尽量遵循范式理论的规约,尽可能减少冗余字段,让数据库设计看起来精致、优雅。但是,合理地加入冗余字段可以提高查询速度。

表的规范化程度越高,表与表之间的关系就越多,需要连接查询的情况也就越多。尤其在数据量大,而且需要频繁进行连接的时候,为了提升效率,我们也可以考虑增加冗余字段来减少连接。

这部分内容在《第11章_数据库的设计规范》章节中反范式化小节中具体展开讲解了。这里省略。

3.4 优化数据类型

改进表的设计时,可以考虑优化字段的数据类型。这个问题在大家刚从事开发时基本不算是问题。但是,随着你的经验越来越丰富,参与的项目越来越大,数据量也越来越多的时候,你就不能只从系统稳定性的角度来思考问题了,还要考虑到系统整体的稳定性和效率。此时,优先选择符合存储需要的最小的数据类型

列的字段越大,建立索引时所需要的空间也就越大,这样一页中所能存储的索引节点的数量也就越少,在遍历时所需要的 IO 次数也就越多索引的性能也就越差

具体来说:

情况1:对整数类型数据进行优化

遇到整数类型的字段可以用 INT 型。这样做的理由是,INT 型数据有足够大的取值范围,不用担心数据超出取值范围的问题。刚开始做项目的时候,首先要保证系统的稳定性,这样设计字段类型是可以的。但在数据量很大的时候,数据类型的定义,在很大程度上会影响到系统整体的执行效率。

对于非负型的数据(如自增 ID、整型 IP)来说,要优先使用无符号整型 UNSIGNED 来存储。因为无符号相对于有符号,同样的字节数,存储的数值范围更大。如 tinyint 有符号为 -128-127,无符号为 0-255,多出一倍的存储空间。

情况2:既可以使用文本类型也可以使用整数类型的字段,要选择使用整数类型。

跟文本类型数据相比,大整数往往占用更少的存储空间,因此,在存取和比对的时候,可以占用更少的内存空间。所以,在二者皆可用的情况下,尽量使用整数类型,这样可以提高查询的效率。如:将 IP地址转换成整型数据。

情况3:避免使用TEXT、BLOB数据类型

MySQL内存临时表不支持 TEXT、BLOB 这样的大数据类型,如果查询中包含这样的数据,在排序等操作时,就不能使用内存临时表,必须使用磁盘临时表进行。并且对于这种数据,MySQL还是要进行二次查询,会使 SQL 性能变得很差,但是不是说一定不能使用这样的数据类型。

如果一定要使用,建议把 BLOB 或是 TEXT 列分离到单独的扩展表中,查询时一定不要使用select *,而只需要取出必要的列,不需要TEXT 列的数据时不要对该列进行查询。

情况4:避免使用 ENUM 类型

修改 ENUM值需要使用 ALTER 语句。

ENUM类型的 ORDER BY 操作效率低,需要额外操作。使用 TINYINT 来代替 ENUM 类型。

情况5:使用 TIMESTAMP 存储时间

TIMESTAMP 存储的时间范围 1970-01-01 00:00:01~2038-01-19-03:14:07 。TIMESTAMP 使用4字节,DATETIME 使用8字节,同时TIMESTAMP 具有自动赋值以及自动更新的特性。

情况6:用 DECIMAL 代替 FLOAT 和 DOUBLE 存储精确浮点数

1)非精准浮点: float,double

2)精准浮点: decimal

Decimal 类型为精准浮点数,在计算时不会丢失精度,尤其是财务相关的金融类数据。占用空间由定义的宽度决定,每4个字节可以存储9位数字,并且小数点要占用一个字节。可用于存储比 bigint 更大的整型数据。

总之,遇到数据量大的项目时,一定要在充分了解业务需求的前提下,合理优化数据类型,这样才能充分发挥资源的效率,使系统达到最优

3.5 优化插入记录的速度

插入记录时,影响插入速度的主要是索引、唯一性校验、一次插入记录条数等。根据这些情况可以分别进行优化。这里我们分为 MylSAM 引擎和 InnoDB 存储引擎来讲。

1. MylSAM 引擎的表:

禁用索引

对于非空表,插入记录时,MySQL 会根据表的索引对插入的记录建立索引。如果插入大量数据,建立索引就会降低插入记录的速度。为了解决这种情况,可以在插入记录之前禁用索引,数据插入完毕后再开启索引。禁用索引的语句如下:

ALTER TABLE table_name DISABLE KEYS;

重新开启索引的语句如下:

ALTER TABLE table_name ENABLE KEYS;

若对于空表批量导入数据,则不需要进行此操作,因为 MylSAM 引擎的表是在导入数据之后才建立索引的。

禁用唯一性检查

插入数据时,MySQL 会对插入的记录进行唯一性校验。这种唯一性校验会降低插入记录的速度。为了降低这种情况对查询速度的影响,可以在插入记录之前禁用唯一性检查,等到记录插入完毕后再开启。禁用唯一性检查的语句如下:

SET UNIQUE_CHECKS = 0;

开启唯一性检查的语句如下:

SET UNIQUE_CHECKS = 1;

使用批量插入

插入多条记录时,可以使用一条 INSERT 语句插入一条记录,也可以使用一条 INSERT 语句插入多条记录。插入一条记录的 INSERT 语句情形如下:

insert into student values(1, 'zhangsan' ,18,1);
insert into student values(2,'lisi' ,17,1);
insert into student values(3, 'wangwu' ,17,1);
insert into student values(4, 'zhaoliu' ,19,1 );

使用一条INSERT语句插入多条记录的情形如下:

insert into student values
(1, 'zhangsan', 18,1),
(2, 'lisi', 17,1),
(3, 'wangwu', 17,1),
(4, 'zhaoliu', 19,1);

第2种情形的插入速度要比第1种情形快。

使用 LOAD DATA INFILE 批量导入
当需要批量导入数据时,如果能用 LOAD DATA INFILE 语句,就尽量使用。因为 LOAD DATA INFILE语句导入数据的速度比 INSERT 语句快。

2. lnnoDB引擎的表:

禁用唯一性检查

插入数据之前执行 set unique_checks=0 来禁止对唯一索引的检查,数据导入完成之后再运行 set unique_checks=1 。这个和 MyISAM 引擎的使用方法一样。

②禁用外键检查

插入数据之前执行禁止对外键的检查,数据插入完成之后再恢复对外键的检查。禁用外键检查的语句如下:

SET foreign_key_checks = 0;

恢复对外键的检查语句如下:

SET foreign_key_checks = 1;

禁止自动提交

插入数据之前禁止事务的自动提交,数据导入完成之后,执行恢复自动提交操作。禁止自动提交的语句如下:

set autocommit = 0;

恢复自动提交的语句如下:

set autocommit = 1;

3.6 使用非空约束

在设计字段的时候,如果业务允许,建议尽量使用非空约束。这样做的好处是:

①进行比较和计算时,省去要对 NULL 值的字段判断是否为空的开销,提高存储效率。

②非空字段也容易创建索引。因为索引 NULL 列需要额外的空间来保存,所以要占用更多的空间。使用非空约束,就可以节省存储空间(每个字段1个bit)。

3.7 分析表、检查表与优化表

MySQL 提供了分析表、检查表和优化表的语句。分析表主要是分析关键字的分布,检查表主要是检查表是否存在错误,优化表主要是消除删除或者更新造成的空间浪费。

1. 分析表

MySQL 中提供了 ANALYZE TABLE 语句分析表,ANALYZE TABLE 语句的基本语法如下:

ANALYZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name[ , tbl_name ]...

默认的,MySQL 服务会将 ANALYZE TABLE 语句写到 binlog 中,以便在主从架构中,从服务能够同步数据。可以添加参数 LOCAL 或者NO_WRITE_TO_BINLOG 取消将语句写到 binlog 中。

使用 ANALYZE TABLE 分析表的过程中,数据库系统会自动对表加一个只读锁。在分析期间,只能读取表中的记录,不能更新和插入记录。ANALYZE TABLE 语句能够分析 InnoDB 和 MyISAM 类型的表,但是不能作用于视图。

ANALYZE TABLE 分析后的统计结果会反应到 cardinality 的值,该值统计了表中某一键所在的列不重复的值的个数。该值越接近表中的总行数,则在表连接查询或者索引查询时,就越优先被优化器选择使用。也就是索引列的 cardinality 的值与表中数据的总条数差距越大,即使查询的时候使用了该索引作为查询条件,存储引擎实际查询的时候使用的概率就越小。下面通过例子来验证下。cardinality 可以通过SHOW INDEX FROM 表名 查看。

(省略创建用户表和插入表的存储过程)

调用存储过程插入 1000 条数据,其中 id 字段不同, name 字段全部为 atguigu。然后随机修改一条记录的 name 字段为 atguigu01。

接下来我们查看 user 表的 cardinality,如下所示。

show idex from user;

107.png

可以看到 name 字段的 cardinality 值仅为2,id 字段的 cardinality 值为 0,和表中总行数差距甚远。下面使用 ANALYZE TABLE 来分析 user 表执行的语句及结果如下:

mysql> analyze table user;
+---------------------+---------+----------+----------+
| Table               | Op      | Msg_type | Msg_text |
+---------------------+---------+----------+----------+
| atguigu.user        | analyze | status   | OK       |
+---------------------+---------+----------+----------+
1 row in set (0.24 sec)

上面结果显示的信息说明如下:

  • Table:表示分析的表的名称。
  • op:表示执行的操作。analyze 表示进行分析操作。
  • Msg_type:表示信息类型,其值通常是状态(status)、信息 (info)、注意(note)、警告(warning)和错误(error)之一。
  • Msg_text:显示信息。

此时再次查看user表的cardinality,如下所示:

108.png

可以看到 id 主键的 cardinality 已经修正,和数据总量一致,此时索引已经修复,查询效率大大提高。这个值只要大致相同就表示索引被优化器使用的概率就越大;但是 name 的 cardinality 值依然不变。

我们查看下面 SQL 的执行计划

explain select * from user where name= "atguigu";

结果如下所示:

109.png

可以看到虽然 name 字段上面有索引,但是执行计划中显示 type 为 “ALL” ,表示并没有使用到索引。

2. 检查表(了解)

MySQL 中可以使用 CHECK TABLE 语句来检查表。CHECK TABLE 语句能够检查 InnoDB 和 MyISAM 类型的表是否存在错误。CHECK TABLE 语句在执行过程中也会给表加上只读锁
对于 MyISAM 类型的表,CHECK TABLE 语句还会更新关键字统计数据。而且,CHECK TABLE 也可以检查视图是否有错误,比如在视图定义中被引用的表已不存在。该语句的基本语法如下:

CHECK TABLE tbl_name [ , tbl_name] ... [option] ...option = {QUICK |FAST | MEDIUM |EXTENDED | CHANGED}

其中,tbl_name 是表名; option 参数有5个取值,分别是 QUICK、FAST、MEDIUM、EXTENDED 和 CHANGED。各个选项的意义分别是:

  • QUICK:不扫描行,不检查错误的连接。
  • FAST:只检查没有被正确关闭的表。
  • CHANGED:只检查上次检查后被更改的表和没有被正确关闭的表。
  • MEDIUM:扫描行,以验证被删除的连接是有效的。也可以计算各行的关键字校验和,并使用计算出的校验利验证这一点。
  • EXTENDED:对每行的所有关键字进行一个全面的关键字查找。这可以确保表是100%一致的,但是花的时间较长。

option 只对 MylSAM 类型的表有效,对 InnoDB 类型的表无效。比如:

mysql> check table student;
+---------------------+-------+----------+----------+
| Table               | Op    | Msg_type | Msg_text |
+---------------------+-------+----------+----------+
| atguigu.student     | check | status   | OK       |
+---------------------+-------+----------+----------+
1 row in set (0.31 sec)

该语句对于检查的表可能会产生多行信息。最后一行有一个状态的 Msg_type 值,Msg_text 通常为 OK。如果得到的不是OK,通常要对其进行修复;是OK说明表已经是最新的了。表已经是最新的,意味着存储引擎对这张表不必进行检查。

3. 优化表

方式1:OPTIMIZE TABLE

MySQL 中使用 OPTIMIZE TABLE 语句来优化表。但是,OPTILMIZE TABLE 语句只能优化表中的 VARCHAR、BLOB 或 TEXT 类型的字段。一个表使用了这些字段的数据类型,若已经删除了表的一大部分数据,或者已经对含有可变长度行的表(含有 VARCHAR、BLOB 或 TEXT 列的表)进行了很多更新,则应使用OPTILMIZE TABLE来重新利用未使用的空间,并整理数据文件的碎片。

OPTIMIZE TABLE 语句对 InnoDB 和 MylSAM 类型的表都有效。该语句在执行过程中也会给表加上只读锁。OPTILMIZE TABLE 语句的基本语法如下:

OPTIMIZE [LOCAL / NO_WRITE_TO_BINLOG] TABLE tbl_name [, tbl_name] ...

LOCAL | NO_WRITE_TO_BINLOG 关键字的意义和分析表相同,都是指定不写入二进制日志。

mysql> OPTIMIZE TABLE student;
+-----------------+----------+----------+-------------------------------------------------------------------+
| Table           | Op       | Msg_type | Msg_text                                                          |
+-----------------+----------+----------+-------------------------------------------------------------------+
| atguigu.student | optimize | note     | Table does not support optimize, doing recreate + analyze instead |
| atguigu.student | optimize | status   | OK                                                                |
+-----------------+----------+----------+-------------------------------------------------------------------+
2 rows in set (0.55 sec)

执行完毕,Msg_text显示:Table does not support optimize, doing recreate + analyze instead

原因是我服务器上的 MySQL 是 InnoDB 存储引擎。

到底优化了没有呢?看官网!

https://dev.mysql.com/doc/refman/8.0/en/optimize-table.html

在 MyISAM 中,是先分析这张表,然后会整理相关的 MySQL datafile,之后回收未使用的空间:在 innoDB 中,回收空间是简单通过 Alter table 进行整理空间。在优化期间,MySQL 会创建一个临时表,优化完成之后会删除原始表,然后会将临时表 rename 成为原始表。

说明:
在多数的设置中,根本不需要运行 OPTIMIZE TABLE。即使对可变长度的行进行了大量的更新,也不需要经常运行,每周一次每月一次即可,并且只需要对特定的表运行。

举例:

1.新建一张表、使用存储过程往里面放入100W 数据、或者更多一些,争取能够以兆的单位显示
2.查看服务器上数据文件的大小、文件目录是 /var/lib/mysq1/ 所在的数据库
3.删除二分之一的数据,然后再查看当前数据文件的大小,会发现此时大小是不变的
4.使用 OPTIMIZE table 表名; 命令优化表
5.再查看当前数据文件的大小,会发现此时大小已经变化了、做了空间的回收

110.png

方式2:使用mysqlcheck命令

mysqlcheck -o DatabaseName TableName -u root -p******

mysqlcheck 是Linux中的rompt,-o 是代表 optimize

举例:

C:\Users\Administrator>mysqlcheck -o mall sys_user -u root -p
Enter password: ****
mall.sys_user
note     : Table does not support optimize, doing recreate + analyze instead
status   : OK

优化所有的表

mysqlcheck -o DatabaseName -u root -p******
#或
mysqlcheck -o --all-databases -u root -p******

3.8小结

上述这些方法都是有利有弊的。比如:

  • 修改数据类型,节省存储空间的同时,你要考虑到数据不能超过取值范围;
  • 增加冗余字段的时候,不要忘了确保数据一致性;
  • 把大表拆分,也意味着你的查询会增加新的连接,从而增加额外的开销和运维的成本。因此,你一定要结合实际的业务需求进行权衡。

4. 大表优化

当 MySQL 单表记录数过大时,数据库的 CRUD 性能会明显下降,一些常见的优化措施如下:

4.1 限定查询的范围

禁止不带任何限制数据范围条件的查询语句。比如:我们当用户在查询订单历史的时候,我们可以控制在一个月的范围内;

4.2 读/写分离

经典的数据库拆分方案,主库负责写,从库负责读。

102.png

103.png

4.3 垂直拆分

当数据量级达到千万级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单—数据库服务器的访问压力。

104.png

  • 如果数据库中的数据表过多,可以采用垂直分库的方式,将关联的数据表部署在同一个数据库上。
  • 如果数据表中的列过多,可以采用垂直分表的方式,将一张数据表分拆成多张数据表,把经常一起使用的列放到同一张表里。

111.png

垂直拆分的优点:可以使得列数据变小,在查询时减少读取的 Block 数,减少 I/O 次数。此外,垂直分区可以简化表的结构,易于维护。
垂直拆分的缺点:主键会出现冗余,需要管理冗余列,并会引起 JOIN 操作。此外,垂直拆分会让事务变得更加复杂。

4.4 水平拆分

  • 尽量控制单表数据量的大小,建议控制在 1000万 以内。1000万并不是 MySQL 数据库的限制,过大会造成修改表结构、备份、恢复都会有很大的问题。此时可以用历史数据归档(应用于日志数据),水平分表(应用于业务数据)等手段来控制数据量大小。
  • 这里我们主要考虑业务数据的水平分表策略。将大的数据表按照某个属性维度分拆成不同的小表,每张小表保持相同的表结构。比如你可以按照年份来划分,把不同年份的数据放到不同的数据表中。2017年、2018年和2019年的数据就可以分别放到三张数据表中。
  • 水平分表仅是解决了单一表数据过大的问题,但由于表的数据还是在同一台机器上,其实对于提升 MySQL 并发能力没有什么意义,所以水平拆分最好分库,从而达到分布式的目的。

105.png

水平拆分能够支持非常大的数据量存储,应用端改造也少,但分片事务难以解决,跨节点 Join 性能较差,逻辑复杂。《Java工程师修炼之道》的作者推荐尽量不要对数据进行分片,因为拆分会带来逻辑、部署、运维的各种复杂度,一般的数据表在优化得当的情况下支撑千万以下的数据量是没有太大问题的。如果实在要分片,尽量选择客户端分片架构,这样可以减少一次和中间件的网络 l/O。

下面补充一下数据库分片的两种常见方案:

  • 客户端代理:分片逻辑在应用端,封装在 jar 包中,通过修改或者封装 JDBC 层来实现。当当网的 Sharding-JDBC、阿里的 TDDL 是两种比较常用的实现。
  • 中间件代理:在应用和数据中间加了一个代理层。分片逻辑统一维护在中间件服务中。我们现在谈的 Mycat、360的 Atlas、网易的 DDB 等等都是这种架构的实现。

5. 其它调优策略(了解)

5.1 服务器语句超时处理

在 MysQL 8.0 中可以设置服务器语句超时的限制,单位可以达到毫秒级别。当中断的执行语句超过设置的毫秒数后,服务器将终止查询影响不大的事务或连接,然后将错误报给客户端。

设置服务器语句超时的限制,可以通过设置系统变量 MAX_EXECUTION_TIME 来实现。默认情况下,MAX_EXECUTION_TIME 的值为0,代表没有时间限制。
例如:

SET GLOBAL MAX_EXECUTION_TIME=2000;
SET SESSION MAX_EXECUTION_TIME=2000; # 指定该会话中SELECT语句的超时时间

5.2 创建全局通用表空间

MySQL 8.0 使用 CREATE TABLESPACE 语句来创建一个全局通用表空间。全局表空间可以被所有的数据库的表共享,而且相比于独享表空间,使用手动创建共享表空间可以节约元数据方面的内存。可以在创建表的时候,指定属于哪个表空间,也可以对已有表进行表空间修改等。

下面创建名为 atguigu1 的共享表空间,SQL语句如下:

CREATE TABLESPACE atguigu1 ADD datafile 'atguigu1.ibd' file_block_size=16k;

指定表空间,SQL 语句如下:

CREATE TABLE test(id int,name varchar(10)) engine=innodb default charset utf8mb4 tablespace atguigu1;

也可以通过ALTER TABLE语句指定表空间,SQL语句如下:

alter table test tablespace atguigu1;

如何删除创建的共享表空间?因为是共享表空间,所以不能直接通过 drop table tbname 删除,这样操作并不能回收空间。当确定共享表空间的数据都没用,并且依赖该表空间的表均已经删除时,可以通过 drop tablespace 删除共享表空间来释放空间,如果依赖该共享表空间的表存在,就会删除失败。如下所示。

mysql> DROP TABLESPACE atguigu1;
Tablespace `atguigu1` is not empty.

所以应该首先删除依赖该表空间的数据表,SQL 语句如下:

DROP TABLE test;

最后即可删除表空间,SQL语句如下:

DROP TABLESPACE atguigu1;

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
sql调优之:字符集不一致导致的索引失效案例
生产上有一段sql,大概几百行,做的是inser into …select ;的操作,但是执行了一个多小时都出不来,正常情况下不会这么久,通过一步步定位,最后发现是其中某一段的join 特别慢导致的,后面对这段sql重点分析发现,这里的表竟然没有走索引,对于几十万以上的表之间的连接,若是没有索引那就是灾难性的,加不加索引就好比一个人力三轮与超跑的区别。
0 0
【笔记】SQL调优指南—调优方法论
找出需调优的慢SQL后,先通过EXPLAIN查看执行计划,然后通过如下方法优化SQL:下推更多计算至存储层MySQL,适当增加索引,优化执行计划。
0 0
SQL调优指南—智能索引推荐
索引优化通常需要依赖运维或开发人员对数据库引擎内部优化和执行原理的深入理解。为优化体验和降低操作门槛,PolarDB-X推出了基于代价优化器的索引推荐功能,可根据查询语句分析并推荐索引,帮助您降低查询耗时,提升数据库性能。
0 0
SQL调优指南—SQL调优进阶—执行计划管理
本文介绍如何管理执行计划,将重复或者复杂查询的执行计划长久地保存下来。
0 0
SQL调优指南—SQL调优进阶—排序优化和执行
本文介绍如何排序(Order-by)算子,以达到减少数据传输量和提高执行效率的效果。
0 0
SQL调优指南—SQL调优进阶—聚合优化和执行
本文介绍如何优化器和执行器如何处理聚合(Group-by),以达到减少数据传输量和提高执行效率的效果。
0 0
【笔记】开发指南—SQL调优指南—SQL调优进阶—子查询优化和执行
子查询是指在父查询的WHERE子句或HAVING子句中嵌套另一个SELECT语句的查询,本文主要介绍如何子查询。
0 0
SQL调优指南—SQL调优进阶—JOIN优化和执行
本文主要介绍如何使用JOIN。JOIN将多个表以某个或某些列为条件进行连接操作而检索出关联数据的过程,多个表之间以共同列而关联在一起。
0 0
【笔记】开发指南—SQL调优指南—SQL调优进阶—查询执行器介绍
本文介绍PolarDB-X的SQL执行器如何执行SQL中无法下推的部分。
0 0
+关注
kobo_骷堡
欢迎光临骷髅城堡~ 个人学习笔记记录 github:https://github.com/qq153916230/study.git
文章
问答
文章排行榜
最热
最新
相关电子书
更多
用SQL做数据分析
立即下载
阿里云流计算 Flink SQL 核心功能解密
立即下载
MaxCompute SQL计算成本调优以及优化方法
立即下载