MySQL · 特性分析 · 5.7 代价模型浅析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 代价模型mysql 5.7代价计算相对之前的版本有较大的改进。例如代价模型参数可以动态配置,可以适应不同的硬件 区分考虑数据在内存和在磁盘中的代价 代价精度提升为浮点型 jion计算时不仅要考虑condition,还要考虑condition上的filter,具体参见参数condition_fanout_filter5.7 在代价类型上分为io,cpu和memory, 5.7

代价模型

mysql 5.7代价计算相对之前的版本有较大的改进。例如

  • 代价模型参数可以动态配置,可以适应不同的硬件
  • 区分考虑数据在内存和在磁盘中的代价
  • 代价精度提升为浮点型
  • jion计算时不仅要考虑condition,还要考虑condition上的filter,具体参见参数condition_fanout_filter

5.7 在代价类型上分为io,cpu和memory, 5.7的代价模型还在完善中,memory的代价虽然已经收集了,但还没有没有计算在最终的代价中。
5.7 在源码上对代价模型进行了大量重构,代价分为server层和engine层。server层主要是cpu的代价,而engine层主要是io的代价。
5.7 引入了两个系统表mysql.server_cost和mysql.engine_cost来分别配置这两个层的代价。
以下分析均基于mysql5.7.10

server_cost

  • row_evaluate_cost (default 0.2)
    计算符合条件的行的代价,行数越多,此项代价越大
  • memory_temptable_create_cost (default 2.0)
    内存临时表的创建代价
  • memory_temptable_row_cost (default 0.2)
    内存临时表的行代价
  • key_compare_cost (default 0.1)
    键比较的代价,例如排序
  • disk_temptable_create_cost (default 40.0)
    内部myisam或innodb临时表的创建代价
  • disk_temptable_row_cost (default 1.0)
    内部myisam或innodb临时表的行代价

由上可以看出创建临时表的代价是很高的,尤其是内部的myisam或innodb临时表。

engine_cost

  • io_block_read_cost (default 1.0)
    从磁盘读数据的代价,对innodb来说,表示从磁盘读一个page的代价
  • memory_block_read_cost (default 1.0)
    从内存读数据的代价,对innodb来说,表示从buffer pool读一个page的代价

    目前io_block_read_cost和memory_block_read_cost默认值均为1,实际生产中建议酌情调大memory_block_read_cost,特别是对普通硬盘的场景。

代价配置

cost参数可以通过修改mysql.server_cost和mysql.engine_cost来实现。初始这两个表中的记录cost_value项均为NULL, 代价值都取上两节介绍的初始值。
当修改cost_value为非NULL时,代价值按设定的值计算。修改方法如下:

## 修改io_block_read_cost值为2
UPDATE mysql.engine_cost
  SET cost_value = 2.0
  WHERE cost_name = 'io_block_read_cost';
# FLUSH OPTIMIZER_COSTS 生效,只对新连接有效,老连接无效。
FLUSH OPTIMIZER_COSTS;

另外,在主备环境下,修改cost参数时主备都要修改。因为mysql.server_cost和mysql.engine_cost的更新不会参与复制。

代价分析示例

初始化数据

create table t1(c1 int primary key, c2 int unique,c3 int) engine=innodb;

let $loop=100;
while($loop)
{
  eval insert into t1(c1,c2,c3) values($loop, $loop+1, $loop+2);
  dec $loop;
}

set optimizer_trace = "enabled=on";

cost参数都取默认值,以下示例中会用到row_evaluate_cost(0.2),io_block_read_cost(1.0),io_block_read_cost(1.0),memory_block_read_cost(1.0)

示例1

以下语句选择覆盖索引c2

explain select c1,c2 from t1 where c2 > 10;
id      select_type     table   partitions      type    possible_keys   key     key_len ref     rows    filtered        Extra
1       SIMPLE  t1      NULL    range   c2      c2      5       NULL    91      100.00  Using where; Using index

查看optimizer_trace, 可以看出全表扫描代价为23.1,通过c2上的索引扫描代价为19.309, 最后选择c2上的索引扫描。

     "rows_estimation": [
       {
         "table": "`t1`",
         "range_analysis": {
           "table_scan": {
             "rows": 100,
             "cost": 23.1
           },
           "potential_range_indexes": [
             {
               "index": "PRIMARY",
               "usable": false,
               "cause": "not_applicable"
             },
             {
               "index": "c2",
               "usable": true,
               "key_parts": [
                 "c2"
               ]
             }
           ],
           "best_covering_index_scan": {
             "index": "c2",
             "cost": 21.109,
             "chosen": true
           },
           "setup_range_conditions": [
           ],
           "group_index_range": {
             "chosen": false,
             "cause": "not_group_by_or_distinct"
           },
           "analyzing_range_alternatives": {
             "range_scan_alternatives": [
               {
                 "index": "c2",
                 "ranges": [
                   "10 < c2"
                 ],
                 "index_dives_for_eq_ranges": true,
                 "rowid_ordered": false,
                 "using_mrr": false,
                 "index_only": true,
                 "rows": 91,
                 "cost": 19.309,
                 "chosen": true
               }
             ],
             "analyzing_roworder_intersect": {
               "usable": false,
               "cause": "too_few_roworder_scans"
             }
           },
           "chosen_range_access_summary": {
             "range_access_plan": {
               "type": "range_scan",
               "index": "c2",
               "rows": 91,
               "ranges": [
                 "10 < c2"
               ]
             },
             "rows_for_plan": 91,
             "cost_for_plan": 19.309,
             "chosen": true
           }
         }
       }
     ]
   },
   {
     "considered_execution_plans": [
       {
         "plan_prefix": [
         ],
         "table": "`t1`",
         "best_access_path": {
           "considered_access_paths": [
             {
               "rows_to_scan": 91,
               "access_type": "range",
               "range_details": {
                 "used_index": "c2"
               },
               "resulting_rows": 91,
               "cost": 37.509,
               "chosen": true
             }
           ]
         },
         "condition_filtering_pct": 100,
         "rows_for_plan": 91,
         "cost_for_plan": 37.509,
         "chosen": true
       }
     ]

全表扫描的代价23.1

包括io和cpu的代价

test_quick_select:
 double scan_time=                                                    
   cost_model->row_evaluate_cost(static_cast<double>(records)) + 1;   
 Cost_estimate cost_est= head->file->table_scan_cost();               
 cost_est.add_io(1.1);//这里加1.1应该是个调节值                                                
 cost_est.add_cpu(scan_time);   

其中io代价table_scan_cost会根据buffer pool大小和索引大小来估算page in memory和in disk的比例,分别算出代价。

handler::table_scan_cost()
  ha_innobase::scan_time()*table->cost_model()->page_read_cost(1.0);//1*1=1
  //其中scan_time计算数据所占page数,

page_read_cost计算读取单个page的代价

 buffer_block_read_cost(pages_in_mem) + io_block_read_cost(pages_on_disk); 

io代价为1+1.1=2.1

cpu代价为row_evaluate_cost

double row_evaluate_cost(double rows) const
{
  DBUG_ASSERT(m_initialized);
  DBUG_ASSERT(rows >= 0.0);
  
  return rows * m_server_cost_constants->row_evaluate_cost(); // 100 * 0.2(row_evaluate_cost)=20;
}

cpu代价为20+1=21;

最终代价为2.1+21=23.1

c2索引扫描代价19.309

同样也分为io和cpu代价

multi_range_read_info_const:

  *cost= index_scan_cost(keyno, static_cast<double>(n_ranges),
                          static_cast<double>(total_rows));
  cost->add_cpu(cost_model->row_evaluate_cost(static_cast<double>(total_rows)) + 0.01);

io代价 1.0987925356750823*1=1.0987925356750823

index_scan_cost:
  const double io_cost= index_only_read_time(index, rows) *  //估算index占page个数  = 1.0987925356750823
  table->cost_model()->page_read_cost_index(index, 1.0);     //根据buffer pool大小和索引大小来估算page in memory和in disk的比例,计算读一个page的代价。 = 1

cpu代价91*0.2+0.01=18.21

cost->add_cpu(cost_model->row_evaluate_cost(
  static_cast<double>(total_rows)) + 0.01);  //这里根据过滤条件算出的total_rows为91

最终代价1.0987925356750823+18.21=19.309

示例2

以下语句选择了全表扫描

explain select * from t1 where c2 > 10;
id      select_type     table   partitions      type    possible_keys   key     key_len ref     rows    filtered        Extra
1       SIMPLE  t1      NULL    ALL     c2      NULL    NULL    NULL    100     91.00   Using where

查看optimizer_trace, 可以看出全表扫描代价为23.1,通过c2上的索引扫描代价为110.21, 最后选择全表扫描。

 "rows_estimation": [
              {
                "table": "`t1`",
                "range_analysis": {
                  "table_scan": {
                    "rows": 100,
                    "cost": 23.1
                  },
                  "potential_range_indexes": [
                    {
                      "index": "PRIMARY",
                      "usable": false,
                      "cause": "not_applicable"
                    },
                    {
                      "index": "c2",
                      "usable": true,
                      "key_parts": [
                        "c2"
                      ]
                    }
                  ],
                  "setup_range_conditions": [
                  ],
                  "group_index_range": {
                    "chosen": false,
                    "cause": "not_group_by_or_distinct"
                  },
                  "analyzing_range_alternatives": {
                    "range_scan_alternatives": [
                      {
                        "index": "c2",
                        "ranges": [
                          "10 < c2"
                        ],
                        "index_dives_for_eq_ranges": true,
                        "rowid_ordered": false,
                        "using_mrr": false,
                        "index_only": false,
                        "rows": 91,
                        "cost": 110.21,
                        "chosen": false,
                        "cause": "cost"
                      }
                    ],
                    "analyzing_roworder_intersect": {
                      "usable": false,
                      "cause": "too_few_roworder_scans"
                    }
                  }
                }
              }
            ]
          },
          {
            "considered_execution_plans": [
              {
                "plan_prefix": [
                ],
                "table": "`t1`",
                "best_access_path": {
                  "considered_access_paths": [
                    {
                      "rows_to_scan": 100,
                      "access_type": "scan",
                      "resulting_rows": 91,
                      "cost": 21,
                      "chosen": true
                    }
                  ]
                },
                "condition_filtering_pct": 100,
                "rows_for_plan": 91,
                "cost_for_plan": 21,
                "chosen": true
              }
            ]
          },

全表扫描代价23.1

同上一节分析

c2索引扫描代价为110.21

上一节通过c2索引扫描代价为19.309,因为是覆盖索引不需要回表,所以代价较少。而此例是需要回表的。

multi_range_read_info_const:
    *cost= read_cost(keyno, static_cast<double>(n_ranges),
                     static_cast<double>(total_rows));    
  cost->add_cpu(cost_model->row_evaluate_cost(            
    static_cast<double>(total_rows)) + 0.01);     

io代价需回表

read_cost: //92*1=92
  const double io_cost= read_time(index, static_cast<uint>(ranges)
                                static_cast<ha_rows>(rows)) *
                                table->cost_model()->page_read_cost(1.0);   
                                
read_time: //91+1=92
virtual double read_time(uint index, uint ranges, ha_rows rows)
{ return rows2double(ranges+rows); }  

这里回表时计算代价为每行代价为1,默认认为回表时每行都对于聚集索引的一个page.

io代价为92

cpu代价为91*0.2+0.01=18.21
cost->add_cpu(cost_model->row_evaluate_cost( static_cast<double>(total_rows)) + 0.01);

最后代价为92+18.21=110.21

总结

5.7 代价模型优化还在持续改进中,相信后续的版本会越来越好。代价的参数的配置需谨慎,需要大量的测试和验证。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
8天前
|
SQL 安全 关系型数据库
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
事务是MySQL中一组不可分割的操作集合,确保所有操作要么全部成功,要么全部失败。本文利用SQL演示并总结了事务操作、事务四大特性、并发事务问题、事务隔离级别。
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
|
16天前
|
SQL 关系型数据库 MySQL
MySQL 窗口函数详解:分析性查询的强大工具
MySQL 窗口函数从 8.0 版本开始支持,提供了一种灵活的方式处理 SQL 查询中的数据。无需分组即可对行集进行分析,常用于计算排名、累计和、移动平均值等。基本语法包括 `function_name([arguments]) OVER ([PARTITION BY columns] [ORDER BY columns] [frame_clause])`,常见函数有 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `SUM()`, `AVG()` 等。窗口框架定义了计算聚合值时应包含的行。适用于复杂数据操作和分析报告。
57 11
|
2月前
|
关系型数据库 MySQL
mysql事务特性
原子性:一个事务内的操作统一成功或失败 一致性:事务前后的数据总量不变 隔离性:事务与事务之间相互不影响 持久性:事务一旦提交发生的改变不可逆
|
2月前
|
存储 关系型数据库 MySQL
MySQL 8.0特性-自增变量的持久化
【11月更文挑战第8天】在 MySQL 8.0 之前,自增变量(`AUTO_INCREMENT`)的行为在服务器重启后可能会发生变化,导致意外结果。MySQL 8.0 引入了自增变量的持久化特性,将其信息存储在数据字典中,确保重启后的一致性。这提高了开发和管理的稳定性,减少了主键冲突和数据不一致的风险。默认情况下,MySQL 8.0 启用了这一特性,但在升级时需注意行为变化。
|
3月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1724 14
|
3月前
|
存储 关系型数据库 MySQL
基于案例分析 MySQL 权限认证中的具体优先原则
【10月更文挑战第26天】本文通过具体案例分析了MySQL权限认证中的优先原则,包括全局权限、数据库级别权限和表级别权限的设置与优先级。全局权限优先于数据库级别权限,后者又优先于表级别权限。在权限冲突时,更严格的权限将被优先执行,确保数据库的安全性与资源合理分配。
|
4月前
|
JSON 关系型数据库 MySQL
MySQL 8.0 新特性
MySQL 8.0 新特性
175 10
MySQL 8.0 新特性
|
4月前
|
存储 Oracle 关系型数据库
Oracle和MySQL有哪些区别?从基本特性、技术选型、字段类型、事务、语句等角度详细对比Oracle和MySQL
从基本特性、技术选型、字段类型、事务提交方式、SQL语句、分页方法等方面对比Oracle和MySQL的区别。
766 18
|
3月前
|
SQL 安全 关系型数据库
MySQL8.2有哪些新特性?
【10月更文挑战第3天】MySQL8.2有哪些新特性?
64 2
|
3月前
|
SQL 关系型数据库 MySQL
MySQL 更新1000万条数据和DDL执行时间分析
MySQL 更新1000万条数据和DDL执行时间分析
198 4

相关产品

  • 云数据库 RDS MySQL 版