TokuDB · 引擎特性 · REPLACE 语句优化

本文涉及的产品
PolarDB Agent Express,2核4GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: 背景MySQL 在标准 SQL 外,会扩展一些好用的语法,本文关注的 REPLACE 和 INSERT IGNORE 就属于这类。这 2 个语法都是对 INSERT 的扩展,语义是向表中插入数据,不同之处在于遇到 PK 或者 UK 冲突时的处理:INSERT:报 duplicate key 的错误,数据不插入; REPLACE:删除掉老冲突记录,插入新的记录; INSERT IG

背景

MySQL 在标准 SQL 外,会扩展一些好用的语法,本文关注的 REPLACE 和 INSERT IGNORE 就属于这类。这 2 个语法都是对 INSERT 的扩展,语义是向表中插入数据,不同之处在于遇到 PK 或者 UK 冲突时的处理:

  1. INSERT:报 duplicate key 的错误,数据不插入;
  2. REPLACE:删除掉老冲突记录,插入新的记录;
  3. INSERT IGNORE:不插入数据,但是不报错。
    可以看到,REPLACE 的语义是用新数据取代老数据,INSERT IGNORE 的语义是保留老的数据。

本文将向大家介绍 TokuDB 引擎对这个2个语法的优化。

优化分析

我们先看下优化前,一次 REPLACE 和 INSERT IGNORE 都需要做哪些操作。

对于 REPLACE:
1. 先尝试做 insert,因为 TokuDB 插入是异步的,为了保证唯一性约束,会先做一次 search,看是否有已经有记录;
2. 如果老记录不存在,就直接插入;如果存在,就向 server 层报 dup key 错误;
3. server 层拿到 dup key 错误后,再向引擎发一次 search 操作,把老记录捞出来;
4. server 层有了老记录和要插入的数据,调引擎层的 update 接口做更新(其实这里应该做 delete + insert,server 层做了一个优先,只需要调一次引擎接口;如果有外键或者有delete触发器的话,还是会做 delete + insert 的,可以参考 write_record() 函数)。

对于 INSERT IGNORE:
1. 先尝试做 insert,因为 TokuDB 插入是异步的,为了保证唯一性约束,会先做一次 search,看是否有已经有记录;
2. 如果老记录不存在,就直接插入;如果存在,就向 server 层报 dup key 错误;
3. server 层拿到 dup key 错误后,发现设置了 ignore,就正常返回。

TokuDB 优化后是怎样的呢,REPLACE 和 INSERT IGNORE 只需要做一次插入即可,TokuDB 对写是做了优化的,只需要将 msg 放在 FT 的 root 节点即可,后台线程会异步将其应用到 leaf 节点(参考TokuDB索引结构–Fractal Tree),所以性能提升是比较明显的。

做优化的调用栈如下:

#0  do_ignore_flag_optimization()
#1  ha_tokudb::set_main_dict_put_flags()
#2  ha_tokudb::insert_row_to_main_dictionary()
#3  ha_tokudb::write_row()
#4  handler::ha_write_row()
#5  write_record()
#6  mysql_insert()
#7  mysql_execute_command()

主要代码逻辑在 ha_tokudb::set_main_dict_put_flags()do_ignore_flag_optimization() 这2个函数中。

do_ignore_flag_optimization() 判断能否做这个优化:

static inline bool do_ignore_flag_optimization(
    THD* thd,
    TABLE* table,
    bool opt_eligible) {

    bool do_opt = false;
    if (opt_eligible &&
        (is_replace_into(thd) || is_insert_ignore(thd)) &&
        tokudb::sysvars::pk_insert_mode(thd) == 1 &&
        !table->triggers &&
        !(mysql_bin_log.is_open() &&
         thd->variables.binlog_format != BINLOG_FORMAT_STMT)) {
        do_opt = true;
    }
    return do_opt;
}

ha_tokudb::set_main_dict_put_flags() 根据 do_ignore_flag_optimization() 返回的结果和当前语句设置 put_flag。

    else if (using_ignore_flag_opt && is_replace_into(thd)
            && !in_hot_index)
    {
        *put_flags = old_prelock_flags;
    }
    else if (opt_eligible && using_ignore_flag_opt && is_insert_ignore(thd)
            && !in_hot_index)
    {
        *put_flags = DB_NOOVERWRITE_NO_ERROR | old_prelock_flags;
    }
    else
    {
        *put_flags = DB_NOOVERWRITE | old_prelock_flags;
    }

db_put() 中会根据前面设置的 put_flag,决定是调用 toku_ft_insert_unique(),还是toku_ft_maybe_insert(),前者会先调用 toku_ft_lookup() 做唯一性检查,然后再做插入;后者则直接插入。在最终调用 toku_ft_root_put_msg(),将 msg 放在root节点时,会根据之前的flag 生成不同 type 的msg,如 INSERT IGNORE 的 type 就设置为 FT_INSERT_NO_OVERWRITE,表示msg类型是插入,但是如果有老记录时不覆盖,后台 apply 线程在应用时,就会根据 msg 的类型采取相应的处理。

性能测试对比

为了能够方便的开启和关闭这个优化,笔者在代码里加了一个开关。测试是用 sysbench,开32个线程,一个事务里就一条语句(REPLACE 或者 INSERT IGNORE),表结构就是sysbench默认的,但是去掉了二级索引,另外 binlog 是关闭的,结果如下:

  1. REPLACE

    模式 TPS CPU%
    关闭优化 3438.21 900
    开启优化 6590.31 240
  2. INSERT IGNORE

    模式 TPS CPU%
    关闭优化 6165.36 1000
    开启优化 6702.45 240

可以看到对于 REPLACE 的优化效果非常明显,用更低的 CPU 消耗获得了更高的 TPS;对于 INSERT IGNORE,CPU 消耗大大降低,TPS 有一定提升。
INSERT IGNORE 优化效果没有 REPLACE 这么明显,是因为 INSERT IGNORE 本身的逻辑要比 REPLACE 简单,在优化前如果冲突记录存在的话,是直接返回的。

使用限制

需要注意的是,这个优化并不是通用的,具体的限制如下:

  1. 只能有一个PK,不能其它任务用二级索引
    PK所在的FT做插入时,是直接把 msg 放到 root 节点的,根本就没有取可能存在的老记录,所以二级索引的更新是没法做的。

  2. 要求 binlog 用 statement 格式,或者关闭 binlog
    如果 binlog 是 row 格式的话,会导致备库应用报错,所有的操作都记为 Write_rows event,如果有记录冲突的话,备库执行时直接报 dup key 错误。

  3. 表上不能有 triger
    这个主要是因为优化后语义被改变了,replace 在冲突时没有 delete 操作,insert ignore 引擎层永远是返回成功的。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
2月前
|
弹性计算 人工智能 数据库
阿里云服务器租用价格表:按量付费与包年包月收费标准,云服务器1年、2年、3年活动价格
2026年阿里云服务器价格优惠,轻量应用服务器年付仅38元起,月付9.9元起,还有99元、199元长效特惠套餐供个人开发者、学生及企业用户选择,适用于多种场景。计费模式包括按量付费和包年包月,后者长期使用成本更低。面对多样的实例和价格,用户应明确业务需求、权衡计费模式,并利用阿里云的价格计算器和优惠券做出最佳选择。
1202 2
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
|
5月前
|
监控 算法 安全
室内外融合定位系统从核心架构、技术原理到部署实施流程等详解(一)
室内外融合定位通过“北斗+UWB+IMU”多技术协同,实现工业场景全区域厘米级精准定位。系统采用终端-网络-平台三层架构,支持无缝切换与惯性补盲,广泛应用于化工、矿山、港口等高危场所,保障人员与物资安全。如果您想进一步了解室内外融合定位的技术和案例,欢迎搜索维构lbs智能定位~
|
2月前
|
存储 缓存 人工智能
大模型应用:大模型数据缓存复用方案:从API请求数据累积到智能融合.50
本文提出一种低成本、高性能的大模型应用优化方案:基于SentenceTransformer本地生成文本向量,实现语义级缓存匹配;结合通义千问大模型智能融合历史与新答案;内置缓存淘汰与异常处理机制。实测缓存命中率超50%,响应提速10倍以上,显著降本增效。
356 4
|
2月前
|
人工智能 机器人 API
零基础搭建AI多智能体团队:OpenClaw×飞书全流程+阿里云部署+模型配置指南
在日常工作与团队协作中,单一AI对话模式已无法满足复杂任务需求。真正高效的AI协作,是让多个专业化智能体如同真实团队一般分工配合、信息互通、自动流转任务。OpenClaw(Clawdbot)作为轻量化多智能体编排框架,支持角色定义、任务拆解、消息路由、跨Agent通信与共享知识库,搭配飞书作为统一交互入口,可快速搭建一支**调研、写作、编码、统筹**全自动AI团队。
434 0
|
7月前
|
机器学习/深度学习 人工智能
生成式AI的创造性核心:涌现能力从何而来?
生成式AI的创造性核心:涌现能力从何而来?
650 119
|
4月前
|
人工智能 机器人 定位技术
什么是Agentic AI
2026 CES上,黄仁勋力推Agentic AI(智能体)——不止回答问题,更能理解意图、自主规划、调用工具、执行任务。它正加速落地:吉利车机语音操控生态、昆仑万维AI视频创作、跨境财税与AI面试等ToB场景已规模化应用,降本增效显著。(239字)
|
10月前
|
负载均衡 架构师 Cloud Native
阿里面试:服务与发现 ,该选 CP 还是 AP?为什么?
阿里面试:服务与发现 ,该选 CP 还是 AP?为什么?
阿里面试:服务与发现 ,该选  CP 还是 AP?为什么?
|
10月前
|
JSON 缓存 监控
1688商品详情API实时数据解析的示例
1688商品详情API可实时获取商品标题、价格、规格、库存等核心数据。通过商品ID调用接口,支持解析基础信息、SKU规格、卖家与物流详情。提供Python调用示例与完整数据解析逻辑,适用于采购比价、供应商监控等场景,确保数据精准获取与处理。
|
12月前
|
边缘计算 人工智能 JavaScript
如何选择正确的体育电竞数据接口服务商?
想开发体育或电竞App却因数据接口问题头疼?数据延迟、更新慢、覆盖不全?本文教你挑选可靠的数据接口服务商,关注核心指标:实时性(<0.5秒延迟)、准确性(错误率<0.1%)、稳定性(99.99% SLA)。避坑指南助你远离劣质服务,优质接口应具备全链路解决方案、电竞专属优化及7x24技术支持。选对服务商,让数据为你的App赋能!