Data Migration 常见问题

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: DM 是否支持同步阿里 RDS 以及其他云数据库的数据?DM 仅支持解析标准版本的 MySQL/MariaDB 的 binlog,对于阿里云 RDS 以及其他云数据库没有进行过测试,如果确认其 binlog 为标准格式,则可以支持。task 配置中的黑白名单的正则表达式是否支持非获取匹配(?!)?目前不支持,DM 仅支持 golang 标准库的正则,可以通过 re2-syntax 了解 golang 支持的正则表达式。如果在上游执行的一个 statement 包含多个 DDL 操作,DM 是否支持同步?DM 会尝试将包含多个 DDL 变更操作的单条语句拆分成只包含一个 DDL 操

DM 是否支持同步阿里 RDS 以及其他云数据库的数据?
DM 仅支持解析标准版本的 MySQL/MariaDB 的 binlog,对于阿里云 RDS 以及其他云数据库没有进行过测试,如果确认其 binlog 为标准格式,则可以支持。

task 配置中的黑白名单的正则表达式是否支持非获取匹配(?!)?
目前不支持,DM 仅支持 golang 标准库的正则,可以通过 re2-syntax 了解 golang 支持的正则表达式。

如果在上游执行的一个 statement 包含多个 DDL 操作,DM 是否支持同步?
DM 会尝试将包含多个 DDL 变更操作的单条语句拆分成只包含一个 DDL 操作的多条语句,但是可能没有覆盖所有的场景。建议在上游执行的一条 statement 中只包含一个 DDL 操作,或者在测试环境中验证一下,如果不支持,可以给 DM 提 issue。

如何处理不兼容的 DDL 语句?
你需要使用 dmctl 手动处理 TiDB 不兼容的 DDL 语句(包括手动跳过该 DDL 语句或使用用户指定的 DDL 语句替换原 DDL 语句,详见

注意:

TiDB 目前并不兼容 MySQL 支持的所有 DDL 语句。

如何重置数据同步任务?
在以下情况中,你需要重置整个数据同步任务:

上游数据库中人为执行了 RESET MASTER,造成 relay log 同步出错

relay log 或上游 binlog event 损坏或者丢失

此时,relay 处理单元通常会发生错误而退出,且无法优雅地自动恢复,因此需要通过手动方式恢复数据同步:

使用 stop-task 命令停止当前正在运行的所有同步任务。

使用 DM-Ansible

手动清理掉与 binlog event 被重置的 MySQL master 相对应的 DM-worker 的 relay log 目录。

如果是使用 DM-Ansible 部署,relay log 目录即 <deploy_dir>/relay_log 目录。
如果是使用二进制文件手动部署,relay log 目录即 relay-dir 参数设置的目录。
清理掉下游已同步的数据。

使用 DM-Ansible

以新的任务名重启数据同步任务,或设置 remove-meta 为 true 且 task-mode 为 all。

设置了 online-ddl-scheme: "gh-ost", gh-ost 表相关的 DDL 报错该如何处理?
[unit=Sync] ["error information"="{\"msg\":\"[code=36046:class=sync-unit:scope=internal:level=high] online ddls on ghost table xxx._xxxx_gho\ngithub.com/pingcap/dm/pkg/terror.(*Error).Generate ......
出现上述错误可能有以下原因:

DM 在最后 rename ghost_table to origin table 的步骤会把QQ靓号买号平台内存的 DDL 信息读出,并且还原为 origin table 的 DDL。而内存中的 DDL 信息是在 alter ghost_table 的时候进行dm_meta.{task_name}_onlineddl 中读取出来。

因此,如果在增量同步过程中,指定的 Pos 跳过了 alter ghost_table 的 DDL,但是该 Pos 仍在 gh-ost 的 online-ddl 的过程中,就会因为 ghost_table 没有正确写入到内存以及 dm_meta.{task_name}_onlineddl,而导致该问题。

可以通过以下方式绕过这个问题:

取消 task 的 online-ddl-schema 的配置。

把 _{table_name}_gho、_{table_name}_ghc、_{table_name}_del 配置到 black-white-list.ignore-tables 中。

手工在下游的 TiDB 执行上游的 DDL。

待 Pos 同步到 gh-ost 流程的位置之后,再重新启用 online-ddl-schema 以及注释掉 black-white-list.ignore-tables。

"Data Migration 常见问题" 更新于 Apr 8 2020: aliases: change stable to v3.0 in aliases (#21) (374695a)

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
测试技术 Nacos 数据库
Nacos 配置中心(命名空间切换) | 学习笔记
快速学习 Nacos 配置中心(命名空间切换)
|
开发工具 git
Git从远程仓库拉取指定的分支
Git从远程仓库拉取指定的分支
3198 0
|
9月前
|
人工智能 测试技术 API
最新全球模型榜单:通义千问Qwen2.5-Max数学及编程能力第一!
最新全球模型榜单:通义千问Qwen2.5-Max数学及编程能力第一!
703 5
|
Linux
Linux系统之dstat命令的基本使用
`dstat`命令的灵活性和多样性使其成为监测系统性能的有用工具,可以根据需求选择显示不同的统计信息。
218 1
Linux系统之dstat命令的基本使用
|
SQL 关系型数据库 数据库连接
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
ClickHouse的PostgreSQL引擎允许直接查询和插入远程PostgreSQL服务器的数据。`CREATE TABLE`语句示例展示了如何定义这样的表,包括服务器信息和权限。查询在只读事务中执行,简单筛选在PostgreSQL端处理,复杂操作在ClickHouse端完成。`INSERT`通过`COPY`命令在PostgreSQL事务中进行。注意,数组类型的处理和Nullable列的行为。示例展示了如何从PostgreSQL到ClickHouse同步数据。一系列的文章详细解释了ClickHouse的各种特性和表引擎。
530 0
|
存储 NoSQL Java
使用Java实现分布式文件系统
使用Java实现分布式文件系统
|
XML Java 数据库连接
解决在mybatis中出现的org.apache.ibatis.exceptions.PersistenceException~
解决在mybatis中出现的org.apache.ibatis.exceptions.PersistenceException~
2206 0
|
机器学习/深度学习 人工智能 数据可视化
PAI平台
近年来,随着人工智能技术的飞速发展,越来越多的企业开始关注如何将AI技术应用到业务场景中,以提高效率、降低成本。然而,对于大多数企业来说,AI技术的应用仍然面临着许多挑战,例如高昂的计算资源需求、复杂的模型训练和部署流程等。
441 2
|
前端开发 API 数据库
面试官问:如何防止重复提交请求,99%的前端能说出来!
如何防止接口重复提交是一个常见的系统设计问题,主要目的是确保关键操作的原子性和一致性。以下是简化的摘要: 这些方法可以单独或组合使用,取决于系统规模和业务需求。例如,对于低流量系统,简单的请求唯一ID和数据库唯一索引可能足够;而对于高并发场景,可能需要结合前端禁用和后端分布式锁来提高可靠性。幂等性设计是确保接口安全的一种通用策略,适用于各种场景。