备案控制台

开发者社区问答正文

Canal-Adapter Es 同步存量数据性能问题

环境信息

canal version 1.1.3-alpha-2 mysql version 5.6

问题描述

使用Canal-Adapter进行存量数据同步，目前库表最大的表有8kw数据，利用目前ELT功能进行数据同步，速度非常慢

阅读了源码发现，性能卡在数据同步的时候，反查Es是否重复上（考虑新索引的情况下，不会出现重复）这边为了提高同步速度，写了2个ELT新的接口

1、适用表数据不超过500w，底层通过多线程进行数据分页查询，每个任务1w条数据库查询+插入es。同时提供isNeedDelete参数控制是否需要反查数据库

http://127.0.0.1:8081/etlEx/rdb/oracle1/mytest_user.yml?sql=select%20id,name,age%20from%20user&isNeedDelete=false -X POST

内部sql会是

select id,name,age from user limit 0,10000; select id,name,age from user limit 10000,10000; .....

2、适用表数据超过500w，底层通过单线程分页查询（分页通过> {orderByParam} 进行快速分页），每次任务1w条数据库查询+多线程插入Es。同时提供isNeedDelete参数控制是否需要反查数据库

http://127.0.0.1:8081/etlEx/rdb/oracle1/mytest_user.yml?sql=select%20id,name,age%20from%20user&isNeedDelete=false&orderBy=id -X POST

内部sql会是

select id,name,age from user limit 0,10000; select id,name,age from user where id>10000 limit 0,10000; .....

原提问者GitHub用户house0128

展开

收起

古拉古拉 2023-05-08 13:45:32 129 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

函数计算小白

如果是大于1w条的数据，默认会自动分成3个线程同时导入。如果是配置_id为主键的索引ETL时是不会查重的，导入慢你可以把提交批次调commitBatch调整大些

原回答者GitHub用户rewerma

2023-05-09 17:48:15

赞同展开评论

问答分类：

SQL canal 关系型数据库 MySQL 数据库索引云数据库 RDS MySQL 版

问答地址：

开发者社区 > 数据库 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83928

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3858

1

0

this xml file does not appear to have any style in

51992

10

0

重启Docker后报错：Error response from daemon

2398

0

0

sql server的用户名和密码怎么查啊？

37584

21

0

LoRa的网络覆盖能力范围是怎么样的？

3237

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60998

32

0

OSS的endpoint如何查看

37568

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3714

1

0

阿里云服务器如何重置系统？

24777

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

相关文章

阿里云轻量应用服务器介绍及支持的应用镜像说明

基于springboot的林业资源管理系统

2026基于springboot的人力资源管理系统

千万级数据表的count(*)查询优化

使用 Cursor 进行自动代码调试的实用指南

还有其他疑问?