备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 正文

如何使用dataworks数据集成的离线同步功能？

麻烦问下我们现在使用dataworks数据集成的离线同步功能，从mysql向maxcompute同步数据，使用id作为分片键，但是发现离线同步时拉取数据的batchsize过大，比如 "(1 <= id AND id < 52168)" 这种查询条件，会导致mysql出现慢查询日志，请问这个batchsize支持调整吗，或者有什么其他的解决方案？

展开

收起

回回回123 2023-03-07 16:36:01 648 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

回回回123

id是主键么看能不能多加一些并发这样就会多拆分几个sql，mysql reader不支持fetchsize。最好是用分布均匀的整数索引字段作为切分键和过滤条件。此答案整理自钉群“DataWorks交流群(答疑@机器人)”

2023-03-09 09:18:27

赞同展开评论

六月的雨在钉钉

从事java行业9年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

官方文档中提到，BatchSize或maxfilesize参数控制一次性批量提交的记录数大小，该值可以减少数据同步与数据库网络交互次数，并提升吞吐量。但如果该值设置过大，会导致数据同步运行进程OOM异常。因此对于你说的由于batchSize过大导致Mysql出现慢查询的情况，建议可以调小maxCommitSize和batchSize的参数值。具体调小的方式可以参考

{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[ 
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"mysql",//插件名。
            "parameter":{
                "postSql":[],//导入后的准备语句。
                "datasource":"",//数据源。
                "column":[//列名。
                    "id",
                    "value"
                ],
                "writeMode":"insert",//写入模式，您可以设置为insert、replace或update。
                "batchSize":1024,//一次性批量提交的记录数大小。
                "table":"",//表名。
                "preSql":[ 
                     "delete from XXX;" //导入前的准备语句。
                   ]
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{//错误记录数。
            "record":"0"
        },
        "speed":{
            "throttle":true,//当throttle值为false时，mbps参数不生效，表示不限流；当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流，控制同步的最高速率，防止对上游/下游数据库读取/写入压力过大。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

2023-03-07 17:56:57

赞同展开评论

问答分类：

分布式计算 DataWorks 关系型数据库 MySQL MaxCompute 数据集成 Data Integration 大数据开发治理平台 DataWorks 云原生大数据计算服务 MaxCompute 云数据库 RDS MySQL 版

问答标签：

大数据开发治理平台 DataWorks集成大数据开发治理平台 DataWorks同步大数据开发治理平台 DataWorks数据集成数据集成 Data Integration同步大数据开发治理平台 DataWorks功能

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关问答

DataWorks数据集成的实时同步任务，其他离线同步任务都不能使用这个cu吗？

102

1

0

DataWorks离线和实时任务是不能放在一个资源组里跑的吧？

86

1

0

DataWorks包年包月的新资源组兼容实时同步任务吗？数据集成资源,离线同步&实时同步

104

1

0

dataworks数据集成离线同步支持在过程中对字段进行加密吗？

124

1

0

dataworks离线同步任务可以批量修改使用的集成资源吗？

89

1

0

dataworks的数据集成中，离线同步支不支持数据的脱敏或加密？

115

1

0

DataWorks所有的离线同步任务换成独享数据集成资源组后都是这样的，卡住不动怎么办？

102

1

0

大数据计算MaxCompute的dataX离线同步，针对业务表太大的情况，内部会分页循环嘛？

120

1

0

DataWorks中dataX离线同步，内部会分页循环嘛，针对业务表太大的情况，内部有优化机制嘛？

180

1

0

云原生大数据计算服务 MaxCompute数据上云方面，DataWorks数据集成是怎样的？

1239

1

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

收录在圈子:

Elasticsearch 技术团队

3047

+ 订阅

相关文章

《理解MySQL数据库》内存管理与缓冲机制深度解析

《理解MySQL数据库》从数据存储到日志管理的完整架构

《理解MySQL数据库》InnoDB存储引擎深度解析

使用阿里云服务器快速搭建微信小程序教程，10分钟部署成功！

2026版基于python大数据的旅游可视化及推荐系统

热门讨论

热门文章

数据来源：com.alibaba.fastjson.JSONException: syntax er

数据服务报429请求次数过多咋办呀

阿里云磁盘大小是多少？

咱们这个API Path什么意思呢，是自定义的接口吗？还是统一规范的？

DataWorks中78xxxxx_out的输出是什么?

Dataphin和 Dataworks 有啥区别呢？

DataWorks中假如odps 有个string字段需要容纳的内容长度超过8M了，我想接进来？

DataWorks failed: ODPS-0121145:Data overflow - 0 ？

DataWorks failed: ODPS-0130071:[0,0] Semantic ana？

请教一下DataWorks，doris和starRocks 选型，选哪个？

展开全部

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

DataWorks售前咨询

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

语雀+通义千问+DataWorks，让AI定期推送每周总结

基于DataWorks搭建新零售数据中台

火热邀测！DataWorks数据集成支持大模型AI处理

欢迎加入DataWorks产品钉钉交流群

DataWorks常见问题之脚本运行失败计算费用如何解决

数据开发再提速！DataWorks正式接入Qwen3-Coder

展开全部

还有其他疑问?