DataWorks数据集成 mysql reader 的splitPk切分键,生成的任务个数的规则是什么,能自己配置切分后的任务数量吗?
在 DataWorks 中,任务个数的生成规则通常取决于多种因素,包括数据量、数据分布、系统资源等。
对于通过 mysql reader
的 splitPk
切分键生成任务的情况,其规则一般是基于切分键的值分布和数据规模来确定的。
您可能无法直接配置切分后的任务数量。然而,您可以通过一些方式间接影响任务的生成,例如优化切分键的选择、调整数据处理逻辑等。
如果您选择的切分键在数据中分布不均匀,可能会导致生成的任务数量不合理。此时,您可以重新评估切分键,选择更具代表性和均匀分布的字段。
如果数据量过大,您可以考虑先对数据进行预处理或筛选,以减少数据规模,从而改善任务生成的效果。
切分因子,可以配置同步数据的切分份数,如果配置了多并发,会按照并发数 splitFactor份来切分。例如,并发数=5,splitFactor=5,则会按照55=25份来切分,在5个并发线程上执行。
说明
建议取值范围:1~100,过大会导致内存溢出。
参考文档https://help.aliyun.com/zh/dataworks/user-guide/oracle-data-source?spm=a2c4g.11186623.0.i38
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。