开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks生成的任务个数的规则是什么,能自己配置切分后的任务数量吗?

DataWorks数据集成 mysql reader 的splitPk切分键,生成的任务个数的规则是什么,能自己配置切分后的任务数量吗?

展开
收起
真的很搞笑 2024-08-21 12:37:05 45 0
2 条回答
写回答
取消 提交回答
  • 在 DataWorks 中,任务个数的生成规则通常取决于多种因素,包括数据量、数据分布、系统资源等。
    对于通过 mysql readersplitPk 切分键生成任务的情况,其规则一般是基于切分键的值分布和数据规模来确定的。
    您可能无法直接配置切分后的任务数量。然而,您可以通过一些方式间接影响任务的生成,例如优化切分键的选择、调整数据处理逻辑等。
    如果您选择的切分键在数据中分布不均匀,可能会导致生成的任务数量不合理。此时,您可以重新评估切分键,选择更具代表性和均匀分布的字段。
    如果数据量过大,您可以考虑先对数据进行预处理或筛选,以减少数据规模,从而改善任务生成的效果。

    2024-08-24 10:37:21
    赞同 展开评论 打赏
  • 切分因子,可以配置同步数据的切分份数,如果配置了多并发,会按照并发数 splitFactor份来切分。例如,并发数=5,splitFactor=5,则会按照55=25份来切分,在5个并发线程上执行。

    说明
    建议取值范围:1~100,过大会导致内存溢出。

    image.png
    参考文档https://help.aliyun.com/zh/dataworks/user-guide/oracle-data-source?spm=a2c4g.11186623.0.i38

    2024-08-24 09:57:19
    赞同 2 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载