开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks跑数据集成,但是为啥没生效,实际数据量远比1m大?

DataWorks跑数据集成,从polar到odps,设置了限流,speed=[{"throttle":true,"concurrent":2,"mbps":"1image.png
"}]。但是为啥没生效,实际数据量远比1m大?

展开
收起
真的很搞笑 2023-11-30 15:18:39 37 0
2 条回答
写回答
取消 提交回答
  • 这里的限流是相对的哈 ,比如 设置了限流2m,实际运行时 前4s都是是0m 第5s是5m 平均下来后流速还是小于2,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-11-30 20:23:50
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 DataWorks 数据集成中,设置了限流参数,但实际数据量远超过限制的情况可能有几个可能的原因:

    1. 配置错误:请确保您正确地设置了限流参数。确保在数据集成任务中正确填写了 throttleconcurrentmbps 参数,并将其配置为您希望的限流值。

    2. 任务依赖和并发:限流参数通常会影响并发执行的任务数量和每个任务的速率。但如果数据集成任务之间存在依赖关系或者并发度设置较高,可能会导致实际数据量超过限流值。请检查任务之间的依赖关系,确保不会同时处理过多的数据。

    3. 网络带宽限制:限流参数主要控制数据读取和写入的速率,但其效果还受到网络带宽的限制。如果您的网络带宽较低或存在其他网络瓶颈,那么即使设置了限流参数,实际数据量仍可能超过限制。

    4. 数据集成任务设计问题:某些场景下,数据集成任务的设计可能导致数据量超过限流值。例如,如果任务中存在大量的小文件或者频繁的元数据操作,这可能导致实际数据量超过预期。

    2023-11-30 16:36:39
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    Flink CDC:新一代数据集成框架 立即下载
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    《DataWorks 数据集成实时同步》 立即下载

    相关实验场景

    更多