开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks任务每15分钟调度一次,出现数据时效性问题,这个怎么解决呀?

DataWorks任务每15分钟调度一次,设置自依赖只有上一次15分钟任务调度成功下一个15分钟任务才会执行,如果凌晨5点任务失败,8点恢复,那要等5-8点的任务跑完才能跑8点以后,会出现数据时效性问题,这个怎么解决呀,比如任务执行失败舍弃,继续执行下一个15分钟的任务?

展开
收起
真的很搞笑 2023-11-20 07:51:24 41 0
3 条回答
写回答
取消 提交回答
  • 自依赖如果是必须话 那目前没有办法绕过;去掉自依赖可以避免这个问题,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-11-20 21:23:48
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看

    对于这个问题,您可以采取以下解决方案:

    1. 设置超时策略:您可以为任务设置一个合理的超时时间,如果超过此时间仍未能完成任务,则强制结束当前任务并开始下一个任务。这样可以确保任务的时效性。
    2. 重试策略:如果任务失败,可以设置重试次数和间隔,让任务多次尝试执行,直到成功为止。如果多次尝试仍未成功,可以终止当前任务并开始下一个任务。
    3. 调度策略:可以将调度周期设置为多长时间,比如15分钟、30分钟等。当任务失败时,会立即执行下一个调度周期的任务,而不是等待上一次任务完成。
    2023-11-20 13:35:37
    赞同 展开评论 打赏
  • 在DataWorks中,您可以利用任务调度系统和依赖功能来解决提出的时效性问题。首先,您可以设定每15分钟执行一次任务,然后配置自依赖,使得上一次的15分钟任务成功完成后,下一个15分钟的任务才会启动。这样,即使在凌晨5点任务失败的情况下,也不会影响后续任务的执行。

    其次,如果任务执行失败,DataWorks的运维中心提供了问题实例(周期实例、补数据实例、测试实例)定位功能,您可以在这里找到运行失败的任务并快速定位问题原因。对于失败的任务,您可以考虑将其舍弃,继续执行下一个15分钟的任务,以避免数据的滞后。

    此外,对于高优先级的数据资产,可以给予更加严格的数据及时性监控和告警规则。这样,一旦发现有数据质量问题或者时效性问题,可以立即得到通知并进行处理。

    总的来说,通过合理设置任务的执行频率、依赖关系以及优先级,配合DataWorks的任务管理和运维中心的功能,可以有效地解决数据时效性问题。

    2023-11-20 09:27:14
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多