DataWorks是阿里云提供的数据集成和数据开发工具,可以用于数据处理、数据分析和数据可视化等场景。如果您需要补跑数据,可以按照以下步骤操作:
找到需要补跑的数据任务:在DataWorks中,您可以查看已经创建的任务,找到需要补跑数据的任务。 编辑任务:在任务列表中找到需要补跑数据的任务,点击“编辑”按钮,进入任务编辑页面。 设置任务执行参数:在任务编辑页面中,需要设置任务的执行参数,包括数据源、数据目标、数据表、数据类型等。 编写SQL脚本:在任务编辑页面中,您可以编写SQL脚本,用于从数据源中读取数据,并将数据写入目标数据库或表中。 提交任务:完成以上步骤后,您可以提交任务,让DataWorks执行数据补跑操作。 监控任务执行状态:DataWorks提供了任务执行监控功能,您可以随时查看任务的执行状态和执行结果。 完成数据补跑:当任务执行完成后,您可以在目标数据库或表中查看补跑的数据是否已经成功写入。 需要注意的是,在进行数据补跑之前,您需要先确保数据源和目标数据库或表已经正常连接和配置,并且SQL脚本编写正确无误。同时,也需要确保任务的执行参数和执行顺序设置正确,以避免数据重复或丢失的情况发生。
【补数据】
结合调度参数的使用后可以您可以针对周期任务进行补数据操作,选择业务时间补历史数据,或者未来时间区间的数据,调度参数会根据业务时间自动替换。
1.平台维度来看业务时间昨天的数据今天跑
补数据业务时间选择今天,会等待时间
补数据业务时间选择昨天,如果任务的定时时间是未来时间,如果没有选择立即运行,会出现等待时间。
2.是否并行:
指补数据的一段时间区间内,天维度的任务是否并发运行。也就是是否几天的任务一块跑。
3.小时任务补数据需要选择有实例生成的小时区间,否则会报错
4.节点不在生效时间内不生成实例
【实时场景一:小时任务补数据是否并行】
小时任务补0~3点的数据,选择业务时间为一周,选择并行数3。
小时任务补0~3点的数据,选择业务时间为一周,选择不并行。
注意:
是否并行控制的是天维度小时任务多少天的实例是否并发执行,小时任务当天的实例是否并发执行与小时任务是否设置了自依赖有关。如果您需要小时分钟任务不并发执行,可将节点设置为自依赖。详情请参考文档:跨周期依赖
【实时场景二:同步任务每天将增量数写入到对应的分区中,新建的离线同步任务怎么将一段时间历史数据,写入到对应的分区中?】 结合调度参数发布生产后进行补数据操作。
【为什么补数据不能选择业务时间今天,或者业务时间选择今天出现了等待时间的情况】
业务时间昨天的数据,今天的周期实例会跑。 如果要重跑业务时间昨天的数据,可以重跑周期实例。 如果出现等待时间,请检查任务的定时时间是几点,补数据补的是历史数据,选择业务时间昨天不会出现这样的情况。
【注意事项】
如果下游节点依赖过多,可以选择海量补数据,选择需要补数据的节点所在项目,节点选中项目内不需要补数据的节点(白名单)及未选中项目但需要补数据的节点(黑名单)。 非并行补数据的场景下,如果补一个区间的数据任务,第一天有任务实例失败了,那么当天的补数据实例会被置为失败,第二天的任务实例也不会开始运行(只有当天的全部任务实例都成功,第二天的任务实例才会开始运行)。 补数据实例不会触发智能报警。 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。