DataWorks如何补数据 ?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks中有多种方式可以进行数据补录,以下列举其中的几种:
启动手动补数据作业:在DataWorks工作流中,您可以创建一个手动补数据的作业,通过手动输入数据补充到目标表中。此作业的唯一目的是补录数据,因此建议在数据补录的过程中停止所有其他作业以防对数据产生影响。
执行SQL语句进行数据补录:使用ODPS SQL,您可以直接执行INSERT INTO语句来补充数据到目标表中。可以通过DataWorks控制台进行操作,也可以通过ODPS SQL客户端工具(如console)进行操作。需要注意的是,补录数据时需要确保补录的数据和目标表的数据类型匹配。
启动离线数据补录作业:在DataWorks中,可以基于数据补录需求,启动离线数据补录作业。通过数据补录作业配置的参数,DataWorks会自动读取数据文件或数据库、log等数据源中的历史数据进行批量补录。需要注意的是该方式是离线方式,适用于需要大量数据补录的业务场景。
启动实时数据补录作业:在DataWorks中,您也可以基于数据补录需求,创建实时数据补录作业。实时数据补录作业可以根据数据源的变化,实时将数据补充到目标表中,适用于对数据及时性要求较高的业务场景。
结合调度参数的使用后可以您可以针对周期任务进行补数据操作,选择业务时间补历史数据,或者未来时间区间的数据,调度参数会根据业务时间自动替换。
1.平台维度来看业务时间昨天的数据今天跑
补数据业务时间选择今天,会等待时间
补数据业务时间选择昨天,如果任务的定时时间是未来时间,如果没有选择立即运行,会出现等待时间。
2.是否并行:
指补数据的一段时间区间内,天维度的任务是否并发运行。也就是是否几天的任务一块跑。 3.小时任务补数据需要选择有实例生成的小时区间,否则会报错
4.节点不在生效时间内不生成实例
,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。