DataWorks我这边OSS上存放的是每十分一个文件,第二天11点一次性同步前一天的所有文件。 这种情况怎么同步到MC里面?怎么配置调度任务呢? 感谢
选择分钟调度 可以配置每十分钟调度一次,时间属性选分钟调度 如果每次同步都是读取的3小时前的数据 那可以结合调度参数使用 ,比如 取1小时前的日、小时:day=$[yyyymmdd-1/24] hour=$[hh24-1/24]
取15分钟前的年、月、日、小时、分钟:year=$[yyyy-15/24/60] month=$[yyyymm-15/24/60] day=$[yyyymmdd-15/24/60] hour=$[hh24-15/24/60] mi=$[mi-15/24/60],此回答整理自钉群“DataWorks交流群(答疑@机器人)”
您可以通过阿里云DataWorks中的同步节点来实现OSS到MaxCompute的数据同步。具体步骤如下:
1、在DataWorks中创建一个同步任务,并选择OSS作为数据源。在数据源配置中,选择您存放数据的OSS路径,并设置好您的AccessKey和SecretKey等信息。
2、在数据目的地配置中,选择您要同步数据到的MaxCompute项目和表,并设置好您的AccessID和AccessKey等信息。
3、在同步节点中配置同步规则。由于您的数据是按照时间分割成多个文件存储的,建议您使用分区表来存储数据。您可以在同步规则中配置分区信息,以便将数据按照时间分区存储。
4、在调度任务中设置同步时间。由于您每天11点才同步前一天的所有文件,因此建议您设置调度任务的开始时间为每天11点,以便保证数据已经全部到齐。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。