开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks我这边OSS上存放的是每十分一个文件,第二天11点一次性同步前一天的所有文件。 这

DataWorks我这边OSS上存放的是每十分一个文件,第二天11点一次性同步前一天的所有文件。 这种情况怎么同步到MC里面?怎么配置调度任务呢? 感谢

展开
收起
cuicuicuic 2023-04-19 22:10:26 160 0
2 条回答
写回答
取消 提交回答
  • 选择分钟调度 可以配置每十分钟调度一次,时间属性选分钟调度 如果每次同步都是读取的3小时前的数据 那可以结合调度参数使用 ,比如 取1小时前的日、小时:day=$[yyyymmdd-1/24] hour=$[hh24-1/24]

    取15分钟前的年、月、日、小时、分钟:year=$[yyyy-15/24/60] month=$[yyyymm-15/24/60] day=$[yyyymmdd-15/24/60] hour=$[hh24-15/24/60] mi=$[mi-15/24/60],此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-20 08:01:12
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    您可以通过阿里云DataWorks中的同步节点来实现OSS到MaxCompute的数据同步。具体步骤如下:

    1、在DataWorks中创建一个同步任务,并选择OSS作为数据源。在数据源配置中,选择您存放数据的OSS路径,并设置好您的AccessKey和SecretKey等信息。

    2、在数据目的地配置中,选择您要同步数据到的MaxCompute项目和表,并设置好您的AccessID和AccessKey等信息。

    3、在同步节点中配置同步规则。由于您的数据是按照时间分割成多个文件存储的,建议您使用分区表来存储数据。您可以在同步规则中配置分区信息,以便将数据按照时间分区存储。

    4、在调度任务中设置同步时间。由于您每天11点才同步前一天的所有文件,因此建议您设置调度任务的开始时间为每天11点,以便保证数据已经全部到齐。

    2023-04-19 23:04:51
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载