DataWorks数据集成的离线同步任务如何配置?

DataWorks数据集成的离线同步任务如何配置?

展开
收起
真的很搞笑 2023-10-29 18:17:50 269 分享 版权
3 条回答
写回答
取消 提交回答
  • 在DataWorks中,配置离线同步任务主要包括以下几个步骤:

    1. 创建任务:在DataWorks的项目中,选择“数据集成”菜单,进入数据集成页面,单击“新建任务”按钮,选择“离线同步任务”。

    2. 配置源端和目标端:在任务配置页面中,配置数据同步的源端和目标端。源端和目标端可以是不同的数据源,例如MySQL、MaxCompute等。

    3. 配置同步规则:在任务配置页面中,配置同步的表、字段映射关系、数据过滤条件等。您可以根据实际需求配置同步规则。

    4. 配置调度参数:在任务配置页面中,配置任务的调度参数,包括调度周期、调度时间等。您可以根据实际需求配置调度参数。

    5. 配置任务依赖:在任务配置页面中,配置任务的依赖关系。

    6. 配置数据过滤:离线同步任务支持配置数据过滤功能来决定同步全量数据还是增量数据,配置过滤条件时,将只同步满足过滤条件的数据。

    7. 配置变量:在高级设置页面,可以配置变量,如日期变量,可以在OS路径中使用这些变量来获取当前的日期和时间。

    2023-10-30 14:48:09
    赞同 展开评论
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    登录 DataWorks 控制台,进入项目空间,在左侧导航栏中选择数据集成,在数据集成页面上新建工作流,点击离线同步节点,连接数据源和目标表,在属性面板中设置字段映射关系和同步策略,设置调度参数,并保存发布工作流。此外还可以使用脚本模式或向导模式设置离线同步任务

    2023-10-30 13:15:56
    赞同 展开评论
  • 数据集成的离线同步任务主要通过设置并发度,来控制任务的占用和同步速度。离线同步任务包括向导模式和脚本模式:通过向导模式配置离线同步任务,详情请参见通过向导模式配置任务。在向导模式编辑页面的通道控制区域,您可以通过配置任务期望最大并发数来控制离线任务的并发度。image.png
    通过脚本模式配置离线同步任务,详情请参见通过脚本模式配置任务。在脚本模式的编辑页面,您可以在JSON结构的配置文本中,通过JSON路径$.setting.speed.concurrent设置离线任务的并发度。image.png
    出于性能的考虑和具体数据源读取的限制,同步任务实际运行时的并发度可能小于配置的任务最大期望并发数和任务实际运行时的并发度不一致。查看任务实际运行并发度的操作如下:登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入运维中心。在左侧导航栏,单击周期任务运维 > 周期实例。单击相应的数据同步节点,在右侧打开DAG图。右键单击该节点,选择查看运行日志。在节点的运行日志页面,单击Detail log url链接。在数据同步任务的详情日志页面,查找形式为JobContainer - Job set Channel-Number to 2 channels.的日志,此处的channels即为任务实际运行的并发度。
    https://help.aliyun.com/document_detail/183131.html
    ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-29 23:07:24
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理