DataWorks数据集成的离线同步任务如何配置?

DataWorks数据集成的离线同步任务如何配置?

展开
收起
真的很搞笑 2023-07-01 16:44:27 265 分享 版权
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks中,可以使用离线数据同步任务来实现不同数据源之间的数据同步。以下是离线数据同步任务的配置步骤:

    创建任务:在DataWorks的项目中,选择“数据集成”菜单,进入数据集成页面,单击“新建任务”按钮,选择“离线同步任务”。

    配置源端和目标端:在任务配置页面中,配置数据同步的源端和目标端。源端和目标端可以是不同的数据源,例如MySQL、MaxCompute等。

    配置同步规则:在任务配置页面中,配置同步规则,包括要同步的表、字段映射关系、数据过滤条件等。您可以根据实际需求配置同步规则。

    配置调度参数:在任务配置页面中,配置任务的调度参数,包括调度周期、调度时间等。您可以根据实际需求配置调度参数。

    配置任务依赖:在任务配置页面中,配置任务的依赖关

    2023-07-31 20:47:57
    赞同 展开评论
  • 在DataWorks中配置离线同步任务,需要按照以下步骤进行:

    1. 登录DataWorks控制台,进入项目空间。
    2. 在左侧导航栏中选择“数据集成”。
    3. 在数据集成页面,点击“新建工作流”按钮。
    4. 在工作流设计器中,选择离线同步节点,将其拖动到画布上。
    5. 连接数据源和目标表。点击离线同步节点,在右侧属性面板中选择源表和目标表,并设置字段映射关系。
    6. 配置同步策略。在属性面板中,可以设置同步的时间范围、同步周期、数据过滤条件等。
    7. 配置调度参数。点击离线同步节点下方的调度器节点,在属性面板中设置任务的调度频率、生效日期等。
    8. 设置完成后,点击画布上方的保存按钮,保存并发布工作流。
    9. 在数据集成页面,找到已创建的工作流,点击运行按钮,启动离线同步任务。

    以上就是配置DataWorks数据集成的离线同步任务的基本步骤。根据实际需求,你还可以进一步配置增量同步、全量同步等高级功能。

    2023-07-01 17:46:53
    赞同 展开评论
  • 数据集成的离线同步任务主要通过设置并发度,来控制任务的占用和同步速度。离线同步任务包括向导模式和脚本模式:通过向导模式配置离线同步任务,详情请参见通过向导模式配置任务。在向导模式编辑页面的通道控制区域,您可以通过配置任务期望最大并发数来控制离线任务的并发度。image.png 通过脚本模式配置离线同步任务,详情请参见通过脚本模式配置任务。在脚本模式的编辑页面,您可以在JSON结构的配置文本中,通过JSON路径$.setting.speed.concurrent设置离线任务的并发度。image.png 出于性能的考虑和具体数据源读取的限制,同步任务实际运行时的并发度可能小于配置的任务最大期望并发数和任务实际运行时的并发度不一致。查看任务实际运行并发度的操作如下:登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入运维中心。image.png 在左侧导航栏,单击周期任务运维 > 周期实例。单击相应的数据同步节点,在右侧打开DAG图。右键单击该节点,选择查看运行日志。在节点的运行日志页面,单击Detail log url链接。在数据同步任务的详情日志页面,查找形式为JobContainer - Job set Channel-Number to 2 channels.的日志,此处的channels即为任务实际运行的并发度。 https://help.aliyun.com/document_detail/183131.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-01 16:48:47
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理