DataWorks上数据集成任务如何解决网络问题

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: DataWorks是一个一站式智能大数据研发平台,在DataWorks上我们可以做一系列与大数据开发相关的工作。今天主要给大家讲解,在DataWorks上配置数据集成任务时,遇到的那些网络不通的问题该如何处理。

特别声明:本文介绍的场景是各种网络环境下的数据库该如何将数据上云(同步的目标端为MaxCompute),若同步的目标端为其他数据源,本文也可参考,底层执行原理基本一致。

网络背景(全局通用)

在讲网络问题的解决方案之前,先给大家讲讲阿里云上的网络背景。

  1. 同一region下,经典网络环境中的机器与经典网络环境中的机器,内网是可以互通的。
  2. 同一region下,VPC网络环境中的机器与VPC网络环境中的机器,内网是可以互通的
  3. 同一region下,经典网络环境中的机器和VPC网络环境中的机器,不保证内网可通。
  4. 不同region下,经典网络环境中的机器与经典网络环境中的机器,不保证内网可通。
  5. 不同region下,VPC网络环境中的机器与VPC网络环境中的机器,不保证内网可通。
  6. 不同region下,经典网络环境中的机器和VPC网络环境中的机器,不保证内网可通。
  7. 阿里云上的ECS和本地IDC机房中的机器,默认内网不通,只能走公网。

介绍完整体的网络背景,总结了一句话: 只有同一region下,同一网络环境中的机器,内网才能互通,如果开启了安全组或白名单,请自行添加。

场景描述 - 数据源测试连通性失败

最近很多用户都会问我,你好,我的数据源测试连通性的时候失败了,该如何处理呢?
结合上面介绍的网络背景,我们需要有一个灵魂三问(请):

  1. 该数据源是云数据库还是自建的数据库 ?

注:云数据库类似rds,是阿里云上已经搭建好的数据库服务,用户可直接使用。自建的数据库是指,本地IDC机房中自建搭建的数据库,或者是在阿里云上通过ECS自己搭建的数据库。

  1. 数据库所在的Region和DataWorks项目所在Region是否相同?
  2. 数据库的网络环境是什么?

云数据库

由于RDS数据库在网络方面做得比较好,即使是RDS数据库所在的region 和DataWorks 项目不在同一 region下,且数据库网络也是VPC环境下,测试连通性也是可以连通的(因为RDS做了 VPC反向代理)。除RDS数据库外,其他云数据库都可通过以下问题来判断,通过什么方式同步数据比较好,以下两问需严格注意。

第一问:数据库所在的Region和DataWorks项目所在Region是否相同?

  • 当数据库所在region和DataWorks项目在同一region下时,那么就需要看下一个问题,数据库的网络环境了。
  • 当数据库所在region和DataWorks项目不在同一region下时 ,大概率下内网是无法互通的,此时请考虑使用公网,如果不想用公网的话,可以使用自定义资源组。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html
特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

第二问:数据库的网络环境是什么?

  • 当云数据库网络环境是经典网络时,由于DataWorks底层任务运行的机器,是部署在经典网络环境下的,所以同一region下,经典网络的机器与经典网络的机器网络是可以互通的,如果测试连通性失败,那么可以考虑一下,是不是白名单没有加全;或者用户名、密码等连接方式是否书写正确。
  • 当云数据库网络环境是VPC网络时,大概率下内网是无法互通的,此时可以通过添加自定义资源组的方式,来解决网络问题。

DataWorks数据集成白名单地址:https://help.aliyun.com/document_detail/72977.html

数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html
特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

ECS上的自建数据库

ECS上自建数据库和云数据库的情况基本一致,建议DataWorks的项目和自建数据库的ECS在同一region下。如果DataWorks项目和自建数据库的ECS不在同一region下时,又不想使用公网进行数据传输,可以考虑使用数据集成的自定义资源组来运行任务。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html

特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

本地IDC机房中的自建数据库

当本地IDC机房中的自建数据库需要上云的话,可以优先选择通过公网传递数据。若不想将本地IDC机房中的机器开启公网访问的话,可以使用DataWorks上的自定义资源组来完成数据传输;或者通过专线打通网络。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html

特别注意,当测试连通性失败,准备使用自定义资源组来运行任务时。您需要确认您注册数据源输入的数据库连接地址、数据库名、用户名、密码等信息输入是正确的,确认后选择完成即可。image

场景描述 - 配置数据同步任务

结合上文,当数据源添加成功后,如何完成接下来的同步任务配置。主要分为两个部分,数据源测试连通性成功,或数据源测试连通性失败时该如何处理。

测试连通性成功的同步任务配置

当测试连通性成功的时候,表示DataWorks任务的默认执行集群与您要同步的数据库之间的网络是可达的,那么您只需要通过正常任务配置即可。任务配置文档可参考:向导模式同步任务配置

测试连通性失败的同步任务配置

当测试连通性失败时,表示DataWorks任务的默认执行集群与您要同步的数据库之间的网络是不可达的。那么意味着,您无法使用向导模式来配置同步任务(无法获取到数据库中表的元数据信息),只能通过脚本模式来配置同步任务(因为数据源中表的元数据信息可以手填),详情请参考:脚本模式同步任务配置

切记:脚本模式同步任务配置完成以后,需要在右上角的任务运行资源组中,指定同步任务运行所在的资源组。

image

总结

当您的数据库与DataWorks任务的默认执行集群不通时(测试连通性失败),配置同步任务需注意以下几点:

  1. 添加数据集成自定义资源组
  2. 使用脚本模式配置同步任务
  3. 修改同步任务运行的资源组

特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。。

如果参考上述方法,还是没法解决问题,那么建议工单咨询。若对本文有无法理解的地方,可加入DataWorks用户交流群给我们反馈,感谢您的支持。DataWorks数加交流0群(群号:11718465)。 也可以钉钉扫码加群:
image

目录
相关文章
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
83 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
88 3
|
2月前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
105 1
|
2月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
70 7
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成任务日志中显示wait,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 关系型数据库
DataWorks产品使用合集之如何进行不同网络环境下的网络连通
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之公共集成资源组如何切换独享资源
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
弹性计算 DataWorks 关系型数据库
DataWorks操作报错合集之DataX在执行过程中接收到了意外的信号15,导致进程被终止,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    102
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    104
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    104
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    88
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    86
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    99
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    110
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    148
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    118