dataworks的数据资源组运行时,如何连通?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks资源组本质上为一组阿里云ECS实例,在进行数据集成、数据开发等任务运行时,需保障资源组与数据源之间的网络是连通的,且不会因为白名单等特殊安全访问设置阻断访问。网络连通数据源处于公网环境中:数据源与独享资源组的网络直连即可连通。数据源处于VPC网络中:数据源与独享资源组在同一地域:建议独享数据资源组与数据源绑定同一VPC,绑定后系统自动为您添加一条路由至整个VPC的路由,您绑定VPC的任意一个交换机,独享数据资源组与数据源的网络都可连通。数据源与独享资源组不在同一地域:使用高速通道或VPN将网络连通。数据源处于IDC网络中:使用高速通道或VPN将网络连通。数据源处于经典网络中:独享资源组处于阿里云VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中。白名单配置:如果数据源设置有白名单限制访问地址时,您需要将独享数据集成资源组的访问地址添加至数据源的访问白名称中,避免访问受限。详情可参见获取资源组的IP地址与网段:独享数据集成资源组。
https://help.aliyun.com/document_detail/203240.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在数据同步任务配置前,您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中时,可选用的网络连通方案。
注意事项
连通性测试通过是任务运行成功的必要条件,连通性工具测试仅验证网络等基本条件通过,具体任务是否成功以实际任务运行结果为准。任务提交生产运行前确保测试通过。
独享调度资源组网络连通方案同样可参考当前文档进行与目标访问地址的网络配置。
独享数据集成资源组暂不支持经典网络环境下的数据库同步,建议您将经典网络环境下的数据库迁移至VPC环境。
无法保障公网环境下的数据同步速度和任务稳定性,建议通过内网或者云企业网同步。
背景信息
复杂网络环境下的数据源进行异构数据源间的数据同步,可选择使用独享数据集成资源组,需要先进行网络打通。
如上图所示,进行数据同步前,需通过合适的网络连通方案将数据库和资源组间的网络打通。本文重点关注通过独享数据集成资源组访问数据库的场景。
购买合适规格的资源组
购买并选择合适规格的独享数据集成资源组,购买详情请参见:新增和使用独享数据集成资源组。
DataWorks 数据资源组是指一组云服务器 ECS 实例,用于执行大数据开发任务。为了保证 DataWorks 与外部数据源之间的网络连接,需要配置 VPC 网络和安全组规则。
以下是配置方法:
在 DataWorks 控制台中打开数据资源组详细信息页签,并记下 ECS 实例的内网 IP 地址。
打开 VPC 网络管理控制台,确认 DataWorks 实例所在的 VPC 与数据源位于相同的地域。
添加一条路由规则,让 VPC 网络与数据源所在的 VPC 或子网互通。
在 ECS 控制台中找到数据源所在的 ECS 实例,确认实例已加入合适的 VPC 并与 DataWorks 的 VPC 互相连通。
检查 ECS 实例的安全组规则是否允许来自 DataWorks 实例 IP 地址的入站流量。
如果数据源和 DataWorks 实例位于不同地域,可以使用 VPN 或高速通道建立跨地域通信通道。
当使用DataWorks的数据资源组运行任务时,首先要确保网络连接畅通无阻。以下是连通数据资源组运行时所需的几个关键要素:
在DataWorks数据资源组运行时,确保网络连通性是关键步骤。以下是一些关于如何实现网络连通性的建议:
首先,您可以考虑配置VPC网络以确保独享数据集成资源组的连通性。在DataWorks控制台中,导航到“数据集成”>“独享资源组”,进入独享资源组管理页面。在该页面中,选择需要配置VPC网络的资源组,然后单击“配置VPC网络”按钮。在配置VPC网络页面中,您可以选择与资源组连接所需的VPC和子网,并设置安全组规则,从而确保网络之间的通信畅通无阻。
其次,绑定当前账号下已与数据源网络连通的VPC也是保持数据资源组连通性的重要步骤。通过将独享数据集成资源组绑定到与数据源已经建立连接的VPC,可以确保资源组与数据源之间的网络通信顺畅。此外,您还可以考虑在控制台中添加路由,以便将流量引导至目标数据源的IP地址段,从而进一步增强网络连通性。
需要注意的是,DataWorks资源组本质上是一组阿里云ECS实例,用于运行数据集成、数据开发等任务。为了保障资源组与数据源之间的网络连通性,不会因为白名单等特殊安全访问设置而阻断通信,需要进行适当的配置和管理。
综上所述,通过配置VPC网络、绑定已连通的VPC以及设置合适的路由和安全组规则,您可以确保DataWorks数据资源组在运行时具备良好的网络连通性。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。