开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks为什么在同步数据的时候反而通过集群去获取内网地址,进行同步数据呢?

DataWorks数据源已经添加成功,给了连接地址,为什么在同步数据的时候反而通过集群去获取内网地址,进行同步数据呢?

展开
收起
夹心789 2024-05-27 14:22:29 33 0
2 条回答
写回答
取消 提交回答
  • 当您在DataWorks中配置数据源并成功添加后,同步数据时系统应该是使用配置的数据源连接地址。如果在同步时它尝试通过集群获取内网地址,可能是因为配置的网络连接方式或资源组的网络设置问题。请检查您的资源组网络是否与数据源所在网络连通,确保数据源的白名单包含了资源组的交换机网段或EIP。如果使用的是新版资源组,可能需要配置公网NAT网关和EIP。测试连通性以确认问题所在,详情可参考DataWorks控制台的网络设置和数据源连通性测试步骤
    image.png

    2024-07-05 15:34:04
    赞同 展开评论 打赏
  • 安全性和隔离性:使用内网地址进行数据传输可以确保数据不离开阿里云内部网络,这样可以减少数据泄露的风险,增强安全性。同时,内网通信避免了公网环境的不可控因素,提高了数据传输的稳定性和可靠性。

    成本效益:内网流量相比于外网流量通常成本更低,甚至在某些服务套餐中是免费的。这对于大规模数据同步来说,能显著降低数据传输的成本。

    性能优化:内网传输通常具有更高的带宽和更低的延迟,尤其在大数据量同步时,能够显著提升数据处理和传输的效率。这对于需要高性能数据流转的数据仓库、数据分析场景尤为重要。

    资源调度灵活性:DataWorks运行在阿里云的MaxCompute、E-MapReduce等大数据处理平台上,这些平台往往部署在阿里云内部的专有网络(VPC)中。通过集群内网直接进行数据交互,可以充分利用云平台的资源调度能力,灵活高效地分配计算资源,加速数据处理流程。

    服务集成便利:当涉及到跨服务的数据同步时(例如从RDS到MaxCompute),使用内网地址可以更容易地实现服务之间的无缝对接,简化配置过程,减少外部网络配置的复杂性。

    综上所述,通过集群内网地址进行数据同步是基于提高效率、降低成本、保障安全和优化资源利用的综合考虑,是云原生环境下的一种高效实践。

    2024-06-27 14:59:22
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载