想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。

概述

功能介绍:支持通过注册调度集群访问各网络环境中的数据源,避免数据跨网络传输。

目标受众:云上和云下(本地机房)都存在集群和数据库,期望通过一套Dataphin实例统一管理云上云下的集群和数据。

版本要求:Dataphin V4.2版本及以上(公共云多租户的Dataphin暂不支持,敬请期待)。

应用场景介绍

奔牛汽车在阿里云上部署了一套Dataphin,通过该实例对云上集群Lindorm进行管理。然而,除了云上的Lindorm集群以外,奔牛汽车在本地机房中还有一套Hadoop集群和多个业务库。牛总正在烦恼如何通过一套Dataphin统一管理云上云下的集群和数据。

--- 牛总:小甲,叫你过来,主要是讨论一下如何通过Dataphin去连接本地的数据库,并把数据同步到Hadoop集群中。

--- 小甲:牛总,为什么不直接给这几个数据库开公网呢?

--- 牛总:小甲啊,开公网意味着我们需要跨网络传输数据,流量成本很高的,然后安全性也特别低。

“注册调度集群”如何解决跨网络传输数据的问题

如上所述,跨网络传输数据往往意味着高额的流量成本和潜在的安全风险。为了解决这个问题,Dataphin V4.2版本进一步完善“注册调度集群”的功能,通过将与数据源同一网络环境下的集群注册进入Dataphin并作为调度集群,有效避免跨网络传输数据的问题。

  • 使用“注册调度集群”之前的集成任务:如果集成任务中的数据源与Dataphin实例不在同一网络环境中,数据会先从来源数据源抽取到Dataphin调度集群中进行加工处理,然后再写入到目标数据源中,产生了跨网络传输,安全性低、流量成本高。
  • 使用“注册调度集群”之后的集成任务:对于上述集成任务涉及的数据源,数据会从来源数据源抽取到“外部调度集群”中进行加工处理,然后再写入到目标数据源中,只需把“外部调度集群”部署在与数据源相同的网络中,数据就会在指定网络中流转,避免了跨网络传输数据的问题。

如何使用“注册调度集群”功能

前置要求:联系Dataphin运维团队进行前置评估,并协助完成架构迁移、网络配置等操作。

  • Step 1:将外部的调度集群注册到元仓租户中,然后将集群授权给指定租户;

  • Step 2:前往对应租户,基于注册的调度集群创建资源组;

  • Step 3:新建数据源,并测试该数据源与“默认集群”和“外部调度集群”的连通性,数据源与任一集群网络相通即可保存成功;

  • Step 4:创建集成任务,并将集成任务运行在外部调度集群的资源组中。

  • 可选步骤:可创建该数据源的元数据采集任务,以获取该数据源的元数据信息,方便数据源的后续使用。

“注册调度集群”功能的使用须知

前置要求

  • 架构要求:调度集群基于Kubernetes部署的Dataphin实例支持使用此功能,请联系Dataphin运维团队获取您的部署架构;
  • 网络要求
  • 注册的调度集群与数据源之间需要保持网络连通;
  • 注册的调度集群需要可以访问Dataphin的部署域名:
  • 部署域名是您日常用来访问Dataphin的域名,注册的调度集群需要可以访问该域名,且可路由到指定端口,如果您的域名协议是HTTP,则端口为80,如果您的域名协议是HTTPS,则端口为443;
  • 注册的调度集群需要可以访问Dataphin所部署时您所提供的对象存储实例:
  • 如果您是阿里云独立部署,那么“对象存储”采用的是阿里云OSS,注册的调度集群需要可以访问OSS实例的外网EndPoint;如果您的OSS实例仅支持内网访问,请联系Dataphin运维部署团队修改访问OSS的默认路径;
  • 如果您是华为云独立部署,那么“对象存储”采用的是华为云OBS,注册的调度集群需要可以访问OBS实例的Endpoint;
  • 如果您是私有云独立部署,那么“对象存储”是在部署时由Dataphin部署团队创建的Ceph(截止到 V4.2版本,暂不支持对象存储为“Ceph”的Dataphin实例使用注册调度集群功能)。

功能限制

  • 支持所有离线计算任务和集成任务下发到所注册的调度集群中;
  • 如果Dataphin实例与数据源所在的网络互不相通,则:
  • 新建数据源时,仅支持测试Oracle、MySQL、SQLserver、PostgreSQL类型的数据源与所注册的调度集群的连通性,并允许保存与注册调度集群网络相通的数据源;(在后续版本中,Dataphin将支持测试其他类型的数据源与所注册的调度集群网络相通的数据源,敬请期待)
  • 对于与Dataphin实例网络不通的数据源,Dataphin将无法正常展示相应的元数据信息,需要手动创建元数据采集任务以获取指定数据源的元数据信息;
  • 质量中全域表质量规则的任务将会失败;
  • 数据服务中直连数据源API的查询任务将会失败;
  • 标签中来源于HBase、MySQL、Hologress、PostgreSQL数据集的实时标签的查询任务将会失败。


-----------本文所涉及的奔牛汽车为虚构企业,如与现实中任何实际存在的企业名称或品牌有相似之处,纯属巧合。

相关文章
|
4月前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
126 4
|
4月前
|
SQL 安全 数据建模
Dataphin常见问题之计算任务没有按调度执行如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
数据采集 运维 Java
有了 Dataphin v4.0,跨系统调度依赖再也不是难题
Dataphin v4.0引入了新的触发式节点,用于解决多数据平台间的调度问题。当上游系统(如Unix的crontab)完成数据采集后,可通过触发式节点通知Dataphin开始拉取数据,避免传统轮询方式的效率低和资源占用。触发式节点需满足Dataphin OpenAPI开通和网络连通条件,并通过SDK进行外部触发。示例展示了如何创建和使用触发式节点,以及使用Java SDK模拟触发请求。
205 0
|
4月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
180 0
|
2月前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1467 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
27天前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
88 1

热门文章

最新文章