想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。

概述

功能介绍:支持通过注册调度集群访问各网络环境中的数据源,避免数据跨网络传输。

目标受众:云上和云下(本地机房)都存在集群和数据库,期望通过一套Dataphin实例统一管理云上云下的集群和数据。

版本要求:Dataphin V4.2版本及以上(公共云多租户的Dataphin暂不支持,敬请期待)。

应用场景介绍

奔牛汽车在阿里云上部署了一套Dataphin,通过该实例对云上集群Lindorm进行管理。然而,除了云上的Lindorm集群以外,奔牛汽车在本地机房中还有一套Hadoop集群和多个业务库。牛总正在烦恼如何通过一套Dataphin统一管理云上云下的集群和数据。

--- 牛总:小甲,叫你过来,主要是讨论一下如何通过Dataphin去连接本地的数据库,并把数据同步到Hadoop集群中。

--- 小甲:牛总,为什么不直接给这几个数据库开公网呢?

--- 牛总:小甲啊,开公网意味着我们需要跨网络传输数据,流量成本很高的,然后安全性也特别低。

“注册调度集群”如何解决跨网络传输数据的问题

如上所述,跨网络传输数据往往意味着高额的流量成本和潜在的安全风险。为了解决这个问题,Dataphin V4.2版本进一步完善“注册调度集群”的功能,通过将与数据源同一网络环境下的集群注册进入Dataphin并作为调度集群,有效避免跨网络传输数据的问题。

  • 使用“注册调度集群”之前的集成任务:如果集成任务中的数据源与Dataphin实例不在同一网络环境中,数据会先从来源数据源抽取到Dataphin调度集群中进行加工处理,然后再写入到目标数据源中,产生了跨网络传输,安全性低、流量成本高。
  • 使用“注册调度集群”之后的集成任务:对于上述集成任务涉及的数据源,数据会从来源数据源抽取到“外部调度集群”中进行加工处理,然后再写入到目标数据源中,只需把“外部调度集群”部署在与数据源相同的网络中,数据就会在指定网络中流转,避免了跨网络传输数据的问题。

如何使用“注册调度集群”功能

前置要求:联系Dataphin运维团队进行前置评估,并协助完成架构迁移、网络配置等操作。

  • Step 1:将外部的调度集群注册到元仓租户中,然后将集群授权给指定租户;

  • Step 2:前往对应租户,基于注册的调度集群创建资源组;

  • Step 3:新建数据源,并测试该数据源与“默认集群”和“外部调度集群”的连通性,数据源与任一集群网络相通即可保存成功;

  • Step 4:创建集成任务,并将集成任务运行在外部调度集群的资源组中。

  • 可选步骤:可创建该数据源的元数据采集任务,以获取该数据源的元数据信息,方便数据源的后续使用。

“注册调度集群”功能的使用须知

前置要求

  • 架构要求:调度集群基于Kubernetes部署的Dataphin实例支持使用此功能,请联系Dataphin运维团队获取您的部署架构;
  • 网络要求
  • 注册的调度集群与数据源之间需要保持网络连通;
  • 注册的调度集群需要可以访问Dataphin的部署域名:
  • 部署域名是您日常用来访问Dataphin的域名,注册的调度集群需要可以访问该域名,且可路由到指定端口,如果您的域名协议是HTTP,则端口为80,如果您的域名协议是HTTPS,则端口为443;
  • 注册的调度集群需要可以访问Dataphin所部署时您所提供的对象存储实例:
  • 如果您是阿里云独立部署,那么“对象存储”采用的是阿里云OSS,注册的调度集群需要可以访问OSS实例的外网EndPoint;如果您的OSS实例仅支持内网访问,请联系Dataphin运维部署团队修改访问OSS的默认路径;
  • 如果您是华为云独立部署,那么“对象存储”采用的是华为云OBS,注册的调度集群需要可以访问OBS实例的Endpoint;
  • 如果您是私有云独立部署,那么“对象存储”是在部署时由Dataphin部署团队创建的Ceph(截止到 V4.2版本,暂不支持对象存储为“Ceph”的Dataphin实例使用注册调度集群功能)。

功能限制

  • 支持所有离线计算任务和集成任务下发到所注册的调度集群中;
  • 如果Dataphin实例与数据源所在的网络互不相通,则:
  • 新建数据源时,仅支持测试Oracle、MySQL、SQLserver、PostgreSQL类型的数据源与所注册的调度集群的连通性,并允许保存与注册调度集群网络相通的数据源;(在后续版本中,Dataphin将支持测试其他类型的数据源与所注册的调度集群网络相通的数据源,敬请期待)
  • 对于与Dataphin实例网络不通的数据源,Dataphin将无法正常展示相应的元数据信息,需要手动创建元数据采集任务以获取指定数据源的元数据信息;
  • 质量中全域表质量规则的任务将会失败;
  • 数据服务中直连数据源API的查询任务将会失败;
  • 标签中来源于HBase、MySQL、Hologress、PostgreSQL数据集的实时标签的查询任务将会失败。


-----------本文所涉及的奔牛汽车为虚构企业,如与现实中任何实际存在的企业名称或品牌有相似之处,纯属巧合。

相关文章
|
1月前
|
弹性计算 调度
Dataphin功能Tips系列(52)-调度资源组弹性伸缩
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
|
24天前
|
弹性计算 Kubernetes 调度
Dataphin V5.0:调度资源支持弹性伸缩,有效提升资源利用率
Dataphin在5.0版本新增“调度资源弹性伸缩”功能,通过设置资源组的Min(保障资源)和Max(上限资源),优化资源共享逻辑,提升集群资源利用率。方案涵盖三种资源分配场景,并支持查看实时使用量。
91 16
|
24天前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
|
5月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
374 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
3月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
211 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
5月前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
583 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
3月前
|
数据处理 调度
|
6月前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
320 18