Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL

简介: 当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

背景

当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。
DataphinV3.14版本支持数据库调度,支持外表导入SQL,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

操作步骤

在ADB MySQL内创建MaxCompute外表 

  1. 在 ADB MySQL 内创建 MaxCompute 外表,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/developer-reference/create-external-table?spm=a2c4g.11186623.0.i11#section-pu4-f9t-k2x

在Datphin内创建ADB MySQL数据源

  1. 把 Dataphin 的IP加入 ADB MySQL 的IP白名单中,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/getting-started/configure-a-whitelist?spm=a2c4g.11186623.0.i8
  2. 在 Dataphin 中创建 MySQL 数据源。
    由于 ADB MySQL 兼容 MySQL 协议,Dataphin支持把 ADB MySQL 作为一个 MySQL 数据源。
    入口:Dataphin > 管理中心 > 数据源管理 > 新建数据源
    image.png
    新建数据源 > 数据源类型选择MySQL
    image.png
    按照ADB MySQL的JDBC URL信息填写即可。
    image.png

在Datphin内创建数据库SQL周期任务

  1. 创建数据库SQL周期任务
    入口:Dataphin > 研发 > 开发 > 新建计算任务 > 数据库SQL
    image.png
    调度类型选择周期任务,数据源类型选择MySQL,数据源选择刚刚创建的ADB MySQL的数据源。
    image.png
  2. 开发外表导入任务,SQL开发可参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/user-guide/use-external-tables-to-import-data-to-data-warehouse-edition-2?spm=a2c4g.11186623.0.0.cdde515ei7cZmc
    开发完SQL后,配置任务调度,可以传入'${bizdate}'这样的调度参数。(过滤条件中务必带上MaxCompute侧表的分区键,否则可能会很慢)
    image.png
  3. 将任务提交发布后即可实现数据的周期性同步

测试结果

  1. 在ADB MySQL资源规格配置为8组Worker (工作节点),24个Executor (执行器),64个Shard (分片/分区)的情况下,通过MaxCompute外表的方式从MaxCompute导入ADB MySQL内表,导入一个宽表(30+列),且全索引。7000万行数据,耗时1分30秒。
  2. Worker的CPU开销在30%内,Executor的CPU开销在10%以内,IO占用在2%以内。

结论

DataphinV3.14版本支持基于传统的数据库的数据研发,统一调度运维:① 在数据同步到数仓前,需要进行数据的加工处理,如生成临时表,将临时表的数据同步到数仓内,同步完成后删除临时表;② 数据写入数据集市后,需要进一步的数据加工处理。实现在同一个平台内,可对数据库的表进行快速的分析探查,一站式数据研发、快速验证,无需多平台协同。
大大提高了研发效率,更多精彩功能欢迎升级使用。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6月前
|
NoSQL 算法 Redis
【Docker】(3)学习Docker中 镜像与容器数据卷、映射关系!手把手带你安装 MySql主从同步 和 Redis三主三从集群!并且进行主从切换与扩容操作,还有分析 哈希分区 等知识点!
Union文件系统(UnionFS)是一种**分层、轻量级并且高性能的文件系统**,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下(unite several directories into a single virtual filesystem) Union 文件系统是 Docker 镜像的基础。 镜像可以通过分层来进行继承,基于基础镜像(没有父镜像),可以制作各种具体的应用镜像。
753 6
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
关系型数据库 MySQL Shell
MySQL 备份 Shell 脚本:支持远程同步与阿里云 OSS 备份
一款自动化 MySQL 备份 Shell 脚本,支持本地存储、远程服务器同步(SSH+rsync)、阿里云 OSS 备份,并自动清理过期备份。适用于数据库管理员和开发者,帮助确保数据安全。
|
7月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
248 0
|
12月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
1146 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
11月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
248 8
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
724 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
10月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
165 0
|
12月前
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。
|
SQL 数据采集 分布式计算
深度探索 Dataphin 数据中台的功能与表现
深度探索 Dataphin 数据中台的功能与表现
365 7

推荐镜像

更多