Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

背景

当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。
DataphinV3.14版本支持数据库调度,支持外表导入SQL,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

操作步骤

在ADB MySQL内创建MaxCompute外表 

  1. 在 ADB MySQL 内创建 MaxCompute 外表,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/developer-reference/create-external-table?spm=a2c4g.11186623.0.i11#section-pu4-f9t-k2x

在Datphin内创建ADB MySQL数据源

  1. 把 Dataphin 的IP加入 ADB MySQL 的IP白名单中,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/getting-started/configure-a-whitelist?spm=a2c4g.11186623.0.i8
  2. 在 Dataphin 中创建 MySQL 数据源。
    由于 ADB MySQL 兼容 MySQL 协议,Dataphin支持把 ADB MySQL 作为一个 MySQL 数据源。
    入口:Dataphin > 管理中心 > 数据源管理 > 新建数据源
    image.png
    新建数据源 > 数据源类型选择MySQL
    image.png
    按照ADB MySQL的JDBC URL信息填写即可。
    image.png

在Datphin内创建数据库SQL周期任务

  1. 创建数据库SQL周期任务
    入口:Dataphin > 研发 > 开发 > 新建计算任务 > 数据库SQL
    image.png
    调度类型选择周期任务,数据源类型选择MySQL,数据源选择刚刚创建的ADB MySQL的数据源。
    image.png
  2. 开发外表导入任务,SQL开发可参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/user-guide/use-external-tables-to-import-data-to-data-warehouse-edition-2?spm=a2c4g.11186623.0.0.cdde515ei7cZmc
    开发完SQL后,配置任务调度,可以传入'${bizdate}'这样的调度参数。(过滤条件中务必带上MaxCompute侧表的分区键,否则可能会很慢)
    image.png
  3. 将任务提交发布后即可实现数据的周期性同步

测试结果

  1. 在ADB MySQL资源规格配置为8组Worker (工作节点),24个Executor (执行器),64个Shard (分片/分区)的情况下,通过MaxCompute外表的方式从MaxCompute导入ADB MySQL内表,导入一个宽表(30+列),且全索引。7000万行数据,耗时1分30秒。
  2. Worker的CPU开销在30%内,Executor的CPU开销在10%以内,IO占用在2%以内。

结论

DataphinV3.14版本支持基于传统的数据库的数据研发,统一调度运维:① 在数据同步到数仓前,需要进行数据的加工处理,如生成临时表,将临时表的数据同步到数仓内,同步完成后删除临时表;② 数据写入数据集市后,需要进一步的数据加工处理。实现在同一个平台内,可对数据库的表进行快速的分析探查,一站式数据研发、快速验证,无需多平台协同。
大大提高了研发效率,更多精彩功能欢迎升级使用。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
分布式计算 运维 API
针对MaxCompute经典网络域名下线,Dataphin应对策略的公告
针对MaxCompute经典网络域名下线,Dataphin应对策略的公告
325 7
|
5月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
95 3
|
8月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之整库离线同步至MC的配置中,是否可以清除原表所有分区数据的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
101 6
|
7月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之如何解决datax同步任务时报错ODPS-0410042:Invalid signature value
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute操作报错合集之配置mysql数据源querysql模式,同步到MC时遇到报错,该怎么处理
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
8月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
关系型数据库 MySQL Shell
|
27天前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
|
17天前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
|
5月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。