Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL

简介: 当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

背景

当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。
DataphinV3.14版本支持数据库调度,支持外表导入SQL,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。

操作步骤

在ADB MySQL内创建MaxCompute外表 

  1. 在 ADB MySQL 内创建 MaxCompute 外表,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/developer-reference/create-external-table?spm=a2c4g.11186623.0.i11#section-pu4-f9t-k2x

在Datphin内创建ADB MySQL数据源

  1. 把 Dataphin 的IP加入 ADB MySQL 的IP白名单中,参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/getting-started/configure-a-whitelist?spm=a2c4g.11186623.0.i8
  2. 在 Dataphin 中创建 MySQL 数据源。
    由于 ADB MySQL 兼容 MySQL 协议,Dataphin支持把 ADB MySQL 作为一个 MySQL 数据源。
    入口:Dataphin > 管理中心 > 数据源管理 > 新建数据源
    image.png
    新建数据源 > 数据源类型选择MySQL
    image.png
    按照ADB MySQL的JDBC URL信息填写即可。
    image.png

在Datphin内创建数据库SQL周期任务

  1. 创建数据库SQL周期任务
    入口:Dataphin > 研发 > 开发 > 新建计算任务 > 数据库SQL
    image.png
    调度类型选择周期任务,数据源类型选择MySQL,数据源选择刚刚创建的ADB MySQL的数据源。
    image.png
  2. 开发外表导入任务,SQL开发可参考文档:
    https://help.aliyun.com/zh/analyticdb-for-mysql/user-guide/use-external-tables-to-import-data-to-data-warehouse-edition-2?spm=a2c4g.11186623.0.0.cdde515ei7cZmc
    开发完SQL后,配置任务调度,可以传入'${bizdate}'这样的调度参数。(过滤条件中务必带上MaxCompute侧表的分区键,否则可能会很慢)
    image.png
  3. 将任务提交发布后即可实现数据的周期性同步

测试结果

  1. 在ADB MySQL资源规格配置为8组Worker (工作节点),24个Executor (执行器),64个Shard (分片/分区)的情况下,通过MaxCompute外表的方式从MaxCompute导入ADB MySQL内表,导入一个宽表(30+列),且全索引。7000万行数据,耗时1分30秒。
  2. Worker的CPU开销在30%内,Executor的CPU开销在10%以内,IO占用在2%以内。

结论

DataphinV3.14版本支持基于传统的数据库的数据研发,统一调度运维:① 在数据同步到数仓前,需要进行数据的加工处理,如生成临时表,将临时表的数据同步到数仓内,同步完成后删除临时表;② 数据写入数据集市后,需要进一步的数据加工处理。实现在同一个平台内,可对数据库的表进行快速的分析探查,一站式数据研发、快速验证,无需多平台协同。
大大提高了研发效率,更多精彩功能欢迎升级使用。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
490 14
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
616 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
235 14
|
7月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
231 1
|
6月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
529 0
|
7月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
641 1
|
8月前
|
机器学习/深度学习 监控 大数据
数据当“安全带”:金融市场如何用大数据玩转风险控制?
数据当“安全带”:金融市场如何用大数据玩转风险控制?
358 10
|
8月前
|
机器学习/深度学习 自然语言处理 监控
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
184 3
|
8月前
|
机器学习/深度学习 传感器 大数据
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
272 4
|
8月前
|
机器学习/深度学习 人工智能 大数据
从数据到决策:政府如何用大数据把事儿办得更明白?
从数据到决策:政府如何用大数据把事儿办得更明白?
290 0

热门文章

最新文章

推荐镜像

更多