带你读《企业级云原生白皮书项目实战》——5.2.3 数据上云(2)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 带你读《企业级云原生白皮书项目实战》——5.2.3 数据上云(2)

《企业级云原生白皮书项目实战》——第五章 大数据——5.2 云原生大数据计算服务 MaxCompute——5.2.3 数据上云(1) https://developer.aliyun.com/article/1228555?groupCode=supportservice


5.2.3.1.2 全增量实时一键数据同步MaxCompute方案

此处以MySQL业务数据库为例,假设有大量的数据存储在数据库系统里,需要将数据库中的全量及增量数据同步到MaxCompute中进行数仓分析,数据集成传统方式是通过DataX进行全量同步或者依赖数据库表中有modify_time这种字段进行增量同步。但实际的生产场景中,数据库表里并不一定存在modify_time这种字段,传统的基于jdbc抽取的方式则没办法进行增量同步。

该场景主要抽象为三个核心需求点:

1.全量数据初始化;

2.增量数据实时写入;

3.增量数据和全量数据定时做合并写入新的全量表分区。

image.png

名词解释

Base表

MySQL中的数据库表对应的MaxCompute中的表

Log表

一对源、目的数据源(即对应一个数据同步解决方案),会创建一个log表,命名规则为:__log。如源端数据源为:rds_test、目标数据源为:odps_fifirst,则Log表的表名为:rds_test_odps_-fifirst_log。

一般来说,一个MySQL数据源即对应一个数据库DB,则这里可以理解为Log表和DB是一一对应的。该MySQL DB下的所有表的变化情况,都将记录在这张MaxCompute1Log表中,进一步根据解决方案所设置的Merge周期,定期由Merge任务,将Log表的增量内容合并至Base表。

DB 内的所有表的增量数据,每一行数据所有数据列被当做一个字段整体(_data_-columns_)并附带有相关该行记录的元数据信息,Log表定义如下:

image.png

解决方案原理阐释

为实现上述的三个核心需求,MySQL同步至MaxCompute全增量Merge分为3个阶段:

1.任务配置当天,执行全量数据初始化的离线同步任务。

2.任务配置当天,待全量数据初始化完成后,启动实时同步任务,将增量数据实时同步至MaxCompute Log表。

3.任务配置第二天,Merge任务将Base表全量数据与实时同步任务的增量数据进行Merge,最后将结果写入Base表。默认Merge周期为1天。

需要特别留意,由于目前全增量Merge周期为一天,Base表实际只能查到T-1的全增量完整数据。如果希望提高增全量合并的时效性,例如从一天合并一次改为一小时合并一次,需要在“一键实时同步至MaxCompute”业务流程的第5步(目前该能力灰度中,并非所有用户均可见),“设置表粒度同步规则”中,调整“Base表Merge设置”。截图参考如下:

image.png


《企业级云原生白皮书项目实战》——第五章 大数据——5.2 云原生大数据计算服务 MaxCompute——5.2.3 数据上云(3) https://developer.aliyun.com/article/1228551?groupCode=supportservice

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
415 14
|
5月前
|
SQL 人工智能 分布式计算
ODPS十五周年实录|构建 AI 时代的大数据基础设施
本文根据 ODPS 十五周年·年度升级发布实录整理而成,演讲信息如下: 张治国:阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人 活动:【数据进化·AI 启航】ODPS 年度升级发布
263 9
|
5月前
|
SQL 存储 分布式计算
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们(如数分、算法、产品等)能够快速上手ODPS查询优化,实现高性能查数看数,避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。
1286 36
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
|
4月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
312 7
|
5月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
201 14
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
395 0
|
5月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
190 1
|
5月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
469 1
|
6月前
|
机器学习/深度学习 监控 大数据
数据当“安全带”:金融市场如何用大数据玩转风险控制?
数据当“安全带”:金融市场如何用大数据玩转风险控制?
222 10
|
5月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
455 1