带你读《企业级云原生白皮书项目实战》——5.2.3 数据上云(2)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 带你读《企业级云原生白皮书项目实战》——5.2.3 数据上云(2)

《企业级云原生白皮书项目实战》——第五章 大数据——5.2 云原生大数据计算服务 MaxCompute——5.2.3 数据上云(1) https://developer.aliyun.com/article/1228555?groupCode=supportservice


5.2.3.1.2 全增量实时一键数据同步MaxCompute方案

此处以MySQL业务数据库为例,假设有大量的数据存储在数据库系统里,需要将数据库中的全量及增量数据同步到MaxCompute中进行数仓分析,数据集成传统方式是通过DataX进行全量同步或者依赖数据库表中有modify_time这种字段进行增量同步。但实际的生产场景中,数据库表里并不一定存在modify_time这种字段,传统的基于jdbc抽取的方式则没办法进行增量同步。

该场景主要抽象为三个核心需求点:

1.全量数据初始化;

2.增量数据实时写入;

3.增量数据和全量数据定时做合并写入新的全量表分区。

image.png

名词解释

Base表

MySQL中的数据库表对应的MaxCompute中的表

Log表

一对源、目的数据源(即对应一个数据同步解决方案),会创建一个log表,命名规则为:__log。如源端数据源为:rds_test、目标数据源为:odps_fifirst,则Log表的表名为:rds_test_odps_-fifirst_log。

一般来说,一个MySQL数据源即对应一个数据库DB,则这里可以理解为Log表和DB是一一对应的。该MySQL DB下的所有表的变化情况,都将记录在这张MaxCompute1Log表中,进一步根据解决方案所设置的Merge周期,定期由Merge任务,将Log表的增量内容合并至Base表。

DB 内的所有表的增量数据,每一行数据所有数据列被当做一个字段整体(_data_-columns_)并附带有相关该行记录的元数据信息,Log表定义如下:

image.png

解决方案原理阐释

为实现上述的三个核心需求,MySQL同步至MaxCompute全增量Merge分为3个阶段:

1.任务配置当天,执行全量数据初始化的离线同步任务。

2.任务配置当天,待全量数据初始化完成后,启动实时同步任务,将增量数据实时同步至MaxCompute Log表。

3.任务配置第二天,Merge任务将Base表全量数据与实时同步任务的增量数据进行Merge,最后将结果写入Base表。默认Merge周期为1天。

需要特别留意,由于目前全增量Merge周期为一天,Base表实际只能查到T-1的全增量完整数据。如果希望提高增全量合并的时效性,例如从一天合并一次改为一小时合并一次,需要在“一键实时同步至MaxCompute”业务流程的第5步(目前该能力灰度中,并非所有用户均可见),“设置表粒度同步规则”中,调整“Base表Merge设置”。截图参考如下:

image.png


《企业级云原生白皮书项目实战》——第五章 大数据——5.2 云原生大数据计算服务 MaxCompute——5.2.3 数据上云(3) https://developer.aliyun.com/article/1228551?groupCode=supportservice

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
存储 分布式计算 大数据
大数据与云计算:无缝结合,开启数据新纪元
大数据与云计算:无缝结合,开启数据新纪元
28 11
|
19天前
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
73 14
|
23天前
|
数据采集 存储 机器学习/深度学习
数据的秘密:如何用大数据分析挖掘商业价值
数据的秘密:如何用大数据分析挖掘商业价值
47 9
|
27天前
|
存储 搜索推荐 大数据
数据大爆炸:解析大数据的起源及其对未来的启示
数据大爆炸:解析大数据的起源及其对未来的启示
92 15
数据大爆炸:解析大数据的起源及其对未来的启示
|
29天前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
217 92
|
1月前
|
数据采集 存储 分布式计算
解密大数据:从零开始了解数据海洋
解密大数据:从零开始了解数据海洋
69 17
|
1月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
2月前
|
运维 Cloud Native 持续交付
云原生技术深度探索:重塑现代IT架构的无形之力####
本文深入剖析了云原生技术的核心概念、关键技术组件及其对现代IT架构变革的深远影响。通过实例解析,揭示云原生如何促进企业实现敏捷开发、弹性伸缩与成本优化,为数字化转型提供强有力的技术支撑。不同于传统综述,本摘要直接聚焦于云原生技术的价值本质,旨在为读者构建一个宏观且具体的技术蓝图。 ####
|
2月前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
72 0
|
2月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。