《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——四、基于AnalyticDB构建实时数据仓库

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——四、基于AnalyticDB构建实时数据仓库

1. AnalyticDB构建实时数仓大图

 

image.png

 

实时数仓要求数据具有实时性。数据链路实时化依赖阿里云的DTS,将MySQL、SQL Server、Oracle等数据实时传输到ADB中,DTS可以读取数据库的binlog,对源端无影响,也可以通过DMS、Dataworks对数据进行抽取到数仓里,还可以将日志数据、MQ、流计算产生的数据,通过SLS写入到ADB数仓里。

 

支持的数据源

https://help.aliyun.com/document_detail/123754.html

 

2. DTS实时同步

 

数据传输(Data Transmission)DTS的数据同步功能,旨在帮助用户实现两个数据源之间的数据实时同步。

DTS通过解析数据源的增量日志,如binlog,将增量实时同步到AnalyticDB中。

 

创建DTS实时同步步骤

 

1) 创建DTS同步:源库类型、目标库AnalyticDB、同步链路规格。

2) 配置任务:源库实例、目标实例、授权白名单。

3) 同步对象设置:全量数据、增量数据、DDL过滤、DML设置。

4) 对象映射 :源库对象、目标对象、多表归并、字段映射。

5) 日志表设置:分区键、主键键。

6) 预检查并启动:检查出错、重新修改、启动暂停。

 

多数据源支持:RDS MySQL、PolarDB MySQL、PolarDB-X

 

DTS RDS同步到AnalyticDB

https://help.aliyun.com/document_detail/49082.html?spm=a2c4g.11186623.6.700.1072612epv6gED

 

3. SLS实时投递

 

通过阿里云日志服务广泛的日志采集能力,加上AnalyticDB内建的灵活可定制的ETL能力,进行数据湖投递、处理、分析。

 

以游戏数据运营融合分析为例:

 

SLS日志服务:项目Project、日志库、Logstore、配置数据接入(日志源)。

数据投递OSS:OSS投递选项、分区格式、压缩方式、RAM角色、投递时间、直接投递到AnalyticD。

清洗加工:配置OSS接入、DSL(处理数据)、投递到AnalyticDB。

AnalyticDB分析:数据分析。

 

image.png

 

将日志服务SLS数据投递到AnalyticDB

https://help.aliyun.com/document_detail/149689.htm?spm=a2c4g.11186623.0.0.48012addh2hTqP#task-2376265

 

游戏数据运营最佳实践参考

https://bp.aliyun.com/front/home/detail/157?spm=a2c6h.12873639.0.0.76e32b86lokOfH

 

4. DMS企业版数仓开发与调度

 

数据管理Data ManagementDMS的数仓开发,旨在为用户提供数据集成、加工、可视化和价值挖掘的一站式开发平台。提供任务编排、数据仓库两种开发模式,均可以实现周期调度,满足用户不同应用场景的数仓开发需求。

 

多数据源支持:MySQL、PolarDB、PolarDB-X、AnalyticDB、PostgresSQL、SQL Server、Oracle

多周期:月、周、日、小时、分钟

两种方式增量:数据迁移、跨库SQL

 

DMS官网

https://cn.aliyun.com/product/dms

 

1) DMS数仓开发-数据迁移实现增量流程

 

创建任务流:设置任务基本信息。

创建数据迁移节点:设置源数据、设置目标为AnalyticDB、通过数据迁移实现。

编排任务:DAG任务节点顺序、前置依赖、试运行、指定时间运行。

配置调度:调度类型、调度周期、调度类型。

运维中心:执行日志查看、终止、重跑、暂停、恢复、置成功。

 

DMS数据迁移实现增量

https://help.aliyun.com/document detail/147250.html

 

2) DMS数仓开发 - 跨库SQL增量流程

 

创建任务流:设置任务基本信息。

创建跨库SQL任务:设通过DBlink获取数据、数据抽取SQL,设置增量变量(e.g.updata_at)变量格式定义。

编排任务:DAG任务节点顺序、前置依赖、试运行、指定时间运行。

配置调度:调度类型、调度周期、运行时带入变量的当前值。

运维中心:执行日志查看、终止、重跑、暂停、恢复、置成功。

 

DMS数据迁移实现增量

https://help.aliyun.com/document detail/139316.html

 

使用AnalyticDB构建实时数仓依赖DTS、SLS等实时工具,将关系型数据、日志类实时数据投递到AnalyticDB里,依赖DMS的数仓开发平台,基于AnalyticDB里的数据进行开发调度,包括实现DAG的任务重试能力。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
8天前
|
安全 虚拟化
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力。通过具体案例,展示了方案的制定和实施过程,强调了目标明确、技术先进、计划周密、风险可控和预算合理的重要性。
22 5
|
2月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
10天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
22天前
|
存储 SQL 缓存
AnalyticDB 实时数仓架构解析
AnalyticDB 是阿里云自研的 OLAP 数据库,广泛应用于行为分析、数据报表、金融风控等应用场景,可支持 100 trillion 行记录、10PB 量级的数据规模,亚秒级完成交互式分析查询。本文是对 《 AnalyticDB: Real-time OLAP Database System at Alibaba Cloud 》的学习总结。
38 1
|
24天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
67 3
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
184 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
域名解析 网络协议
非阿里云注册域名如何在云解析DNS设置解析?
非阿里云注册域名如何在云解析DNS设置解析?
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
78 1
|
1月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
1月前
|
弹性计算 网络协议 Ubuntu
如何在阿里云国际版Linux云服务器中自定义配置DNS
如何在阿里云国际版Linux云服务器中自定义配置DNS

推荐镜像

更多
下一篇
无影云桌面