《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——四、基于AnalyticDB构建实时数据仓库

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——四、基于AnalyticDB构建实时数据仓库

1. AnalyticDB构建实时数仓大图

 

image.png

 

实时数仓要求数据具有实时性。数据链路实时化依赖阿里云的DTS,将MySQL、SQL Server、Oracle等数据实时传输到ADB中,DTS可以读取数据库的binlog,对源端无影响,也可以通过DMS、Dataworks对数据进行抽取到数仓里,还可以将日志数据、MQ、流计算产生的数据,通过SLS写入到ADB数仓里。

 

支持的数据源

https://help.aliyun.com/document_detail/123754.html

 

2. DTS实时同步

 

数据传输(Data Transmission)DTS的数据同步功能,旨在帮助用户实现两个数据源之间的数据实时同步。

DTS通过解析数据源的增量日志,如binlog,将增量实时同步到AnalyticDB中。

 

创建DTS实时同步步骤

 

1) 创建DTS同步:源库类型、目标库AnalyticDB、同步链路规格。

2) 配置任务:源库实例、目标实例、授权白名单。

3) 同步对象设置:全量数据、增量数据、DDL过滤、DML设置。

4) 对象映射 :源库对象、目标对象、多表归并、字段映射。

5) 日志表设置:分区键、主键键。

6) 预检查并启动:检查出错、重新修改、启动暂停。

 

多数据源支持:RDS MySQL、PolarDB MySQL、PolarDB-X

 

DTS RDS同步到AnalyticDB

https://help.aliyun.com/document_detail/49082.html?spm=a2c4g.11186623.6.700.1072612epv6gED

 

3. SLS实时投递

 

通过阿里云日志服务广泛的日志采集能力,加上AnalyticDB内建的灵活可定制的ETL能力,进行数据湖投递、处理、分析。

 

以游戏数据运营融合分析为例:

 

SLS日志服务:项目Project、日志库、Logstore、配置数据接入(日志源)。

数据投递OSS:OSS投递选项、分区格式、压缩方式、RAM角色、投递时间、直接投递到AnalyticD。

清洗加工:配置OSS接入、DSL(处理数据)、投递到AnalyticDB。

AnalyticDB分析:数据分析。

 

image.png

 

将日志服务SLS数据投递到AnalyticDB

https://help.aliyun.com/document_detail/149689.htm?spm=a2c4g.11186623.0.0.48012addh2hTqP#task-2376265

 

游戏数据运营最佳实践参考

https://bp.aliyun.com/front/home/detail/157?spm=a2c6h.12873639.0.0.76e32b86lokOfH

 

4. DMS企业版数仓开发与调度

 

数据管理Data ManagementDMS的数仓开发,旨在为用户提供数据集成、加工、可视化和价值挖掘的一站式开发平台。提供任务编排、数据仓库两种开发模式,均可以实现周期调度,满足用户不同应用场景的数仓开发需求。

 

多数据源支持:MySQL、PolarDB、PolarDB-X、AnalyticDB、PostgresSQL、SQL Server、Oracle

多周期:月、周、日、小时、分钟

两种方式增量:数据迁移、跨库SQL

 

DMS官网

https://cn.aliyun.com/product/dms

 

1) DMS数仓开发-数据迁移实现增量流程

 

创建任务流:设置任务基本信息。

创建数据迁移节点:设置源数据、设置目标为AnalyticDB、通过数据迁移实现。

编排任务:DAG任务节点顺序、前置依赖、试运行、指定时间运行。

配置调度:调度类型、调度周期、调度类型。

运维中心:执行日志查看、终止、重跑、暂停、恢复、置成功。

 

DMS数据迁移实现增量

https://help.aliyun.com/document detail/147250.html

 

2) DMS数仓开发 - 跨库SQL增量流程

 

创建任务流:设置任务基本信息。

创建跨库SQL任务:设通过DBlink获取数据、数据抽取SQL,设置增量变量(e.g.updata_at)变量格式定义。

编排任务:DAG任务节点顺序、前置依赖、试运行、指定时间运行。

配置调度:调度类型、调度周期、运行时带入变量的当前值。

运维中心:执行日志查看、终止、重跑、暂停、恢复、置成功。

 

DMS数据迁移实现增量

https://help.aliyun.com/document detail/139316.html

 

使用AnalyticDB构建实时数仓依赖DTS、SLS等实时工具,将关系型数据、日志类实时数据投递到AnalyticDB里,依赖DMS的数仓开发平台,基于AnalyticDB里的数据进行开发调度,包括实现DAG的任务重试能力。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
5月前
|
监控 Cloud Native Java
Spring Boot 3.x 微服务架构实战指南
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Spring Boot 3.x与微服务架构,探索云原生、性能优化与高可用系统设计。以代码为笔,在二进制星河中谱写极客诗篇。关注我,共赴技术星辰大海!(238字)
1067 2
Spring Boot 3.x 微服务架构实战指南
|
6月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
807 7
|
6月前
|
消息中间件 数据采集 NoSQL
秒级行情推送系统实战:从触发、采集到入库的端到端架构
本文设计了一套秒级实时行情推送系统,涵盖触发、采集、缓冲、入库与推送五层架构,结合动态代理IP、Kafka/Redis缓冲及WebSocket推送,实现金融数据低延迟、高并发处理,适用于股票、数字货币等实时行情场景。
939 3
秒级行情推送系统实战:从触发、采集到入库的端到端架构
人工智能 关系型数据库 OLAP
816 1
|
6月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
7月前
|
人工智能 监控 前端开发
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
支付宝「AI 出行助手」是一款集成公交、地铁、火车票、机票、打车等多项功能的智能出行产品。
1187 21
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战