《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(下)——一、数据同步

本文涉及的产品
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
PolarDB Agent Express,2核4GB
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(下)——一、数据同步

1. ADB PG DTS同步链路

 

1) DTS

 

ADB PG数据同步可以使用阿里云数据同步工具DTS,同步数据源来自上游数据库系统,可以是RDS MySQL、RDS PG等关系型数据库,ADB PG作为数据仓库是目标数据库。

DTS一般是完成订阅、捕捉全量和增量的数据,转化为ADB PG识别的语法,并将这些数据插入到数据库中。

 

2) ADB PG使用同步链路的目标场景

 

数据在线迁移、实时同步、异地灾备(读写分离、双活)。

 

3) ADB PG数据仓库使用限制

 

每个表列数最多1600列

每个表行数最多2^48行

部分支持修改字段类型:如int->bigint、bigint->decimal

非法值不支持写入(如2020-05-00 00:00:00、100:00:00等)

不支持的类型同步数据不可使用(如GEOMETRY、POINT、LINESTRING、POLYGON等类型)

列/表/数据库名称最长63个字符

不支持unsigned类型

 

注意

写入ADB PG已有的重复数,内部会执行delete&insert,内部会执行耗时较长。

热点行更新性能不佳。

内部使用copy/insert语法执行写入,极限性能受限于master节点配置。

 

参考

ADB PG内核限制

https://help.aliyun.com/document detail/157891.html

DTS使用限制

https://help.aliyun.com/document_detail/149450.html

 

2. 数据同步监控-用户侧

 

DTS数据同步的监控可以在控制台查看,ADB PG数据同步监控可以登录ADB PG控制台的监控信息页面查看。

 

image.png

 

监控信息包括协调节点连接数、计算节点连接数、实例总存储水位、实例存储总使用量、计算节点数、临时尾盘文件大小,在协调节点连接数图表中可以看到连接数的急剧上升,因为有大量数据落库导致。

 

通过此页面可以监控DTS链路,重点关注CPU、CPU使用率、IO吞吐率。在单独通过DTS数据同步的场景下,master节点连接数、CPU使用率都是相对恒定的,如果某天master节点连接数、CPU使用率发生比较大的波动,需要检查下数据链路是否工作正常。

 

3. 链路典型问题排查

 

场景:热点行更新场景

现象:没有达到限流,RT不高,节点负载也不高,但是速度就是不高。

 

排查方式

执行任务诊断,非常严重的热点行更新是会被诊断到的

咨询客户源库是否有热点行更新的情况

此问题排查较复杂,可以找DTS值班同学协助排查

 

优化方式

目前DTS没有很好的处理方式,一旦确认源库有热点行更新情况,并且关注整体性能,建议客户把热点行更新的表从同步对象中去掉。

 

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
10月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
7月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
7月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
8月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
935 1
|
9月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
11月前
|
分布式计算 运维 监控
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。
817 1
|
10月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。
|
11月前
|
SQL 存储 缓存
海量数据分页查询效率低?一文解析阿里云AnalyticDB深分页优化方案
本文介绍了AnalyticDB(简称ADB)针对深分页问题的优化方案。深分页是指从海量数据中获取靠后页码的数据,常导致性能下降。ADB通过快照缓存技术解决此问题:首次查询生成结果集快照并缓存,后续分页请求直接读取缓存数据。该方案在数据导出、全量结果分页展示及业务报表并发控制等场景下表现出色。测试结果显示,相比普通分页查询,开启深分页优化后查询RT提升102倍,CPU使用率显著降低,峰值内存减少至原方案的几分之一。实际应用中,某互联网金融客户典型慢查询从30秒优化至0.5秒,性能提升60+倍。
797 1

推荐镜像

更多
  • DNS