《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(上)——一、产品概述

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版解析与实践(上)——一、产品概述

1. 产品简介

 

云原生数据仓库AnalyticDB PostgreSQL版ADB PG是阿里云自研高性能、海量扩展数据仓库服务,兼容部分Oracle/Teradata语法生态,应用于阿里巴巴集团内部电商、物流、文娱、广告等业务部门,服务于阿里云的金融、政企、互联网等各行业用户,支持快速构建新一代云化数据仓库服务。

 

PB级数据实时响应能:MPP水平扩展架构,PB级数据查询秒级响应;向量化计算,及列存储智能索引,领先传统数据库引擎性能3x;新一代SQL优化器,实现复杂分析语句免调优。

稳定可靠、简化运维:飞天平台基于阿里多年大规模集群系统构筑经验打造,智能硬件管理,故障监控诊断自恢复,支持MPP数据库实现复杂集群系统高可靠,自运维。

SQL兼容性:可支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,OLAP窗口函数,视图等,完备功能和生态,实现应用快速适配、或迁移。

数据多模分析:通过PostGIS插件支持地理信息数据分析;内置100+机器学习算法库,实现数据智能探索;高性能向量检索算法,支持视频/图像检索以图搜图。

 

 

2. 发展历程

 

2017年,ADB PG(原HDB)诞生,内核PG 8.2。

2018年,ORCA优化器稀疏和聚簇索引,支持JSON数据类型OSS外表。

2019年,内核升级PG9.4,向量执行引擎1.0多MASTER,RBO优化器增强,支持高维向量检索,通过信通院&信创认证。

2020年,云原生升级,备份恢复能力增强包含物理备份和表逻辑备份,外表联邦分析,多维排序,向量执行引擎,通过TPC-H评测获得全球第一。

2021年,副本多活、分层存储、计算存储分离、HTAP增强、行列混存。

 

3. 产品定位

 

ADB PG兼容业内主流数仓架构方案,支持ETL离线处理,支持在线交互分析。通过高性能计算引擎及实时同步方案,支持在线数据随机探索,实时同步分析。

 

如图

RDS MySQL可以通过DTS入库。

流式计算Kafka/Flink可以通过Copy/Insert方式入库。

批量加载可以通过第三方工具Kettle/DSG。

OSS/MaxCompute可以通过Dataworks数据集成或者外表的方式导入。

数据开发作业调度支持DMS、Dataworks、Dataphin。

 

image.png

 

功能完备:基于PostgreSQL内核,SQL高度兼容Teradata/Oracle。

生态完备:与阿里云数仓开发平台Dataworks,数据中台Dataphin,数据同步工具DTS等无缝集成;支持业内主流第三方工具。

 

4. 产品特点和优势

 

性能强劲:TPC-H评测全球第一,超过90%的读写性能水平扩展比。

弹性:支持水平扩容,分布式弹性架构,PB级数据存储与分析。

遵循PG/GP:业界最主流数仓协议,兼容主流ETL/BI/可视化等生态工具。

简单易用:经历大规模验证,对标传统商业数仓的企业级特性。

 

5. 核心功能

 

1) PL/pgSQL过程语言

 

自定义函数&存储过程如下:

CREATE [OR REPLACE] {FUNCTION | STORED PROCEDURE} name
([[argmode] [argname] argtype [ { DEFAULT|=} default_expr][,...]])
[RETURNS rettype
 |RETURNS TABLE ( column_name column_type [, ...]) ]
LANGUAGE langname
WINDow
IMMUTABLE | STABLE |VOLATILE | [NOT] LEAKPROOF
| CALLED ON NULL INPUT | RETURNS NULL ON NULL INPUT | STRICT
[EXTERNAL] SECURITY INVOKER | [EXTERNAL] SECURITY DEFINER
| EXECUTE ON { ANY | MASTER | ALL SEGMENTS }
| COST execution_cost
SET configuration_parameter { TO value |= value| FROM CURRENT }
As definition
As'obj file,Link symbol'...
[WITH({DESCRIBE = describe_function
 }[, ...])}

  

2) CBO优化器

 

新一代cascade框架的SQL优化器,面向全并行执行架构,代价优化CBO和规则优化RBO相结合,实现复杂SQL免调优。

 

Top-Down路径搜索框架,搜索和路径选择更全面精准,避免出现局部查询路径最优解。

子查询自动改写为分布式JOIN,实现并行计算,规避手工改写调优。

SQL优化阶段定义动态分区裁剪,即支持确定性过滤条件,也支持参数化的过滤条件,减少I/O。

 

3) 资源负载管理

 

支持自定义执行队列,根据用户角色,其执行任务进入对应资源管控队列。任务队列支持设定:

 

并行执行任务数;

CPU优先级;

内存资源上限。

 

示例

如下图,用户可以自定义三个执行队列

 

image.png

 

ETL队列:赋予资源获取最低优先级。

BI报表队列:赋予资源获取最高优先级。

数据探索队列:赋予资源获取中间优先级。

 

4) 备份恢复方式丰富

 

AnalyticDB PostgreSQL版支持如下备份特点:

 

PITR备份恢复

RPO<10min

支持差异化全量备份

支持增量备份

支持分布式一致性恢复

支持表级逻辑备份

 

image.png

 

5) 支持丰富生态

 

ADB PG支持主流工具,包括阿里云提供的DataWorks、DTS、DMS、数据集成、Quickbi、DataV等工具以及第三方Kettle、DSG等工具。

 

image.png

 

6. 产品选型

 

ADB PG产品系列有两种:预留模式和弹性模式。

 

1) 预留模式

 

特点:兼容Greenplum/PostgreSQL。支持2c、4c和8c规格,不同规格之间支持在线升降配、秒级切换,不影响业务运行,适合数据实时写入(DTS),高并发、实时分析场景。

性价比:百万TPS实时写入,上百QPS查询。

可用性:支持单副本和双副本模式,数据保存在云盘,可用性99.9%。

 

2) 弹性模式

 

特点:采用云原生架构,存储和计算完全分离,支持更大存储量,存储成本低,支持秒级扩缩容。适合批量导入、低并发,复杂ETL分析场景。

性价比:百万TPS批量导入,几十QPS复杂分析查询。

可用性:所有数据保存在OSS上,计算双副本,可用性99.9%。

 

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
23天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
2月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
3月前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
3月前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods 技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
25天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
|
2月前
|
Cloud Native 中间件 调度
云原生信息提取系统:容器化流程与CI/CD集成实践
本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。
云原生信息提取系统:容器化流程与CI/CD集成实践
|
3月前
|
资源调度 Kubernetes 流计算
Flink在B站的大规模云原生实践
本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。
203 9
Flink在B站的大规模云原生实践
|
2月前
|
运维 Kubernetes Cloud Native
分钟级到秒级:Yahaha 基于 OpenKruiseGame 的 UE5 游戏云原生实践
回顾《STRIDEN》项目在短短两个月内完成云原生转型的历程,它验证了一条清晰、可行的路径,即如何利用云原生技术,从根本上解决现代在线游戏所面临的运维复杂性难题。

推荐镜像

更多