作者:庞博
1、概述
知名开源 MPP 数据库 Greenplum(下文简称GP)由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,原有 branch、tag、pr、issue等信息全部清空,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版(下文简称ADB-PG)完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越。AnalyticDB PostgreSQL 版在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。
2、与GP兼容性
2.1 语法兼容
- 支持 GP 所有复杂数据类型和函数计算。
- 支持 CaseWhen、NullIf、Coalesce等在内的常用16种表达式计算。
- 支持 HeapTable、Aocs Table、Beam Table的Scan,包含Seqscan和Index Scan。
- 支持 GroupAgg/HashAgg/PlainAgg,及Agg所有特性,包含AggFilter、GroupingSets、RollUp/Cude等。
- 支持 HashJoin/NestLoopJoin,完整支持Left/Right/Full/Inner/Anti/Semi/Not-exist-in七种Join规则。
- 支持 Sort所有场景,包含FullSort/TopNSort。
- Agg/Join/Sort均支持落盘功能。
- Window计算。
- Insert/Update/Delete功能支持。
- 支持自定义函数和PROCEDURE。
2.2 生态兼容
1、社区工具兼容
- 数据集成:Talend、Kettle、DSG等。
- 数据开发:Navicat、DBeaver等。
- 作业调度:Informatica、Azkaban 等。
- BI分析:支持 Superset、Zeppelin、Grafana、FineBI、PowerBI、Tableau、Cognos、SmartBI等。
2、阿里工具兼容
- 数据集成:DTS、DataX、Flink 等。
- 数据开发与调度:DMS、Dataworks、DataQ、Dataphin 等。
- BI分析:支持 QuickBI、DataV 等。
3、较比GP的优势
3.1 功能优势
ADB-PG 通过自研企业级特性提升了产品易用性,相比GP在数据链路、实时性、安全性、可靠性、可扩展性方面具备全面的优势,极大地降低企业使用和运维成本。
3.1.1 Zero-ETL
支持 PolarDB/RDS 多数据源汇聚到 ADB-PG 构建企业级数仓的零感集成。用户无需单独配置数据集成工具在 ADB-PG 控制台即可轻松开启 TP 到 AP 的全量/增量数据集成,全量数据初始化集成性能大幅提升。
3.1.2 实时计算
支持流式数据高吞吐写入,提供增量实时物化视图实现流表、离线表多表关联和实时Ad-hoc查询。同一个引擎即可同时满足流和批两类任务,通过资源隔离实现混合负载,帮助企业构建轻量级实时数仓。
3.1.3 安全增强
- 支持 TLS 1.1/1.2/1.3。
- 支持云盘加密。
- 支持非对称和对称加密如 SM4。
- 支持行级和列级权限管控。
- 引擎级支持动态数据脱敏。
- 支持SQL审计和事件审计。
3.1.4 冷热数据分层
ADB PG支持冷热分层存储,可以将数据表存储到OSS中,以降低存储成本。支持数据表整体冷热转换及分区表按分区冷热转换,支持自动的数据TTL(Time to Live,存活时间)。
3.1.5 备份恢复
开源Greenplum提供了基于gpbackup的逻辑备份,同时需要配置定时任务和备份存储介质。ADB-PG提供了基于一致性恢复点的分布式物理备份恢复。通过该功能可以选择指定时间点恢复,或者实例克隆。
3.1.6 跨AZ容灾
7月初即将发布跨 AZ 部署特性,可实现跨AZ级的数据容灾,为企业提供最可靠的数据保障。
3.1.7 弹性扩展
支持对 Master节点、计算节点纵向升降配以及对计算节点横向缩容容。在扩容期间业务可保持读和写服务,同时支持暂停和重启扩缩容避开业务高峰期。
3.1.8 数据湖加速
支持通过外表形式实现对数据湖数据(OSS、MaxCompute)数据进行分析加速。支持通过ODPS FDW 将OSS数据高速集成到 ADB-PG,支持将 MaxCompute 数据高速并行导入到 ADB-PG。
3.2 性能优势
在性能层面,ADB-PG 自研了向量化执行引擎和行列混合存储引擎,实时物化视图,结果集缓存,字典加速执行,Dynamic Join Filter等特性。在这些自研性能增强特性加持下,ADB-PG全自研计算引擎与开源 Greenplum 在相同资源下 TPC-H 100GB 性能对比综合提升5倍。
具体性能测试可参考7.0版TPC-H性能测试
3.3 成本优势
- AnalyticDB for PostgreSQL 赠送客户8 CU的的Master节点的主备资源。
- ADB-PG 与 AMD 新一代 EPYC 服务器深度集成后有 30% 性能提升,在价格不变动的情况下更具性价比,目前在北、上、杭、深区域已默认开启。ADB-PG 会持续实现性能优化,为客户提供更高的性价比。
- 对于部署架构,ADB-PG 采用了单个节点上一主一备,进行了资源的部署,保证高可用下的最优性价比部署模式。
- 支持多级别的云盘存储,PL0,PL1,PL2,可以按客户性能要求最优性价比选择。
- 支持冷热分层, 对于低频使用的数据可以保留大部分数据库使用模式体验下,使用 OSS 存储并进行大幅降本。
- 全托管的产品, 所有的运维监控均免费提供,并提供内核诊断及自研高性能引擎,相较于开源同等性能, 可节省 60% 资源使用量。
- 支持定时计划,对实例进行启停和变配,实现按需资源调配,对于波峰波谷业务显著用户可进一步节省30%以上成本。
4、Data+AI新范式
2023年自 ChatGPT 发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强) 架构已经成为AI 应用落地最可控、高效、数据的技术方案。
ADB-PG 早在2020年已经开始全自研向量检索引擎,可支撑千亿向量数据,提供高并发低延时的响应。在 AIGC 兴起后是国内首个云厂商中被 OpenAI 和 Langchain 知名LLM社区推荐的向量引擎。
ADB-PG 提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式 RAG 服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。
有别于其他产品,ADB-PG与阿里云百炼、钉钉、阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot、文/图搜图等解决方案供企业直接使用构建 AI 应用。
5、GP一键迁移
若业务希望获得上述优势解决性能、功能及运维痛点,实现Data+AI的架构升级和转型,快迁移到 ADB-PG 吧!以下是迁移方案可帮助您高效、低成本迁移到ADB-PG,开启 Data+AI新范式,详见:自建Greenplum迁移到AnalyticDB PostgreSQL版