Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式

简介: 知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

作者:庞博

1、概述

知名开源 MPP 数据库 Greenplum(下文简称GP)由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,原有 branch、tag、pr、issue等信息全部清空,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版(下文简称ADB-PG)完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越。AnalyticDB PostgreSQL 版在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

2、与GP兼容性

2.1 语法兼容

  • 支持 GP 所有复杂数据类型和函数计算。
  • 支持 CaseWhen、NullIf、Coalesce等在内的常用16种表达式计算。
  • 支持 HeapTable、Aocs Table、Beam Table的Scan,包含Seqscan和Index Scan。
  • 支持 GroupAgg/HashAgg/PlainAgg,及Agg所有特性,包含AggFilter、GroupingSets、RollUp/Cude等。
  • 支持 HashJoin/NestLoopJoin,完整支持Left/Right/Full/Inner/Anti/Semi/Not-exist-in七种Join规则。
  • 支持 Sort所有场景,包含FullSort/TopNSort。
  • Agg/Join/Sort均支持落盘功能。
  • Window计算。
  • Insert/Update/Delete功能支持。
  • 支持自定义函数和PROCEDURE。

2.2 生态兼容

1、社区工具兼容

  • 数据集成:Talend、Kettle、DSG等。
  • 数据开发:Navicat、DBeaver等。
  • 作业调度:Informatica、Azkaban 等。
  • BI分析:支持 Superset、Zeppelin、Grafana、FineBI、PowerBI、Tableau、Cognos、SmartBI等。

2、阿里工具兼容

  • 数据集成:DTS、DataX、Flink 等。
  • 数据开发与调度:DMS、Dataworks、DataQ、Dataphin 等。
  • BI分析:支持 QuickBI、DataV 等。

3、较比GP的优势

3.1 功能优势

ADB-PG 通过自研企业级特性提升了产品易用性,相比GP在数据链路、实时性、安全性、可靠性、可扩展性方面具备全面的优势,极大地降低企业使用和运维成本。

3.1.1 Zero-ETL

支持 PolarDB/RDS 多数据源汇聚到 ADB-PG 构建企业级数仓的零感集成。用户无需单独配置数据集成工具在 ADB-PG 控制台即可轻松开启 TP 到 AP 的全量/增量数据集成,全量数据初始化集成性能大幅提升。

3.1.2 实时计算

支持流式数据高吞吐写入,提供增量实时物化视图实现流表、离线表多表关联和实时Ad-hoc查询。同一个引擎即可同时满足流和批两类任务,通过资源隔离实现混合负载,帮助企业构建轻量级实时数仓。

3.1.3 安全增强

  • 支持 TLS 1.1/1.2/1.3。
  • 支持云盘加密。
  • 支持非对称和对称加密如 SM4。
  • 支持行级和列级权限管控。
  • 引擎级支持动态数据脱敏。
  • 支持SQL审计和事件审计。

3.1.4 冷热数据分层

ADB PG支持冷热分层存储,可以将数据表存储到OSS中,以降低存储成本。支持数据表整体冷热转换及分区表按分区冷热转换,支持自动的数据TTL(Time to Live,存活时间)。

3.1.5 备份恢复

开源Greenplum提供了基于gpbackup的逻辑备份,同时需要配置定时任务和备份存储介质。ADB-PG提供了基于一致性恢复点的分布式物理备份恢复。通过该功能可以选择指定时间点恢复,或者实例克隆。

3.1.6 跨AZ容灾

7月初即将发布跨 AZ 部署特性,可实现跨AZ级的数据容灾,为企业提供最可靠的数据保障。

3.1.7 弹性扩展

支持对 Master节点、计算节点纵向升降配以及对计算节点横向缩容容。在扩容期间业务可保持读和写服务,同时支持暂停和重启扩缩容避开业务高峰期。

3.1.8 数据湖加速

支持通过外表形式实现对数据湖数据(OSS、MaxCompute)数据进行分析加速。支持通过ODPS FDW 将OSS数据高速集成到 ADB-PG,支持将 MaxCompute 数据高速并行导入到 ADB-PG。

3.2 性能优势

在性能层面,ADB-PG 自研了向量化执行引擎和行列混合存储引擎,实时物化视图结果集缓存,字典加速执行,Dynamic Join Filter等特性。在这些自研性能增强特性加持下,ADB-PG全自研计算引擎与开源 Greenplum 在相同资源下 TPC-H 100GB 性能对比综合提升5倍。

具体性能测试可参考7.0版TPC-H性能测试

3.3 成本优势

  1. AnalyticDB for PostgreSQL 赠送客户8 CU的的Master节点的主备资源。
  2. ADB-PG 与 AMD 新一代 EPYC 服务器深度集成后有 30% 性能提升,在价格不变动的情况下更具性价比,目前在北、上、杭、深区域已默认开启。ADB-PG 会持续实现性能优化,为客户提供更高的性价比。
  3. 对于部署架构,ADB-PG 采用了单个节点上一主一备,进行了资源的部署,保证高可用下的最优性价比部署模式。
  4. 支持多级别的云盘存储,PL0,PL1,PL2,可以按客户性能要求最优性价比选择。
  5. 支持冷热分层, 对于低频使用的数据可以保留大部分数据库使用模式体验下,使用 OSS 存储并进行大幅降本。
  6. 全托管的产品, 所有的运维监控均免费提供,并提供内核诊断及自研高性能引擎,相较于开源同等性能, 可节省 60% 资源使用量。
  7. 支持定时计划,对实例进行启停和变配,实现按需资源调配,对于波峰波谷业务显著用户可进一步节省30%以上成本。

4、Data+AI新范式

2023年自 ChatGPT 发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强) 架构已经成为AI 应用落地最可控、高效、数据的技术方案。

ADB-PG 早在2020年已经开始全自研向量检索引擎,可支撑千亿向量数据,提供高并发低延时的响应。在 AIGC 兴起后是国内首个云厂商中被 OpenAI 和 Langchain 知名LLM社区推荐的向量引擎。

ADB-PG 提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式 RAG 服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。

有别于其他产品,ADB-PG与阿里云百炼钉钉阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot文/图搜图等解决方案供企业直接使用构建 AI 应用。

5、GP一键迁移

若业务希望获得上述优势解决性能、功能及运维痛点,实现Data+AI的架构升级和转型,快迁移到 ADB-PG 吧!以下是迁移方案可帮助您高效、低成本迁移到ADB-PG,开启 Data+AI新范式,详见:自建Greenplum迁移到AnalyticDB PostgreSQL版

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
393 99
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
322 10
|
4月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
5月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
555 0
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1107 50
|
5月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1197 58
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
604 30

相关产品

  • 云原生数据仓库AnalyticDB MySQL版