Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

作者:庞博

1、概述

知名开源 MPP 数据库 Greenplum(下文简称GP)由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,原有 branch、tag、pr、issue等信息全部清空,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版(下文简称ADB-PG)完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越。AnalyticDB PostgreSQL 版在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

2、与GP兼容性

2.1 语法兼容

  • 支持 GP 所有复杂数据类型和函数计算。
  • 支持 CaseWhen、NullIf、Coalesce等在内的常用16种表达式计算。
  • 支持 HeapTable、Aocs Table、Beam Table的Scan,包含Seqscan和Index Scan。
  • 支持 GroupAgg/HashAgg/PlainAgg,及Agg所有特性,包含AggFilter、GroupingSets、RollUp/Cude等。
  • 支持 HashJoin/NestLoopJoin,完整支持Left/Right/Full/Inner/Anti/Semi/Not-exist-in七种Join规则。
  • 支持 Sort所有场景,包含FullSort/TopNSort。
  • Agg/Join/Sort均支持落盘功能。
  • Window计算。
  • Insert/Update/Delete功能支持。
  • 支持自定义函数和PROCEDURE。

2.2 生态兼容

1、社区工具兼容

  • 数据集成:Talend、Kettle、DSG等。
  • 数据开发:Navicat、DBeaver等。
  • 作业调度:Informatica、Azkaban 等。
  • BI分析:支持 Superset、Zeppelin、Grafana、FineBI、PowerBI、Tableau、Cognos、SmartBI等。

2、阿里工具兼容

  • 数据集成:DTS、DataX、Flink 等。
  • 数据开发与调度:DMS、Dataworks、DataQ、Dataphin 等。
  • BI分析:支持 QuickBI、DataV 等。

3、较比GP的优势

3.1 功能优势

ADB-PG 通过自研企业级特性提升了产品易用性,相比GP在数据链路、实时性、安全性、可靠性、可扩展性方面具备全面的优势,极大地降低企业使用和运维成本。

3.1.1 Zero-ETL

支持 PolarDB/RDS 多数据源汇聚到 ADB-PG 构建企业级数仓的零感集成。用户无需单独配置数据集成工具在 ADB-PG 控制台即可轻松开启 TP 到 AP 的全量/增量数据集成,全量数据初始化集成性能大幅提升。

3.1.2 实时计算

支持流式数据高吞吐写入,提供增量实时物化视图实现流表、离线表多表关联和实时Ad-hoc查询。同一个引擎即可同时满足流和批两类任务,通过资源隔离实现混合负载,帮助企业构建轻量级实时数仓。

3.1.3 安全增强

  • 支持 TLS 1.1/1.2/1.3。
  • 支持云盘加密。
  • 支持非对称和对称加密如 SM4。
  • 支持行级和列级权限管控。
  • 引擎级支持动态数据脱敏。
  • 支持SQL审计和事件审计。

3.1.4 冷热数据分层

ADB PG支持冷热分层存储,可以将数据表存储到OSS中,以降低存储成本。支持数据表整体冷热转换及分区表按分区冷热转换,支持自动的数据TTL(Time to Live,存活时间)。

3.1.5 备份恢复

开源Greenplum提供了基于gpbackup的逻辑备份,同时需要配置定时任务和备份存储介质。ADB-PG提供了基于一致性恢复点的分布式物理备份恢复。通过该功能可以选择指定时间点恢复,或者实例克隆。

3.1.6 跨AZ容灾

7月初即将发布跨 AZ 部署特性,可实现跨AZ级的数据容灾,为企业提供最可靠的数据保障。

3.1.7 弹性扩展

支持对 Master节点、计算节点纵向升降配以及对计算节点横向缩容容。在扩容期间业务可保持读和写服务,同时支持暂停和重启扩缩容避开业务高峰期。

3.1.8 数据湖加速

支持通过外表形式实现对数据湖数据(OSS、MaxCompute)数据进行分析加速。支持通过ODPS FDW 将OSS数据高速集成到 ADB-PG,支持将 MaxCompute 数据高速并行导入到 ADB-PG。

3.2 性能优势

在性能层面,ADB-PG 自研了向量化执行引擎和行列混合存储引擎,实时物化视图结果集缓存,字典加速执行,Dynamic Join Filter等特性。在这些自研性能增强特性加持下,ADB-PG全自研计算引擎与开源 Greenplum 在相同资源下 TPC-H 100GB 性能对比综合提升5倍。

具体性能测试可参考7.0版TPC-H性能测试

3.3 成本优势

  1. AnalyticDB for PostgreSQL 赠送客户8 CU的的Master节点的主备资源。
  2. ADB-PG 与 AMD 新一代 EPYC 服务器深度集成后有 30% 性能提升,在价格不变动的情况下更具性价比,目前在北、上、杭、深区域已默认开启。ADB-PG 会持续实现性能优化,为客户提供更高的性价比。
  3. 对于部署架构,ADB-PG 采用了单个节点上一主一备,进行了资源的部署,保证高可用下的最优性价比部署模式。
  4. 支持多级别的云盘存储,PL0,PL1,PL2,可以按客户性能要求最优性价比选择。
  5. 支持冷热分层, 对于低频使用的数据可以保留大部分数据库使用模式体验下,使用 OSS 存储并进行大幅降本。
  6. 全托管的产品, 所有的运维监控均免费提供,并提供内核诊断及自研高性能引擎,相较于开源同等性能, 可节省 60% 资源使用量。
  7. 支持定时计划,对实例进行启停和变配,实现按需资源调配,对于波峰波谷业务显著用户可进一步节省30%以上成本。

4、Data+AI新范式

2023年自 ChatGPT 发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强) 架构已经成为AI 应用落地最可控、高效、数据的技术方案。

ADB-PG 早在2020年已经开始全自研向量检索引擎,可支撑千亿向量数据,提供高并发低延时的响应。在 AIGC 兴起后是国内首个云厂商中被 OpenAI 和 Langchain 知名LLM社区推荐的向量引擎。

ADB-PG 提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式 RAG 服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。

有别于其他产品,ADB-PG与阿里云百炼钉钉阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot文/图搜图等解决方案供企业直接使用构建 AI 应用。

5、GP一键迁移

若业务希望获得上述优势解决性能、功能及运维痛点,实现Data+AI的架构升级和转型,快迁移到 ADB-PG 吧!以下是迁移方案可帮助您高效、低成本迁移到ADB-PG,开启 Data+AI新范式,详见:自建Greenplum迁移到AnalyticDB PostgreSQL版

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
13天前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
6天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
8天前
|
数据采集 运维 DataWorks
DataWorks on EMR StarRocks,打造标准湖仓新范式
本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。
35 4
|
6天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
7天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
|
15天前
|
数据采集 人工智能 搜索推荐
|
15天前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
82 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版