Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

作者:庞博

1、概述

知名开源 MPP 数据库 Greenplum(下文简称GP)由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,原有 branch、tag、pr、issue等信息全部清空,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版(下文简称ADB-PG)完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越。AnalyticDB PostgreSQL 版在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

2、与GP兼容性

2.1 语法兼容

  • 支持 GP 所有复杂数据类型和函数计算。
  • 支持 CaseWhen、NullIf、Coalesce等在内的常用16种表达式计算。
  • 支持 HeapTable、Aocs Table、Beam Table的Scan,包含Seqscan和Index Scan。
  • 支持 GroupAgg/HashAgg/PlainAgg,及Agg所有特性,包含AggFilter、GroupingSets、RollUp/Cude等。
  • 支持 HashJoin/NestLoopJoin,完整支持Left/Right/Full/Inner/Anti/Semi/Not-exist-in七种Join规则。
  • 支持 Sort所有场景,包含FullSort/TopNSort。
  • Agg/Join/Sort均支持落盘功能。
  • Window计算。
  • Insert/Update/Delete功能支持。
  • 支持自定义函数和PROCEDURE。

2.2 生态兼容

1、社区工具兼容

  • 数据集成:Talend、Kettle、DSG等。
  • 数据开发:Navicat、DBeaver等。
  • 作业调度:Informatica、Azkaban 等。
  • BI分析:支持 Superset、Zeppelin、Grafana、FineBI、PowerBI、Tableau、Cognos、SmartBI等。

2、阿里工具兼容

  • 数据集成:DTS、DataX、Flink 等。
  • 数据开发与调度:DMS、Dataworks、DataQ、Dataphin 等。
  • BI分析:支持 QuickBI、DataV 等。

3、较比GP的优势

3.1 功能优势

ADB-PG 通过自研企业级特性提升了产品易用性,相比GP在数据链路、实时性、安全性、可靠性、可扩展性方面具备全面的优势,极大地降低企业使用和运维成本。

3.1.1 Zero-ETL

支持 PolarDB/RDS 多数据源汇聚到 ADB-PG 构建企业级数仓的零感集成。用户无需单独配置数据集成工具在 ADB-PG 控制台即可轻松开启 TP 到 AP 的全量/增量数据集成,全量数据初始化集成性能大幅提升。

3.1.2 实时计算

支持流式数据高吞吐写入,提供增量实时物化视图实现流表、离线表多表关联和实时Ad-hoc查询。同一个引擎即可同时满足流和批两类任务,通过资源隔离实现混合负载,帮助企业构建轻量级实时数仓。

3.1.3 安全增强

  • 支持 TLS 1.1/1.2/1.3。
  • 支持云盘加密。
  • 支持非对称和对称加密如 SM4。
  • 支持行级和列级权限管控。
  • 引擎级支持动态数据脱敏。
  • 支持SQL审计和事件审计。

3.1.4 冷热数据分层

ADB PG支持冷热分层存储,可以将数据表存储到OSS中,以降低存储成本。支持数据表整体冷热转换及分区表按分区冷热转换,支持自动的数据TTL(Time to Live,存活时间)。

3.1.5 备份恢复

开源Greenplum提供了基于gpbackup的逻辑备份,同时需要配置定时任务和备份存储介质。ADB-PG提供了基于一致性恢复点的分布式物理备份恢复。通过该功能可以选择指定时间点恢复,或者实例克隆。

3.1.6 跨AZ容灾

7月初即将发布跨 AZ 部署特性,可实现跨AZ级的数据容灾,为企业提供最可靠的数据保障。

3.1.7 弹性扩展

支持对 Master节点、计算节点纵向升降配以及对计算节点横向缩容容。在扩容期间业务可保持读和写服务,同时支持暂停和重启扩缩容避开业务高峰期。

3.1.8 数据湖加速

支持通过外表形式实现对数据湖数据(OSS、MaxCompute)数据进行分析加速。支持通过ODPS FDW 将OSS数据高速集成到 ADB-PG,支持将 MaxCompute 数据高速并行导入到 ADB-PG。

3.2 性能优势

在性能层面,ADB-PG 自研了向量化执行引擎和行列混合存储引擎,实时物化视图结果集缓存,字典加速执行,Dynamic Join Filter等特性。在这些自研性能增强特性加持下,ADB-PG全自研计算引擎与开源 Greenplum 在相同资源下 TPC-H 100GB 性能对比综合提升5倍。

具体性能测试可参考7.0版TPC-H性能测试

3.3 成本优势

  1. AnalyticDB for PostgreSQL 赠送客户8 CU的的Master节点的主备资源。
  2. ADB-PG 与 AMD 新一代 EPYC 服务器深度集成后有 30% 性能提升,在价格不变动的情况下更具性价比,目前在北、上、杭、深区域已默认开启。ADB-PG 会持续实现性能优化,为客户提供更高的性价比。
  3. 对于部署架构,ADB-PG 采用了单个节点上一主一备,进行了资源的部署,保证高可用下的最优性价比部署模式。
  4. 支持多级别的云盘存储,PL0,PL1,PL2,可以按客户性能要求最优性价比选择。
  5. 支持冷热分层, 对于低频使用的数据可以保留大部分数据库使用模式体验下,使用 OSS 存储并进行大幅降本。
  6. 全托管的产品, 所有的运维监控均免费提供,并提供内核诊断及自研高性能引擎,相较于开源同等性能, 可节省 60% 资源使用量。
  7. 支持定时计划,对实例进行启停和变配,实现按需资源调配,对于波峰波谷业务显著用户可进一步节省30%以上成本。

4、Data+AI新范式

2023年自 ChatGPT 发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强) 架构已经成为AI 应用落地最可控、高效、数据的技术方案。

ADB-PG 早在2020年已经开始全自研向量检索引擎,可支撑千亿向量数据,提供高并发低延时的响应。在 AIGC 兴起后是国内首个云厂商中被 OpenAI 和 Langchain 知名LLM社区推荐的向量引擎。

ADB-PG 提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式 RAG 服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。

有别于其他产品,ADB-PG与阿里云百炼钉钉阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot文/图搜图等解决方案供企业直接使用构建 AI 应用。

5、GP一键迁移

若业务希望获得上述优势解决性能、功能及运维痛点,实现Data+AI的架构升级和转型,快迁移到 ADB-PG 吧!以下是迁移方案可帮助您高效、低成本迁移到ADB-PG,开启 Data+AI新范式,详见:自建Greenplum迁移到AnalyticDB PostgreSQL版

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
6天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
23天前
|
存储 人工智能 自然语言处理
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
本篇文章针对B站在运营场景中的痛点,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,赋能平台用户和运营人员提升自助取数和分析能力,提高价值交付效率的同时为数据平台减负。
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
|
3天前
|
人工智能 关系型数据库 OLAP
通义百炼融合AnalyticDB,10分钟创建网站AI助手
本文介绍了如何在百炼平台上创建和配置AI助手,使其能够准确回答公司产品的相关问题。主要步骤包括:开通管理控制台、创建应用并部署示例网站、配置知识库、上传产品介绍数据、创建AnalyticDB PostgreSQL实例、导入知识文件、启用知识检索增强功能,并最终测试AI助手的回答效果。通过这些步骤,AI助手可以从提供通用信息转变为精准回答特定产品问题。实操完成后,还可以释放实例以节省费用。
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
|
25天前
|
人工智能 自然语言处理 关系型数据库
客户说|宝宝树选用AnalyticDB RAG引擎,共创智能母婴生活新范式
宝宝树与阿里云深度合作,利用大数据和AI技术,推出了一系列智能化产品,如AI解读B超单、AI起名等,覆盖备孕、孕期、产后等场景,提升了用户体验,推动了商业化进程。通过技术架构的优化,宝宝树在内容生产和搜索精度上取得了显著成效,未来将继续深化“AI+母婴”战略,为用户提供更全面、个性化的服务。
|
1月前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
26天前
|
人工智能 测试技术 Serverless
AI编码,十倍提速,通义灵码引领研发新范式
欢迎参加通义灵码智能开发流程活动,通过在线部署和上传截图,即可获得新年好运日历,限量30个,先到先得!活动时间从即日起至2024年12月13日24:00。快来报名吧!
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
53 10

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 下一篇
    DataWorks