Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,8核32GB 100GB 1个月
简介: 知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

作者:庞博

1、概述

知名开源 MPP 数据库 Greenplum(下文简称GP)由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,原有 branch、tag、pr、issue等信息全部清空,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版(下文简称ADB-PG)完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越。AnalyticDB PostgreSQL 版在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。

2、与GP兼容性

2.1 语法兼容

  • 支持 GP 所有复杂数据类型和函数计算。
  • 支持 CaseWhen、NullIf、Coalesce等在内的常用16种表达式计算。
  • 支持 HeapTable、Aocs Table、Beam Table的Scan,包含Seqscan和Index Scan。
  • 支持 GroupAgg/HashAgg/PlainAgg,及Agg所有特性,包含AggFilter、GroupingSets、RollUp/Cude等。
  • 支持 HashJoin/NestLoopJoin,完整支持Left/Right/Full/Inner/Anti/Semi/Not-exist-in七种Join规则。
  • 支持 Sort所有场景,包含FullSort/TopNSort。
  • Agg/Join/Sort均支持落盘功能。
  • Window计算。
  • Insert/Update/Delete功能支持。
  • 支持自定义函数和PROCEDURE。

2.2 生态兼容

1、社区工具兼容

  • 数据集成:Talend、Kettle、DSG等。
  • 数据开发:Navicat、DBeaver等。
  • 作业调度:Informatica、Azkaban 等。
  • BI分析:支持 Superset、Zeppelin、Grafana、FineBI、PowerBI、Tableau、Cognos、SmartBI等。

2、阿里工具兼容

  • 数据集成:DTS、DataX、Flink 等。
  • 数据开发与调度:DMS、Dataworks、DataQ、Dataphin 等。
  • BI分析:支持 QuickBI、DataV 等。

3、较比GP的优势

3.1 功能优势

ADB-PG 通过自研企业级特性提升了产品易用性,相比GP在数据链路、实时性、安全性、可靠性、可扩展性方面具备全面的优势,极大地降低企业使用和运维成本。

3.1.1 Zero-ETL

支持 PolarDB/RDS 多数据源汇聚到 ADB-PG 构建企业级数仓的零感集成。用户无需单独配置数据集成工具在 ADB-PG 控制台即可轻松开启 TP 到 AP 的全量/增量数据集成,全量数据初始化集成性能大幅提升。

3.1.2 实时计算

支持流式数据高吞吐写入,提供增量实时物化视图实现流表、离线表多表关联和实时Ad-hoc查询。同一个引擎即可同时满足流和批两类任务,通过资源隔离实现混合负载,帮助企业构建轻量级实时数仓。

3.1.3 安全增强

  • 支持 TLS 1.1/1.2/1.3。
  • 支持云盘加密。
  • 支持非对称和对称加密如 SM4。
  • 支持行级和列级权限管控。
  • 引擎级支持动态数据脱敏。
  • 支持SQL审计和事件审计。

3.1.4 冷热数据分层

ADB PG支持冷热分层存储,可以将数据表存储到OSS中,以降低存储成本。支持数据表整体冷热转换及分区表按分区冷热转换,支持自动的数据TTL(Time to Live,存活时间)。

3.1.5 备份恢复

开源Greenplum提供了基于gpbackup的逻辑备份,同时需要配置定时任务和备份存储介质。ADB-PG提供了基于一致性恢复点的分布式物理备份恢复。通过该功能可以选择指定时间点恢复,或者实例克隆。

3.1.6 跨AZ容灾

7月初即将发布跨 AZ 部署特性,可实现跨AZ级的数据容灾,为企业提供最可靠的数据保障。

3.1.7 弹性扩展

支持对 Master节点、计算节点纵向升降配以及对计算节点横向缩容容。在扩容期间业务可保持读和写服务,同时支持暂停和重启扩缩容避开业务高峰期。

3.1.8 数据湖加速

支持通过外表形式实现对数据湖数据(OSS、MaxCompute)数据进行分析加速。支持通过ODPS FDW 将OSS数据高速集成到 ADB-PG,支持将 MaxCompute 数据高速并行导入到 ADB-PG。

3.2 性能优势

在性能层面,ADB-PG 自研了向量化执行引擎和行列混合存储引擎,实时物化视图结果集缓存,字典加速执行,Dynamic Join Filter等特性。在这些自研性能增强特性加持下,ADB-PG全自研计算引擎与开源 Greenplum 在相同资源下 TPC-H 100GB 性能对比综合提升5倍。

具体性能测试可参考7.0版TPC-H性能测试

3.3 成本优势

  1. AnalyticDB for PostgreSQL 赠送客户8 CU的的Master节点的主备资源。
  2. ADB-PG 与 AMD 新一代 EPYC 服务器深度集成后有 30% 性能提升,在价格不变动的情况下更具性价比,目前在北、上、杭、深区域已默认开启。ADB-PG 会持续实现性能优化,为客户提供更高的性价比。
  3. 对于部署架构,ADB-PG 采用了单个节点上一主一备,进行了资源的部署,保证高可用下的最优性价比部署模式。
  4. 支持多级别的云盘存储,PL0,PL1,PL2,可以按客户性能要求最优性价比选择。
  5. 支持冷热分层, 对于低频使用的数据可以保留大部分数据库使用模式体验下,使用 OSS 存储并进行大幅降本。
  6. 全托管的产品, 所有的运维监控均免费提供,并提供内核诊断及自研高性能引擎,相较于开源同等性能, 可节省 60% 资源使用量。
  7. 支持定时计划,对实例进行启停和变配,实现按需资源调配,对于波峰波谷业务显著用户可进一步节省30%以上成本。

4、Data+AI新范式

2023年自 ChatGPT 发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强) 架构已经成为AI 应用落地最可控、高效、数据的技术方案。

ADB-PG 早在2020年已经开始全自研向量检索引擎,可支撑千亿向量数据,提供高并发低延时的响应。在 AIGC 兴起后是国内首个云厂商中被 OpenAI 和 Langchain 知名LLM社区推荐的向量引擎。

ADB-PG 提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式 RAG 服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。

有别于其他产品,ADB-PG与阿里云百炼钉钉阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot文/图搜图等解决方案供企业直接使用构建 AI 应用。

5、GP一键迁移

若业务希望获得上述优势解决性能、功能及运维痛点,实现Data+AI的架构升级和转型,快迁移到 ADB-PG 吧!以下是迁移方案可帮助您高效、低成本迁移到ADB-PG,开启 Data+AI新范式,详见:自建Greenplum迁移到AnalyticDB PostgreSQL版

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
16天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。
|
1月前
|
人工智能 自然语言处理 IDE
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(2)
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
1月前
|
人工智能 运维 Devops
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(3)
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
1月前
|
人工智能 搜索推荐 测试技术
《AIGC+软件开发新范式》--05.阿里云首个 AI 员工入职,围观开发工程师使用反馈
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
261 1
|
2月前
|
存储 人工智能 API
[译][AI OpenAI-doc] 迁移指南 Beta
我们已经改变了助手 API 在 beta 的 v1 版本和 v2 版本之间工具和文件的工作方式。今天,通过 API,两个 beta 版本仍然可以访问,但我们建议尽快迁移到我们 API 的最新版本。我们将在 2024 年底之前废弃 beta 的 v1 版本。
[译][AI OpenAI-doc] 迁移指南 Beta
|
2月前
|
存储 SQL 数据可视化
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
EMR StarRocks 线上公开课第1期 ,直播主题:EMR Serverless StarRocks3.x,极速统一的湖仓新范式。
967 1
|
1月前
|
人工智能 搜索推荐 Devops
《AIGC+软件开发新范式》--03.微调工程师岗位可能并不存在, 但使用 AI 编码工具已经成为刚需(2)
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
1月前
|
人工智能 前端开发 JavaScript
《AIGC+软件开发新范式》--04.我们团队来了一位新同事, 主动要求帮忙敲代码!欢迎 AI 001 号
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
1月前
|
人工智能 程序员 开发工具
《AIGC+软件开发新范式》--06.“AI 程序员入职系列”第二弹:如何利用通义灵码光速改写项目编程语言?
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
2月前
|
人工智能 IDE Devops
通义灵码技术解析,打造 AI 原生开发新范式
本文第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
72085 7

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版