PolarDB要开源了?这个数据库到底强在哪?

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: PolarDB要开源,相关技术情况简介

去年年末中国电子学会正式公布了2020年中国电子学会科学技术奖名单, 阿里云自主研发的云数据库PolarDB,获得科技进步一等奖。

 

pdb1.png

(左四为PolarDB项目的负责人李飞飞)

这不是阿里去第一次获得这样的荣耀,阿里云的飞天操作系统在2018年曾经获得过电子学会科学进步特等奖,也是该奖项设立以来科学进步方面的首个特等奖,这次PolarDB的获奖也说明了阿里云自主技术的实力。

在今年5月29日的阿里云开发者大会上,李飞飞正式宣布将开源PolarDB for PostgreSql,这个决定的宣布也是整个开发者大会上,笔者得到的最大的惊喜之一。

 

PolarDB是阿里云自研的数据库产品家族,采用存储计算分离、软硬一体化设计,既拥有分布式设计的低成本优势,又具有集中式的易用性,可满足大规模应用场景需求。计算能力最高可扩展至1000核以上,存储容量最高可达100TB,集群版单库最多可扩展到16个节点,性能比MySql高6倍。PolarDB系列产品已连续多年稳定支撑天猫双11,处理峰值高达创纪录的1.4亿次/秒。

PolarDB有三个兼容的产品分支,分别对应MySql、PostgreSql和Oracle。我们注意到此次在阿里云开源PolarDB for PostgreSql分布式版本之前,华为OpenGauss计划实际上也是 GaussDB For PostgreSql的版本,此次阿里云的开源也颇有与华为GaussDB同场竞技,通过代码显现自身实力的意味。PolarDB本次开源使用比较开放的Apache Version 2.0协议,代码可以修改和再发布。

自2018年起,阿里云连续三年进入Gartner数据库魔力象限,并在2020年挺进Gartner全球数据库领导者象限,成为基础软件领域首次进入领导者象限的中国企业。目前,阿里云数据库市场份额稳居全球前三,亚太第一。因此本次PolarDB的开源实在令人惊喜,因为开源实际是把自身的核心技术完全开放出来,这也会给竞争对手以一定的借鉴参考甚至超车的机会,只有对自身技术迭代能力极为自信的企业,才会选择将核心技术开源。

据传,最初对于PolarDB是否开源,阿里云内部的讨论十分激烈,为此张建锋和李飞飞甚至拍过桌子,但最终的决定还是开源。在听完了李飞飞在本次开发者大会的分享后,笔者认为PolarDB开源的底气其实在于阿里云对于数据生态链条完整的把控,而通过开源也必然会让阿里云数据库生态体系更加强大。

大有大的难处,数据库的Sql之争

权威咨询机构IDC对于大数据的定义是现有技术难以处理的数据。从历史来看,在谷歌提出大数据三驾马车的论文时,当时的关系型数据库技术就已处于难以处理大规模数据的状态。而在当下各行各业不断上云的大背景下,数据的量级必然还将不断创出新高,从笔者了解到的情况来看,整个IT行业存储的数据量级正在以年化80%左右的速度增长,传统Sql的数据库很难处理这样的数据量。

随着时间的发展现在数据库方面有两大流派,一个是非关系型(NoSql)数据库,这是一种专门用来存储海量数据的Key-Value型数据库,主要用于用户画像、业务报表等海量数据的挖掘工作;另外一个是关系型(Sql)数据库,其针对个别记录增、删、改、查的速度很快,但很少做全表级别的大型关联计算,因此一般用于联机交易场景。简而言之,Sql处理速度快,NoSql处理数据量级高。

之前Sql与NoSql的应用场景两不重叠,井水不犯河水,但像直播带货这样的新场景不断涌现,由于在直播中的交易既要更新商家的库存和买家的帐户余额,又要根据客户行为进行实时分析、精确营销,类似这种综合Sql与NoSql需求的业务场景不断涌现,而以PolarDB为代表的云数据库则是解决这类问题的最佳途径。

以笔者所在的银行为例,目前一般在商业银行都使用Oracle数据库作为核心系统,但Oracle只能处理流程性的交易数据,不能做数据挖掘,要想把数据价值做二次表达,要每天做ETL、跑批作业、存到数据仓库中,然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。

如果还回答不出非线性问题这样更细节更隐含的问题,就要把数据复制到SAS中做机器学习,再做统计的指标体系,以便做进一步的挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。而数据在这种低效的转运迁移过程当中,很多价值也就白白耗散了,同时带来了处理时效和灾备建设这两个巨大的问题。

在处理时效问题上,正如我们前文所说,Sql与NoSql两种产品底层构建模型并不相同,彼此兼容性不佳。这首先就会催生出数据处理的时效性问题,还是以笔者所在的银行为例,分析数据在交易核心数据库中跑批处理,再ODS抽取ETL分析到数仓,再进一步训练流式计算,最后再入湖,整个数据手动的过程至少需要一天。

而且Hadoop和数据湖的开源生态中很多组件并不兼容,日常运维已捉襟见肘,想提速也无从下手,但业务对于转瞬即逝的营销机会又如此渴求,T+1分钟可能都会嫌慢。对于处理时效的要求可能是大数据工程师与产品经理之间永远无法达成的协议。

PDB与ADB的协同之战

从上面的介绍想必大家也能看出来,目前各个数据中心都迫切的找到一个一栈式解决方案,屏蔽底层组件的差别,打造“All Data In One”的解决方案,只有如此才能提高效率,低成本运维。而阿里云的PolarDB为代表的关系型数据库专注于解决Sql的需求,其 提供 的自动参数优化,自动索引推荐等功能,极大的提升了数据库管理员的幸福感,AnalyticalDB则是NoSql数据仓库方面的绝顶高手,这两个产品形成的数据库解决方案体系弥合了Sql与NoSql之间的鸿沟。

以PolarDB为代表的云原生数据库通过存储和计算分离、资源解耦,从而具备更高的弹性和高可用性以及分布式的能力,来满足业务对按需按量使用和按需按量付费的需求。

PolarDB和AnalyticalDB都是一种服务,用户完全可以不关注隐藏在PaaS层之后的具体细节,数据库及数仓之间的数据流动等技术细节被云服务封装起来,对于用户屏蔽了,这也使这一整套解决方案体系综合了NoSql与Sql的优势,用户可以不费吹灰之力的同时拥有一个高效的数据仓库,可谓一举用户在使用数据库中的最大痛点。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
2月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
4月前
|
关系型数据库 数据库 RDS
【瑶池数据库训练营及解决方案本周精选(探索PolarDB,参与RDS迁移、连接训练营)】(5.30-6.8)
本周精选聚焦数据库迁移训练营、快速连接云数据库RDS训练营及智能多模态搜索解决方案。为用户提供模拟教程与实战演练,学习RDS MySQL实例连接与数据管理技能,助力企业智能化发展。每周解锁数据库实战新场景,抓紧时间,精彩不容错过!
|
3月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
2月前
|
关系型数据库 分布式数据库 数据库
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
阿里云PolarDB凭借全球首创基于CXL Switch的分布式内存池技术,在SIGMOD 2025上荣获工业赛道“最佳论文奖”,连续两年蝉联该顶会最高奖项。其创新架构PolarCXLMem打破传统RDMA技术瓶颈,性能提升2.1倍,并已落地应用于内存池化场景,推动大模型推理与多模态存储发展,展现CXL Switch在高速互联中的巨大潜力。
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
|
3月前
|
Cloud Native 关系型数据库 分布式数据库
客户说|知乎基于阿里云PolarDB,实现最大数据库集群云原生升级
近日,知乎最大的风控业务数据库集群,基于阿里云瑶池数据库完成了云原生技术架构的升级。此次升级不仅显著提升了系统的高可用性和性能上限,还大幅降低了底层资源成本。
|
4月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云PolarDB与沃趣科技携手打造一体化数据库解决方案,助推国产数据库生态发展
阿里云瑶池数据库与沃趣科技将继续深化合作,共同推动国产数据库技术的持续创新与广泛应用,为行业生态的繁荣注入更强劲的技术动力。
阿里云PolarDB与沃趣科技携手打造一体化数据库解决方案,助推国产数据库生态发展
|
7月前
|
存储 NoSQL 关系型数据库
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
389 2
|
7月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课15 集成DeepSeek等大模型
本文介绍了如何在PolarDB数据库中接入私有化大模型服务,以实现多种应用场景。实验环境依赖于Docker容器中的loop设备模拟共享存储,具体搭建方法可参考相关系列文章。文中详细描述了部署ollama服务、编译并安装http和openai插件的过程,并通过示例展示了如何使用这些插件调用大模型API进行文本分析和情感分类等任务。此外,还探讨了如何设计表结构及触发器函数自动处理客户反馈数据,以及生成满足需求的SQL查询语句。最后对比了不同模型的回答效果,展示了deepseek-r1模型的优势。
308 3
|
7月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课14 纯享单机版
PolarDB不仅支持基于“共享存储+多计算节点”的集群版,还提供类似开源PostgreSQL的单机版。单机版部署简单,适合大多数应用场景,并可直接使用PostgreSQL生态插件。通过Docker容器、Git克隆代码、编译软件等步骤,即可完成PolarDB单机版的安装与配置。具体操作包括启动容器、进入容器、克隆代码、编译软件、初始化实例、配置参数及启动数据库。此外,还有多个相关教程和视频链接供参考,帮助用户更好地理解和使用PolarDB单机版。
314 1
|
7月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课13 单机版转换为集群版
本文介绍如何将“本地存储实例”转换为“共享存储实例”,依赖于先前搭建的实验环境。主要步骤包括:准备PFS二进制文件、格式化共享盘为pfs文件系统、启动pfsd服务、停库并拷贝数据到pfs内、修改配置文件,最后启动实例。通过这些操作,成功实现了从本地存储到共享存储的转换,并验证了新实例的功能。相关系列文章和视频链接提供了更多背景信息和技术细节。
117 0

热门文章

最新文章