媒体声音 | DTCC对话阿里云王远:瑶池数据库如何实现技术与需求的“双向奔赴”?

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 本文根据DTCC 2023大会现场采访整理


受访嘉宾:阿里云数据库产品管理与技术架构部负责人、PolarDB开源社区技术委员会主席 王远


采访人:IT168企业级 & ITPUB执行总编 老鱼


*本文根据DTCC 2023大会现场采访整理


DTCC惊玄采访视频.png

微信扫码直达完整采访视频



老鱼:请简单介绍一下您目前在阿里云瑶池数据库团队负责的工作。

王远:我是来自阿里云瑶池数据库产品管理与技术架构部的王远,目前主要负责以下四个部分的工作:数据库产品规划与管理;开源PolarDB;一站式数据管理与服务;迁移上云的数据解决方案。我们希望通过技术创新与持续深耕,推动云数据库被越来越多的用户接受。


老鱼:您演讲中提到了全球数据库市场规模,数据库作为全球企业软件市场第一大类占比14%,而中国市场只占到全球732亿市场中的5.8%,也就是43亿美元,当前国内数据库厂商多达200多家。请问,您认为43亿美元是中国市场应有的水平吗?中国数据库市场规模应该有多大,是否有增长空间,能否支撑起 200多家国产数据库厂商?

王远:首先需要明确,演讲中的数据出自Gartner官方报告,作为数据库从业者,我个人认为,它相对低估了中国的数据库市场。我可以简单分享下我的推算逻辑,这些都来自于公开数据。


以集团近期公布的财报来看,阿里云在第一季度总体营收250亿左右,怎么去估算数据库在其中占多少或者说未来有多少潜力呢?其实在业界有一个“交叉率”的概念。数据库并不是独立存在的产品,如果要用数据库,就一定要搭配服务器、中间件等,所以数据库在信息系统中占比是相对稳定的。根据行业不同,它的占比基本上在8%到30%之间,那么我们取一个中值,假设取18%或者20%,再保守一点,可以取10%。


同时,IDC、Gartner都发过中国公有云市场调研报告,市场公开数据显示阿里云规模占比是第一,达到了44%,我们可以通过这些数据估计一下整个国内公有云数据库的规模,我觉得估下来至少200亿人民币,还不包括线下。因为中国市场相对来讲有些特殊,有大量线下的IDC诉求,但线下具体有多少量是没有准确统计的。


那么关于这个比例,在业界也有一个不成文的方法,一般来讲,保守派会估1:5,乐观派会估到1:10,也就是线上1、线下10。我认为按照公有云200亿左右的体量,按照1:5是千亿规模的,按照1:10是两千亿规模,远远大于Gartner的43亿美金市场规模。以上是我个人的估算逻辑。当然,仁者见仁,智者见智,每个人都有自己的估算逻辑,大家都是根据公开数据来推测的。


第二,这个市场体量能否养活那么多数据库公司,这是另外一个问题。在现阶段我也认同很多业内朋友的观点,当前数据库市场太卷了。本质上讲,现在数据库厂商过多,最后可能会大浪淘沙,通过技术、商业的角逐,存活下来一批真正的头部精英,共享中国数据库市场的蛋糕。


老鱼:很多企业,尤其是大企业在选择供应商时特别看重其技术兜底的能力,即有问题可以迅速解决。这是不是意味着数据库只能大厂玩?信通院报告显示当前数据库公司绝大多数是研发团队低于50人的小厂。这种规模的团队,它的内核掌控能力或者技术兜底能力有多深,似乎是不太让人信任的。但国外的数据库创业公司,比如Snowflake,也活的很好。所以国产数据库真的只能大厂玩吗?

王远:我觉得要分两个阶段来看。如果没有开源,数据库只能大厂玩,这是毋庸置疑的。然而真正的开源改变了这些东西,但开源不意味着没有门槛。数据库是非常经典的技术,很多东西非常复杂,需要多年的深耕。


一名合格的数据库内核开发人员,没有三到五年的经验,不敢说自己对内核有深度的掌控和理解。这就看出,数据库初创企业门槛非常高。你要做得好,一定是要有长期的积累和沉淀。所以,像您说的一样,数据库企业的研发人员数量,一定是很重要的能力参考指标之一。


第二,在软件行业流行一句话:一个优秀的程序员可以顶上一百个普通程序员,其实这句话在数据库行业更适用。真正的数据库领导者或者是领导能力,永远都是头部一小部分人来决定的,这一小部分人代表着智力的结晶。所以,我觉得看初创企业,还要看这个数据库团队的领军人物在业界是什么样的水平。


第三,我觉得对于数据库初创企业来讲,很重要的一点是生态,这个生态不仅仅是开源生态,开源只是其中一方面。那为什么要提生态呢?数据库是用出来的软件,写软件一定会有BUG,这是不可避免的,人一定会犯错。


一款稳定、优秀的数据库,一定有大量的业务场景去打磨和磨合,只有在跟业务深度结合、使用者越来越多时,数据库才会越来越好、越来越稳定。所以看一家初创企业,其实要看它背后有没有自我运营生态的能力。而很多互联网大厂有这个能力,大厂是内部用完以后再上云,是第一个吃自己产品螃蟹的人,对于数据库这种基础产品,这有利于在创新性和稳定性上找到平衡点,也是非常具有优势的。


老鱼:阿里云数据库品牌升级为阿里云瑶池数据库,在名字变化的基础上,阿里云数据库产品线布局和愿景有何变化?在构建远景的时候,团队重点关注哪些方面?

王远:“瑶池”反映了我们对数据库领域发展的思考,在技术、产品、甚至是工程领域趋势的思考。大家的共识是:不存在一款数据库可以包打天下。你会发现市面上有那么多数据库,OLTP、OLAP、NoSQL、文档、大宽表,这些数据库虽然能够满足垂直化应用场景,可以解决核心问题,但共性问题是学习曲线特别高,用户开发起来特别困难,运维代价高,逐渐脱离了普通人群的圈子。


数据作为很重要的资产,存在于数据库之内,为了让数据发挥出作用和价值,我们必须要让更多的用户用好数据库,不管TA本身技术水平如何。


我觉得技术不应成为人们享受数据价值的门槛,我们应该做到数据和技术的普惠化,这是我们追求的愿景。所以我们提出了一站式、一体化的理念,你可以把我们看成一个数据库——瑶池数据库,你可以像使用一款数据库一样来使用我们各种各样的产品,所有复杂的技术问题,我们都帮助你解决掉了,这是我们要追求的愿景之一。


第二,瑶池在古代是宝玉、宝藏集结的地方。数据是放在数据库里面的宝藏,我们希望阿里云数据库是企业数据价值产生之地,这也是选择“瑶池”作为品牌名称的原因。


品牌升级之后,阿里云数据库的研发理念没有发生变化,我们始终沿着云原生的理念在做深、做透,但是在不同的阶段,对于云原生的具体诠释会发生变化。最早期的云原生,我们要做到计算和存储分离,做到独立的弹性,这是云计算所带来的技术优势。


进入云原生2.0以后,一方面是计算存储分离,我们在这个垂直方向做深做透;另一方面,我们希望做到计算和内存分离,要把资源的管控力度做的更细、更稳、更精。


横向的话,我们希望为用户带来一体化的体验,比如说以前用户做事务操作要连OLTP数据库、做分析操作要连OLAP数据库,未来这些都不需要,用户只用连接瑶池数据库,瑶池会帮助你决定数据应该存在哪里,应该用什么样的计算资源。基于这些理念,我们现阶段会沿着四大方向演进:云原生化、一体化、平台化、智能化。其中,智能化是希望把大模型、AI和数据库技术进行深度融合。


老鱼:瑶池数据库在AI领域有哪些重点技术布局和应用探索?瑶池数据库在当下热门的大模型、向量数据库、多模处理、自然语言数据分析方面有哪些独特之处?

王远:从去年年底到今年上半年,大模型给向量数据库带来了第二春。为什么是第二春,而不是创造了向量数据库?因为向量数据库或者向量引擎是很早之前就有的经典技术,对于向量的存储和查询需求也是一直都有的。


长久以来,制约向量数据库或者向量引擎广泛应用的瓶颈,不在于向量怎么存、怎么算,而在于向量怎么生成,是否有通用的方法能够把数据里面的特征提取出来、将其向量化?这才是难点。


其实,向量数据库之前也曾经流行过,只是大家不知道,他在部分垂直领域应用。比如:电商领域,以图搜图、寻找相似的商品,这背后用到的技术就有向量检索。但是大模型提供了一种通用的提取特征和向量的方法,让大家看到了曙光:向量数据库不再是阳春白雪,普通大众也能使用。


我们认为向量应该是一种能力,任何一款数据库都应该具备向量能力。数据库原来是存结构化数据,随着技术发展,现在的数据库可以存储结构化、半结构化、非结构化的数据。数据的种类越多,每一类数据都要提特征,都要有向量能力。这也是我们一直在追求的,PolarDB,AnalyticDB、Lindorm、RDS,几乎所有的阿里云数据库引擎都会有向量能力,目前已做到40%-50%的瑶池数据库产品具备向量能力。


第二,AI技术和数据库的结合,我们已经做了4-5年。除了产品研发,达摩院实验室也在做这项工作。我们的AI技术和数据主要体现在两个方面:一个是数据库自治,我们叫AI for DB,它是通过一系列机器学习算法或AI算法让数据库能够自动稳定的运行,即自观测、自运维、自优化、自修复,让数据库拥有自治能力,简称“数据库的自动驾驶”。


另一方面的结合是DB for AI,我们会集成向量引擎,提供向量能力。另外,我们也会和大模型进行深度结合,比如Lindorm,我们会结合ModelScope魔搭社区模型,能够自动实现模型的导入、训练、推理等。比如PolarDB,可以集成AI组件,能够通过自然语言生成SQL,这样普通人可以直接用自然语言检索数据,我们在未来也会坚持在该方向进行长期的探索和深耕。


大模型的出现,可能会改变人和机器的交互方式,它真的能够降低数据库的使用门槛,让越来越多的人享受到数据库带来的好处。


老鱼:AI技术在阿里云的用户端有哪些应用案例?

王远:数据库自治已在阿里集团内部全部推广,它的本质是解放DBA,这样一位阿里集团的DBA,能够托管几千甚至上万个数据库实例,能够极大地提升DBA在集团内部的工作效率。


这一点在云上客户里也有大量的应用,包括数据库优化,特别是一些互联网性质比较强的客户,像游戏客户、电商客户,突然遇到流量洪峰的时候做一些诊断和扩缩容,全部依赖数据库自治技术。整个阿里云上的客户,大概有15万数据库的企业级客户,但我们的运维人员很少,因为我们全部能够做到自动化和智能化,这已经是云上的标配组件了。


老鱼:对于传统行业客户,AI技术除了帮助其减轻运维负担之外,还有哪些作用?

王远:我们的自治技术已经非常成熟了,这属于内核技术。关于外延的部分,比如DB for AI,其实是在不断探索数据库的边界。目前我能提供几个标准:一个是NL2SQL转化测试集,我们在去年年底测试中拿到了全球第一。无论是从准确率、计算速度,还是模型大小方面来讲。我们的模型大小只有第二名的1/7,但是速度是第二名的十倍,准确率是第一。我认为当前不太能达到工业级标准,因为准确率70%多,这部分还需要借助现在的提示工程不断进行优化和探索,这是我们一直在做的。


除了NL2SQL,未来我们想做NL2BI。其实NL2SQL不是目的,帮助用户查数据、做数据洞察才是最终目的。所以我们会往前再走一步,做NL2BI,通过自然语言直接生成报表,这一点目前还在探索阶段。


我们已在与集团内部客户合作,他们会做用户分析、商品分析,生成报表,初步考虑未来会对部分小商家开放,这样能够让更多人享受到技术红利。整体来说,这一点目前还在起步阶段,暂不具备规模化能力。如果感兴趣的客户,我们可以一起来探讨。这和企业的领域知识、内部知识强相关,我们必须根据企业的内部知识和领域知识,帮助客户打磨和量身定制,做提示工程(prompt engineering),这是需要不断探索的一种模式。


老鱼:PolarDB是瑶池数据库三大核心产品之一。您作为PolarDB的技术委员会主席,在PolarDB关键技术中,您认为最具创新和颠覆性的技术是什么?这些创新为用户带来什么好处?另外,PolarDB目前到底有几个版本?

王远:PolarDB就是一个产品,他有三个版本,一个是PolarDB for MySQL,兼容MySQL生态,一个是PolarDB for PG,兼容PG生态。


另一个是分布式版本,PolarDB for Xscale,简称PolarDB-X。为什么会有这个版本呢?其实PolarDB for MySQL、PolarDB for PG在架构上都是一主多从,但对于一些超大规模的应用,需要多主多写、线性扩展、高并发等,这就需要分布式版本应对这种场景。PolarDB三个版本,可以满足不同的用户需求。


至于颠覆性的技术,我们一直都是需求驱动、用户驱动。前面提到,数据库是用出来的软件。我们一直非常关注PolarDB的企业级能力,PolarDB所有的核心能力都是围绕用户实际需求展开研发的,我个人认为最重要有几个点:


第一,三层解耦,这可以保证我们资源更灵活,帮助用户真正实现降本增效;

第二,一体化HTAP。可以降低用户的使用门槛和学习曲线,提升用户体验;同时,可以最大限度地减少数据搬迁,提高数据使用效率和资源利用率。

第三,Serverless,同样真正帮助用户实现降本增效。成本是用户现在非常关心的问题,我们的Serverless能够做到:用户不用数据库的时候成本基本是0,用户只用为TA所使用的存储和计算资源付费,不用、不存、不算的时候一分钱不花。

第四,软硬协同,高压缩比。对于云上数据库来讲,加解密、压缩和解压缩是很重要的需求,我们通过软硬结合的方式来解决这个问题。

第五,分布式,即集中分布一体化。比如PolarDB for MySQL向PolarDB for Xscale过渡,或者RDS向PolarDB for Xscale过渡,我们都能做到透明、一键从集中式变成分布式。为什么做这个呢?我们希望用户享受分布式可扩展能力的同时,不对现有应用、以及现有的技术体系、运维体系、工程管理体系产生过多的影响,这样才能更好地为用户提供顺滑的使用体验。

第六,AI技术, 比如NL2SQL、数据库自治服务,已作为核心能力内置到PolarDB中。


以上是PolarDB坚持的研发方向。


老鱼:PolarDB已经走过六年历程,目前在市场上表现如何?有哪些里程碑式的亮点?

王远:我个人认为PolarDB的六年,每一年都是亮点。


PolarDB在2017年首次公测,从2017年到2018年,PolarDB实现了800%的增长,这是历史上阿里云数据库增速最快的一款产品。


2019年,PolarDB已做到营收过亿。从第三年开始(2020年-2022年),连续三年的增速都超过了50%,甚至80%。截至目前,我们已经有6000+个云上客户,这还不算线下客户。

规模化是云数据库永恒追求的目标,我们希望更多用户、合作伙伴、开发者一起参与进来,做大市场规模,包括PolarDB开源、瑶池数据库峰会也是为了促成这个目标。我也提前打个广告,我们会在今年下半年举办PolarDB开发者大会,也希望通过这次大会,让PolarDB生态、规模再上一个台阶。


老鱼:作为PolarDB开源社区技术委员会主席,您认为开源在数据库的领域作用是什么?阿里云对待开源到底是什么样的态度?

王远:从技术人员角度来讲,我觉得开源真的是一件让人很兴奋的事情。正是因为有了开源,所以在现阶段,才让我们在很大程度上摆脱了对商业软件、闭源软件的依赖,才会有我们中国数据库如此蓬勃发展的现状。


开源在数据库的领域作用,我主要想表达两个观点:第一,数据库是一个很精深的软件,数据库开源这么多年,也只有MySQL和PG两大流派。其实阿里也开源了自己的MySQL分支,叫AliSQL,另外,我们每年会在PG、Redis等开源社区贡献一定的代码,包括Redis 7.0我们贡献了大量代码,这是现有的对于开源软件的贡献。


第二,为什么我们要做PolarDB开源?我个人认为PolarDB开源跟其他的开源数据库不太一样,其他的开源数据库都是先开源,产品不成熟,但先开源,让更多的人参与进来,然后共同去打造这个产品,最终来实现规模化和市场化。


PolarDB在商业上已经成功了,它的规模其实非常大,不需要再通过开源这种方式去打造,这是一款真正成熟的云产品做开源。我们现在开源的模式是什么呢?所有开发的新功能都先在云上跑,在内部先跑三个月或者半年,然后才会涉及到部分有强需求的云上客户,再然后才会全网发布,最后确定功能稳定了,我们会再把新功能合到开源分支。我们没有两套代码,没有所谓的PolarDB开源版或者PolarDB云上版,我们就是百分之百云上开源。


为什么要做这件事情呢?一方面从技术人的角度来讲,他们有技术情结,我们觉得启于开源,要反哺开源,要推动整个行业往前走,这是对所有从业者都有利的事情。


另一方面,从数据库未来的角度出发。MySQL和PG把数据库的门槛设的非常高,其实入门级能力不是门槛,大家达到60分很简单,努努力到80分也不是特别难,难的是如何从80分做到95分,这是比较难的。


最后15分的压力,除了要靠产品力、研发能力、内核掌控能力来突破,还是回到老话题——生态建设。我们希望通过开源吸引更多有兴趣的人加入,摆脱大家对闭源产品、商业产品的疑虑和不信任:我开源了,我的产品每一行代码都对你开放,你可以随时来看。包括我们选择的开源协议,都是非常开放、约束力最小的那种,方便所有人来共同使用我们的产品。我相信未来,至少PolarDB会坚持走开源这个方向,让越来越多的从业者参与进来。


老鱼:业内公认阿里云在数据库技术上的领先和积累,那么阿里云在未来要如何保持在数据库领域的领先和创新速度?

王远:这是一个好问题,这也是我们每年会和技术团队一起去思考的事情。要常年保持领先是很难的事情,我觉得有几件事必须去做:


第一,更开放,多沟通,多交流。我们要跟顶尖的高校、研究所,到顶尖的学术会议去交流,因为他们代表了整个数据库未来的发展方向。 


第二,需要看看友商在做什么。其实某种意义上来讲,友商既是竞争,更是合作。没有对手这个行业就完了,我们觉得友商之间,应该是互相合作,互相取长补短。


第三,数据库要有需求驱动。数据库不是屠龙刀,也不是屠龙技。你搞出一个特别高精尖的技术,却没有人用,我认为这不是核心。产业一定是需求驱动的,我们要去多关心我们的行业、用户到底需要什么样的能力。我觉得一款好的数据库、一家好的数据库厂商一定要有自己的核心行业,这几个核心行业是你的需求输入,是你的安身立命之本。


第四,视野要更宽。从狭义的数据库技术来看,你永远都是在研究软件、研究算法。其实当今数据库技术,软件优化、算法优化都很难,要进一步也很难。


但是硬件和基础设施的发展,其实可以让你的软件优化起到事半功倍的效果,这也是为什么PolarDB坚持要与云深度结合、要做软硬件协同创新的原因。


我们现在除了存储计算设备,还有一些GPU、FPGA新型计算装置,或者和云存储,OSS对象存储都有深度的合作和融合。


第五,人才培养。千万不要觉得你的用户low,向你学习的人low,其实他们会给你很多有益的输入。我认为做好这五点,技术领先力才能够持续比较长的时间。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
19天前
|
数据库 索引
深入探索数据库索引技术:回表与索引下推解析
【10月更文挑战第15天】在数据库查询优化的领域中,回表和索引下推是两个核心概念,它们对于提高查询性能至关重要。本文将详细解释这两个术语,并探讨它们在数据库操作中的作用和影响。
42 3
|
19天前
|
数据库 索引
深入理解数据库索引技术:回表与索引下推详解
【10月更文挑战第23天】 在数据库查询性能优化中,索引的使用是提升查询效率的关键。然而,并非所有的索引都能直接加速查询。本文将深入探讨两个重要的数据库索引技术:回表和索引下推,解释它们的概念、工作原理以及对性能的影响。
36 3
|
25天前
|
存储 NoSQL 关系型数据库
数据库技术深度解析:从基础到进阶
【10月更文挑战第17天】数据库技术深度解析:从基础到进阶
55 0
|
18天前
|
负载均衡 网络协议 数据库
选择适合自己的数据库多实例负载均衡技术
【10月更文挑战第23天】选择适合自己的数据库多实例负载均衡技术需要全面考虑多种因素。通过深入的分析和评估,结合自身的实际情况,能够做出明智的决策,为数据库系统的高效运行提供有力保障。
103 61
|
16天前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
30 3
|
18天前
|
缓存 负载均衡 监控
数据库多实例的负载均衡技术深入
【10月更文挑战第23天】数据库多实例负载均衡技术是确保数据库系统高效运行的重要手段。通过合理选择负载均衡策略、实时监控实例状态、不断优化调整,能够实现资源的最优分配和系统性能的提升。在实际应用中,需要根据具体情况灵活运用各种负载均衡技术,并结合其他相关技术,以满足不断变化的业务需求。
|
18天前
|
Java 数据库连接 数据库
优化之路:Java连接池技术助力数据库性能飞跃
在Java应用开发中,数据库操作常成为性能瓶颈。频繁的数据库连接建立和断开增加了系统开销,导致性能下降。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接,显著减少连接开销,提升系统性能。文章详细介绍了连接池的优势、选择标准、使用方法及优化策略,帮助开发者实现数据库性能的飞跃。
25 4
|
16天前
|
Java 数据库连接 数据库
深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能
在Java应用开发中,数据库操作常成为性能瓶颈。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能。文章介绍了连接池的优势、选择和使用方法,以及优化配置的技巧。
16 1
|
18天前
|
SQL Java 数据库连接
打破瓶颈:利用Java连接池技术提升数据库访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,避免了频繁的连接建立和断开,显著提升了数据库访问效率。常见的连接池库包括HikariCP、C3P0和DBCP,它们提供了丰富的配置选项和强大的功能,帮助优化应用性能。
37 2
|
21天前
|
存储 SQL NoSQL
数据库技术深度探索:从关系型到NoSQL的演变
【10月更文挑战第21天】数据库技术深度探索:从关系型到NoSQL的演变
29 1