摘要:数据库从上世纪五十年代发展至今,随着基础设施的改变,其技术也在不断演进。数据库市场也从原本商业化巨头形成的垄断地位逐渐变为云厂商处于领导地位,而未来在云上,数据库将会是兵家必争之地。与此同时,云原生技术、数据库自动驾驶技术以及数据库和大数据技术的融合使得数据库的未来更加充满生机。在DTCC 2020大会上,阿里云数据库产品管理与运营部总经理叶正盛为大家分享他对于“数据库2025”的展望。
本文内容根据演讲录音以及PPT整理而成。
演讲嘉宾介绍:
叶正盛(花名:斗佛),阿里云数据库产品管理与运营部总经理,目前担任阿里云数据库产品总规划师,主要负责阿里云数据库的产品规划和产品运营相关的工作。之前从事软件研发工作十余年,2010年开始加入阿里做“去IOE”、异地多活和云计算方面的工作,2020年带领团队冲进了Gartner全球数据库领导者象限。
数据库发展历程
在介绍数据库2025的规划之前,首先回顾一下数据库的发展历程。数据库的发展离不开计算机基础设施的发展,因此可以将数据库的发展分为五个阶段。
- 第一阶段:上世纪五十年代的大型机时代。在这个时代,大型机可能不到100台,基本上用在科学研究和国防等领域,当时主要是层次和网状数据库,比较典型的产品是IBM的IMS,IMS已经很少能够见到,在一些金融领域还有应用。
- 第二阶段:上世纪七八十年代,此时小型机已经开始普及。不仅是在国防和科学研究,更多的是在商业领域,包括银行这样的系统开始应用小型机。与此同时,关系型数据库开始诞生,出现了包括DB2、Oracle以及Ingres等之名关系型数据库。
- 第三阶段:上世纪九十年代,此时PC机、X86以及局域网等基础设施已经非常健全,IT应用范围已经扩展到企业全面的信息化,关系型数据库开始蓬勃发展,出现了数据仓库以及单机数据库,比如SQL Server、dBase等数据库。
- 第四阶段:到了2000年,开始进入互联网时代。大家也都有非常深刻的体会,无论是搜索、社交还是电商等都有非常广泛的应用,此时像MySQL、PG、Redis、MongoDB等开源数据库也得到了非常广泛的应用。
- 第五阶段:今天是数据库的“云+端”时代。无论是新媒体、移动应用、云计算以及物联网等,包括今年新冠疫情导致在线教育、在线办公都飞速发展,其实都代表着一个新的时代的开始。在这个阶段,云数据库起到了非常大的作用。比较典型的云数据库产品就是AWS的RDS和Redshift以及阿里云的PolarDB和ADB等。
DB-Engines数据统计
截止到2020年12月,在DB-Engines上目前一共有363种数据库。按照数据库模型来看,传统的关系型数据库和非关系型数据库占比为3:1,可以看出,关系型数据库依旧是主流。而按照商业和开源数据库的角度来看,两者依旧是平分天下。在商业数据库领域,具有代表性的数据库有Oracle、SQL Server等;而在开源数据库领域,具有代表性的数据库有MySQL和PG等。
数据库-兵家必争之地
为什么大家都来做数据库呢?AWS认为数据库是未来的兵家必争之地,因此一直以来对于数据库非常重视,每年的AWS re: Invent 上都有很多关于数据库的重磅专题发布。一般而言,在IaaS层,也就是对于服务器、网络和存储这一层面,大家都有比较统一的认识,今天很多企业其实已经建设的差不多了。而更上层的就是智能化应用,大家也正在逐渐形成统一的认识,那就是未来的应用一定是向着智能化发展。从IaaS到智能化应用需要经历一定的环节,而在这个环节中,数据库将会起到非常关键的作用,包括数据的产生、存储、消费和分析,这些都是数据库要去解决的问题。因此,我们可以看到无论是国际巨头还是国内厂商都在数据库里面投入了大量的资源。
迎接新数据时代
前面的部分主要是进行回顾,接下来对数据库的未来进行畅想。如今我们正在迎接新的数据时代,上图中展示的数据来自IDC的报告,IDC统计预测,去年全球有45ZB数据,而到了2025年数据量将会达到175ZB。而作为新数据代表的物联网,去年大约具有4.4ZB数据,而在2025年将会达到90ZB,也就是说仅物联网将会占据未来一半的数据量。此外,数据将会存储在什么地方呢?根据IDC的报告,去年全球大约有20%的数据存储在公共云上,而到2025年大约会有46%的数据存储在公共云,与此同时,还会有大量数据存储在私有云上。基本上就是说到2025年,大约80%至90%的数据将会存储在云上。
另一个方面,新数据会从哪些地方产生呢?以前数据基本上都是由PC、手机、平板电脑产生的,而在未来,汽车、视频、智能设备以及工业互联网都是新数据产生的典型场景,而且这些场景下数据产生的速度将会迅速提升。产生的数据大致分为两类:一类就是结构化的数据,这里的结构化数据不仅包括了关系型数据库中存储的关系数据,也包括了JSON、XML等之前大家称为半结构化的数据,这样的划分是因为这些数据在今天使用数据库的多模能力进行处理已经非常简单了,不像十年前那么复杂,因此这类的数据统称为结构化数据。另一类是非结构化的数据,包括了如今无处不在的产生日志、文本、图片、语音、视频和文件等,这些都是非结构化数据的代表。图片怎么结构化计算,视频、语音等如何转化为向量的多维数据来帮助分析或机器学习,都需要进行结构化的数据处理。今天的数据中台所考虑的就是如何将数据的价值最大化,同时会结合AI相关的技术来做智能计算,这正是新数据时代的样子。面对越来越多的数据量,如何处理结构化和非结构化的数据,存在非常多的技术挑战和商业挑战。
云是数据库最重要的发展方向
云是数据库最重要的发展方向,这也是Gartner的分析师给出的一个结论。其实Gartner分析师看得非常远,早在2018年就预测2022年全球75%的数据都会存在云上。从上图中也可以看出,使用云数据库的体量其实在逐年增长,2018年是22.75%,2019年是34.68%,2022年预测是75%。
Gartner基本上每年都会发布魔力象限,所有的数据库厂商都会非常关注魔力象限。可以看到,2013年数据库魔力象限的领导者象限中主要包括Oracle、微软、IBM和SAP,这几个巨头几乎处于无敌的位置,所有的NoSQL厂商以及大数据厂商都在普通玩家的象限。而到2020年,领导者象限发生了很大的变化,最强的领导者已经变为了AWS,其次是微软、谷歌、阿里云,这四家都是云计算厂商,这也印证了Gartner所认为的云才是未来。无论是从市场份额,还是技术引领方面以及营销方面,这些云厂商所提供的数据库都具有优秀的表现,所以才归入领导者象限内。而其他小厂商如果不和云结合,便很难在魔力象限中获得一席之地。能够进入魔力象限就已经是非常不错的厂商了,如果能够进入领导者象限,那就代表了Gartner认为这些厂商正在引领未来。
云原生数据库快速崛起
上图的统计数据来自于DB-Engines,可以看到无论是Oracle还是DB2,他们的曲线相对而言比较平滑,其增长是非常缓慢的,而与之形成鲜明对比的是:云原生数据库领域发展得非常快。右图是亚马逊AWS、微软Azure、谷歌云以及阿里云的自研云原生数据库全部统计数据,可以发现云原生数据发展非常快。无论是从技术上还是生产上,云原生数据库代表着一种新的生产力。
数据库支持多云部署是最重要的战略方向
数据库支持多云部署是最重要的战略方向。无论是谁来做数据库,如果不和云结合,市场拓展会非常难。数据库厂商有了很多的积累,如何打开未来数据库的市场,让自己的产品服务到更多的用户,充分利用好云为我们提供的基础设施是最重要的。现在全球的几个比较著名的新兴数据库厂商,比如Atlas(MongoDB)、SkySQL(MariaDB)、Redis企业云等都提供了多云部署架构,而今年比较火的Snowflake提供了完全的云原生部署,其不像是MySQL那样可以下载,而只能运行在云上面,这是因为Snowflake认为云原生就是未来的发展方向,所以没有必要再走其它的弯路。总体结论就是数据库是支持多云部署最重要的战略方向,无论是初创产品还是开源的成熟生态,云一定是数据库的未来。
数据库大数据技术一体化
数据库、数据仓库和大数据这几个概念往往交织在一起,如今的一个观点是数据库和大数据技术朝着一体化发展。Gartner在报告中已经将OLAP和OLTP以及大数据合并在一起了,这是因为他们在之前评估OLAP和OLTP以及大数据的魔力象限时会发现各个厂商都在拿同样的产品出来,因此可以看出各个厂商的产品都在向融合化的方向发展。而对于用户而言,也不想要了解清楚各个技术概念,其所关心的是业务价值。总而言之,数据库和大数据技术正在朝着一体化的方向发展。
进一步来分析为什么会这样呢?2003年到2006年可以认为是大数据的诞生期,谷歌的三大论文发表对于业界产生了巨大的影响力,但是值得注意的一点是谷歌所提出的技术重点是解决分布式扩展问题,不一定应用在数据库上面。2006年到2014年是大数据的探索期,一些NoSQL数据库比如HBase、Cassandra的早期版本在这个时期出现。此外,SQL的接口模型也逐渐成熟,之前大家认为MapReduce比较通用,但是经过实战之后发现SQL的接口更加友好。与此同时,也开始出现了一些开源的分布式文件系统,如HDFS和Ceph等。2014年之后,技术发展趋势变得有意思了,数据库和大数据的技术开始融合,出现了像NewSQL这样的分布式数据库,比如Spanner、TiDB以及Cassandra后续版本等已经将分布式的BigTable理念与数据库的理念结合在一起了,这是在BigTable路线上的变化。在编程模型部分,以前部分产品将SQL当做外置的接口增强,而如今的很多产品将SQL当做自身原生的能力,就像是数据库一样,将SQL当做自己的内核,还有部分产品将存储过程当做自己的内核。而对于分布式文件系统部分,可以发现,云厂商在这部分做的非常好,无论是AWS的S3还是阿里云的OSS与云盘,他们天然就是分布式存储。虽然分布式存储的技术挑战非常大,但是云厂商把这些问题基本上解决了,所以很多企业开始基于云厂商基础设施的能力构建分布式的数据计算能力,这也导致了大数据技术、数据仓库以及数据库逐渐走向融合。以前大家认为数据仓库扩展性不好,所以出现了大数据技术,但是今天分布式基础设施的能力已经变得非常强了,所以无论是数据库还是数据仓库,其扩展性都变得越来越好,足以处理PB级别的数据。另外一面,大数据产品开始将SQL能力全部融合进来,甚至将事务ACID等特性集成进去,这使得大数据技术和数据库技术两个领域快速融合,因此未来所需要考虑的事情是如何朝着这个趋势演进,提供更多更优秀的产品。
数据库自动驾驶能力持续增强
我在最开始的时候对于自动驾驶也持怀疑态度,但是随着这项技术越来越成熟并且逐渐被大家开始广泛使用,对于自动驾驶的认识也有所改变。数据库的自动驾驶和汽车的自动驾驶还是不太一样的,数据库做自动驾驶更容易一些。2016年时,阿里巴巴数据库的自动驾驶平台叫做CloudDBA,这个产品所需要解决的核心问题就是整个阿里巴巴集团的数据库自动化运维的问题。当时阿里巴巴集团的数据库实例非常多,大约有几十万个,面对如此之多的数据库实例,仅依靠DBA人工运维很难保障。
因此当时阿里巴巴做了CloudDBA产品,其集成了很多自动驾驶的概念,最终希望能够让数据库不需要通过人工干预,就能够对于出现的问题进行自动优化、修复,甚至在容量不足的时候进行自动扩容,在双11的时候能够实现智能压测,而且面对黑客攻击或者大促意外产生的SQL高峰也能够实现自动限流。到2018年的时候,这套产品就开始在阿里云上进行输出,叫做数据库自治服务DAS。在今年的时候,数据库自治服务DAS开始商业化,虽然一开始对于商业化并没有特别大的期待,但是不到一年的时间,阿里云上就已经有2000多家企业开启了数据库自治服务。这也反映出了客户的一种诉求,那就是希望数据库能够实现自动驾驶。虽然很多用户并不清楚数据库自治服务背后的原理,但是却开启了这项服务,这是因为很多中小企业自身并没有DBA,自己也不想去做SQL优化,当看到数据库自治服务的产品介绍,比如SQL峰值自动限流、CPU自动扩容等特性,发现这些就是客户自身所需要的。因此,从市场需求来看,数据库自动驾驶这样服务是需要的。从技术角度来看,其实也不是非常困难,DBA专家经验加上机器学习技术就可以实现这件事情。目前,阿里巴巴的数据库自治服务已经实现了“半自动”,虽然还没有能够达到理想情况下的客户无需任何管理的情况,但是这个方向会持续增强,最终实现数据库全自动驾驶。
总结
最后总结一下,如今我们正在迎接新的数据时代,因此需要做好准备。虽然今天我们的系统更多的跑在关系型数据库和数据仓库等,但是随着物联网、工业互联网这些领域的爆发,如何去迎接新的数据时代是一个非常有意思的话题。其次,在新的数据时代,云原生数据库和数据仓库将会全面普及。云原生概念在2020年已经非常流行了,而且云计算作为基础设施已经得到了一致的认可,而云原生代表着云计算里面最为核心的技术。再次,数据库将默认开启自动驾驶,这一点在技术上而言已经不再有瓶颈存在,未来将会在各个领域进行突破。最后,各种国产数据库百花齐放,并且应用到各行各业,很多核心系统都开始切换到国产数据库,如PolarDB、TiDB、达梦等等,国产数据库必将全面崛起。
点击这里下载本场演讲PPT
相关阅读
DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路
https://developer.aliyun.com/article/781040
【内含干货PPT下载】DTCC 2020 | 阿里云赵殿奎:PolarDB的Oracle平滑迁移之路
https://developer.aliyun.com/article/780749
【内含干货PPT下载】DTCC 2020 | 阿里云朱洁:NoSQL最新技术发展趋势
https://developer.aliyun.com/article/780746
【内含干货PPT下载】DTCC 2020 | 阿里云王涛:阿里巴巴电商数据库上云实践
https://developer.aliyun.com/article/781001
【内含干货PPT下载】DTCC 2020 | 阿里云张鑫:阿里云云原生异地多活解决方案
https://developer.aliyun.com/article/781031
DTCC 2020 | 阿里云梁高中:DAS之基于Workload的全局自动优化实践
https://developer.aliyun.com/article/781036
【内含干货PPT下载】DTCC 2020 | 阿里云程实:云原生时代的数据库管理
https://developer.aliyun.com/article/780992
【内含干货PPT下载】DTCC 2020 | 阿里云吉剑南:在线分析进入Fast Data时代的关键技术解读
https://developer.aliyun.com/article/780747