摘要:随着工业互联网时代的到来,数据库这门已经具有接近五十年历史的学科又绽放出新的生命活力,其中扮演着重要角色的NoSQL数据库也出现了更多的发展趋势。在第十一届中国数据库技术大会(DTCC2020)上,阿里云资深产品专家朱洁为大家介绍了NoSQL数据库业界最新趋势以及阿里云NoSQL技术的创新实践和阿里云NoSQL生态开放实践。
本文内容根据演讲录音以及PPT整理而成。
嘉宾简介:
朱洁(花名:所在),阿里云资深产品专家,目前负责阿里云的RDS和NoSQL数据库产品。
本次分享的内容主要包括以下三个方面:
- NoSQL数据库业界新趋势
- 阿里云NoSQL技术创新实践
- 阿里云NoSQL生态开放实践
NoSQL数据库业界新趋势
数据库发展历程
首先,简单回顾一下数据库的发展历程。其实,数据库是一个具有非常悠久历史的行业。从上世纪五十年代开始数据库技术就开始启蒙,但是一般通用说法是从上世纪70年代关系模型诞生起算,因此数据库的诞生到现在也有接近五十年的历史了,而数据库一直在技术、业务以及应用场景等方面不停地演进和发展。比如上世纪九十年代,针对个人办公、个人娱乐以及企业信息化的场景,基于X86服务器诞生了像SQL Server、PG这些非常著名的数据库。今天所要分享的NoSQL数据库则是在2000年左右随着整个互联网的发展和推动而诞生的。互联网业务的发展催生了非常著名的关系型数据库MySQL,也出现了像MongoDB、Redis这样的NoSQL数据库,其解决的是传统关系型数据库所遇到的一系列性能、成本、可扩展性等问题。最后是2015年左右,随着云计算时代的发展,在数据库领域也出现了一些新的变革,在国际上AWS发展非常强势,在国内,阿里云提供了TP/AP/NoSQL/工具整个体系的云原生数据库产品,典型的如PolarDB和ADB等。
数据库处在投资风口
在计算机技术中,具有超过十年历史的行业就已经是非常非常古老的了,数据库这个行业已经接近五十年的历史,甚至可以用“恐龙”来形容,但是非常有意思的是数据库技术还是非常具有生命力的。上图中简单列举了几个最近国内外数据库领域较大的投融资事件,可以发现数据库行业非但没有日薄西山,而是越来越成为投资风口。国内的达梦、Oceanbase、人大金仓、偶数、PingCAP都具有不错的发展,而在国际上,Snowflake上市并且市值超过了1千亿美元,这代表了数据库业务到了重新焕发新生的地步。
云数据库新赛道实现中国软件行业新突破
对于数据库而言,云计算是其发展的一个重要的新赛道。Gartner做了一个非常乐观的预测,那就是在2022年预计有75%的数据库都在云上,而目前来看这一预测正在逐渐成为现实。而在2020年,阿里云数据库正式进入Gartner魔力四象限中的Leader象限,这不仅仅是阿里云的突破,更是整个中国软件行业在近四十年的历史中第一次进入Leader象限,这是前所未有的。大家都知道,我们国家的软件行业相比欧美发展要相对落后,因为起步较晚,而阿里云数据库能够走到这样的位置,其核心还是依靠云计算这个新赛道,也代表了中国软件行业出现新的突破,这是里程碑式的事件。
硬件快速变迁驱动数据技术发展
另一方面,硬件的快速变迁也在驱动着数据库技术的发展。其实,硬件和软件是相辅相成的,硬件的快速发展推动着软件不断变革自身技术架构,而软件则通过不断更新迭代从而充分地将硬件资源使用起来,从而更好更快地支持业务发展。比如NoSQL数据库做了很多事情去改变其组织模型和数据组织结构,都是为了解决像磁盘、CPU的使用率问题,将硬件资源更高效地组织起来。以前是CPU和磁盘,最近几年在内存方面则有几个非常重要的趋势,首先内存的成本下降非常快;其次单机容量大规模提升,现在基本一台单机服务器达到几百GB甚至1TB成为家常便饭;最后就是非易失内存技术的快速发展。应该说这些趋势不是一个新闻,但是今年发生一个非常大的变化,就是这些技术开始真正实际得到应用和大规模商用,我看了下阿里云持久化存储的内存数据库在中国是首家云服务厂商做到规模商用的。
简单总结一下,硬件的快速变革驱动了整个数据库乃至整个软件产业的发展,近两年业界非常关注内存方面的变化,而不仅仅是CPU和磁盘了,因此可以说“RAM IS THE NEW DISK”已经不再是一个趋势,而是成为了现实。
NoSQL相关数据库概念演进
NoSQL数据库是由于互联网业务的诞生而产生的。最早是在2006年的时候,谷歌引入了BigTable,因此后续出现了HBase、Cassandra、MongoDB和Redis,这些数据库都是由不同的底层数据组织形式去解决不同的问题。在2010年前后,谷歌又引入了以Spanner为代表的新产品,出现了F1、SequoiaDB、TiDB等NewSQL数据库,既使用SQL解决应用性问题,也保留了NoSQL的可扩展性问题。而回到今天,会发现这些概念的争论不在是热点了,像AWS今年aws re:invent大会全面去讲Purpose-build Database,也就是专用数据库,这不是一个坏事情,也就是说今天驱动数据发展的是场景,我们正在进入一个更加创新,具有更多内涵,更具有深度的深水区。今天,阿里云数据库做的比较多的也是将软硬一体化技术、工业物联网技术、AI技术等相关的一系列技术,融合应用在数据库领域,尤其是NoSQL数据库领域。
NoSQL是数据库中最活跃的版块
虽然最近提及“去O”还是比较多的,但是实际上,NoSQL才是整个数据库领域中最活跃的版块。根据Gartner的报告,在2019年全球数据库市场大约是552亿美金,同比增长只有15.2%,而NoSQL同比增长却达到了51.7%,因此NoSQL才是整个数据库领域真正的市场增长引擎。在NoSQL版块中,业务在蓬勃发展,技术也在不断创新和变革。总结而言,对于NoSQL领域的技术人员而言,将遇到一个非常好的历史机遇,NoSQL处在投资风口,硬件变革,新的业务思路叠加的好时代。这对于相关的创业者而言也是非常好的机遇,如果你正在从事NoSQL相关板块的业务,将会有足够多的空间大展拳脚。
阿里云NoSQL技术创新实践
接下来将为大家介绍在NoSQL这个数据库领域最为活跃的版块,阿里云在过去的一年里做了哪些技术创新实践。
创新突破纵深场景
过去的一年中,阿里云在NoSQL领域创新突破的纵深场景主要有四个方面。首先,在软硬件结合方面,阿里云今年发布的Tair云原生内存数据库里面,做了大量软硬件结合的工作;其次,在图+AI一站式智能化平台方面,阿里云在图数据库GDB方面做了很多尝试,在AI方面也做了很多事情;再次,在云原生多模方面,面向未来工业互联网时代,阿里云发布了创新的多模数据库;最后,阿里云看到未来75%的数据库都会在云上,除了原来的创业公司之外,还有很多大公司需要上云,针对于他们的需求,阿里云实现了创新的MyBase新形态数据库,针对于中大型客户,解决了其数据库上云自主可控、灵活专属的核心诉求。总而言之,阿里云希望通过创新突破这些纵深场景,并为客户带来更多的使用价值。
内存数据库的云原生时代
如上图所示的是阿里云的云原生内存数据库Tair的大致架构。Tair是经过阿里巴巴内部长达十多年的锤炼,自研的云原生内存数据库,其主要解决客户的数据实时在线、系统加速以及高频高吞吐处理的诉求。Tair数据库具有几个特点,第一,其完全兼容社区的Redis数据库;第二,其通过扩展内存具有高性能持久存储的能力,包括支持SSD版本,也支持非易失性内存版本;因为Tair数据库位于云上,因此其与云上数据打通是非常方便的,同时能够无缝的搭配云上数据管理工具,帮助客户支持游戏、电商、政务等大型业务。
软硬件结合,扩展新场景
阿里云再非易失性存储上其实有非常长时间的布局,在过去一年中,阿里云所作的非常重要的事情就是让这个内部技术商用化,虽然很多企业也在研究这方面技术,但是实现真正商用,阿里云是国内第一家。阿里云的Tair内存数据库的底层基于神龙裸金属实例和傲腾持久内存,通过这些硬件的特性,使得Tair既具备了内存的低时延又具有SSD的存储容量和成本兼顾的能力。阿里云Tair不仅仅是将软硬件结合起来实现技术上的突破,而且更重要的是将之前利用率不高的场景进行了优化和处理。通过软硬件结合,也成功拓展了一些新的场景,典型的包括计算中间数据对性能要求很高的场景;游戏、直播、数据分析中大数据结果集对外提供查询服务的场景以及高性能实时在线数据访问等场景。通过新的介质以及原有云上数据库的一些关键能力,比如弹性扩容,在做到内存性能差不多的情况下将成本降低了60%以上。
AI算法赋能图计算,实现图分析和推理能力
近年来,AI技术的发展也带动了业界产生非常大的变革。AI与数据库在很多方面都有结合,本次重点介绍在图数据库应用的扩展,其实图数据库在业界已经有很多了,比如比较著名的Neo4j,而所谓原图应用就是指直接通过一种新的数据组织结构去解决原来关系型模型解决不了的问题,比如关联关系快速查询等,研发的重点通常是提升查询性能和导入性能等等,这也是常见的NoSQL数据库的发展趋势,比如MongoDB、Redis和HBase等。而在今年阿里云在此基础之上做了新的探索,希望通过增加AI能力,为客户提供AI算法模型的训练,应用,帮助客户去方便的构建知识图谱。除了提升性能,解决查询问题之外,还能够直接提供知识和算法模型、决策模型,阿里云今年将只支持原图查询这样一个简单的事情扩展到了逻辑分析、推理能力,真正帮客户提供智能化的解决方案,从而更好的解决整体的业务问题。
最佳实践的图数据库,100+成功应用场景
图数据库的能力在阿里巴巴内部得到了非常广泛的应用和验证,比如天猫、高德及盒马等都充分地将图数据库的能力应用起来,并实现了商用,除此之外我们的图数据库也广泛地服务于外部客户,如互联网商、游戏、金融等行业的外部客户,并且积累了超过100个成功场景,应该说图数据库的应用场景和范围变得越来越广。
中国自主知识产权图数据库首次入围
阿里云的图数据库GDB是今年2月份刚商用的,是一个非常年轻的产品,通过AI的结合,成为一个真正能够端到端解决客户问题的非常好的产品,并且很快实现了突破。Q4的时候阿里云图数据库作为中国自主知识产权的图数据库首次入围Forrester Wave,这个成绩作为一个商用不到一年的产品是非常了不起的成绩。
多模数据库理念
接下来分享面向未来工业互联网和IoT的新的云原生多模数据库。重点来介绍下阿里云对阿里云云原生多模数据库的理解以及我们做的创新的能力等等。
首先云原生能力是借助云的能力实现弹性伸缩和按需使用,并且具有开放生态;而多模原生能力则是指具备多个垂直引擎,并在此基础上实现跨模融合和统一访问的能力。通过以上两者的能力结合才组成了云原生多模数据库,阿里云再今年发布了Lindorm这个新的云原生多模数据库,我们希望打造一个基于客户需求场景驱动的数据库,能够简单高效地帮助客户处理业务,并且整体提供了一个开放融合的生态。
Lindorm的多模能力
多模概念已经出现了很长时间了,在DB-Engines上面能看到很多支持多模的数据库,但是彼此之间却存在着非常大的区别,大部分业界的数据库可能只停留在多模第一个阶段或者第二个阶段,可能能够支持多种数据类型,或者具有多个垂直引擎,但是做不到跨模融合的能力。而阿里云Lindorm已经达到了多模的第三阶段,实现了跨模融合,并且正在朝着第四个阶段,也就是统一访问,实现模型引擎联接的阶段而努力。虽然业界的很多数据库都叫多模,但在本质上存在跨代的差别。
云原生多模数据库Lindorm——多模态海量存储能力,物联网首选数据库
IDC预测在2025年,全世界生产的163ZB数据中的70ZB来自于物联网设备,以前讲的数据库的“4个V”指的是互联网数据的,而如今“4个V”则是指的物联网设备的数据,总结而言就是数量越来越大,种类越来越多,种类越来越多,价值越来越重。
以前,互联网数据的价值非常高,因此存储成本可以不考虑,但是如今面对物联网设备所产生的数据,如果还是采用原本的存储方式,将会造成较高的成本,因此需要降低云存储成本,让企业存得起。Lindorm再存储成本这块沉淀了全方位的能力,从存储成本,计算资源的弹性,压缩算法方面,具体有通过云盘+OSS混合存储,配合本地缓冲,保证性能;借助存储与计算分离,按照灵活扩展性以及Serverless的资源管理模式,降低用户的使用门槛,实现云原生的弹性;通过自适应压缩算法与智能冷热温热热度识别,优化存储成本并兼顾访问效率,实现智能化压缩。
此外,在将数据存储下来之后,要有丰富的处理能力才能发挥数据的价值,这个也是Lindorm多模数据的处理关键能力,Lindorm在时序引擎,多种数据模型,数据分析有全面的布局。同时解决物联网数据的复杂性方面,通过支持多种数据类型,具备宽表、时序、搜索以及文件模型的处理能力,并且100%兼容开源访问协议,尤其是在时序场景这块,自研的时序数据引擎实现物联网的时序高吞吐、高压缩、多维聚合等时序处理;除此之外还可以与阿里云内部产品做深度融合,比如DLA深度集成,提供强大的数据分析能力。Lindorm希望能够通过提供高性价比的存储能力,以及未来面向多模数据存储的能力,最终在未来物联网时代使得Lindorm成为首选的数据库。我们重点打造和沉淀面向物联网、大数据存储、交互实时存储以及数据湖存储中心等场景的关键能力。
全面上云之后,还需要专属可控——公共云上打造专有云的体验
Gartner预测,未来75%的数据库都会上云,那么除了创业公司、中小企业之外,接下里最重要的趋势就是会有更多的大中型企业上云。大客户上云和中小客户上云存在巨大的区别,那就是其业务复杂度、数据复杂度、业务灵活性以及开放性的要求是完全不一样的。因此,今年阿里云所作的一件事情就是希望能够融合托管和自建数据库的优势,帮助客户构建云数据库专属集群MyBase,从而充分释放技术红利,让客户灵活使用,并且支持多种数据库。
MyBase具有多种优秀的特点:
第一,专属独占,可以解决全托管服务所有客户混合部署在一起导致的各种冲突、争抢、隔离的问题,单个大客户具备独占的服务器集群,这与传统的模式具有非常大的区别,帮助客户实现物理资源的专属独占,又同时满足了客户想兼顾分配小实例的诉求。
第二,开放的能力,从底层的物理集群到上层的数据库的权限全部开放;完全不同于传统全托管封闭的体系,开放的体系满足中大客户更多自主可控的诉求。
第三,以前云计算厂商提供的服务器集群各种设置和参数往往是不可以调整的,或者是少量可以调整的。在MyBase专属集群里面,给予了客户充分调整的能力,在专属模式中,从底层的物理资源到上层的软件和算法都是专属的,全部开放给客户,可以结合自己的业务进行调节和适配,通过数据库能力和客户业务的结合,进而实现整体的资源最小化和性能最佳。
此外,MyBase集群是和RDS等相同的内核,因此不会降低服务质量,也就是在公共云上打造专有云的服务体验。这也是未来的非常重要的趋势,如今大家都需要上云,那么需要基于公有云的资源池降低成本,但是同时也有安全和自主可控的诉求,因此面对新的问题,也就需要新的方案来解决问题,需要能在公有云上打造专有云一样的体验,阿里云希望给中大客户一个全新的体验。
开放OS权限
在此之中,阿里云MyBase做了很多关键的工作,比如权限的事情,比如开放OS权限并不是那么简单的,如果不保证数据库高可用,其他的事情又有什么价值呢?所以首要保证数据库的高可用又能做到深度开放背后是多年的实践和关键技术。
开放这个一小步,对于客户来说却是非常有价值的,通过开放,在保留原来所有的运维工作模式的同时,又充分发挥DBA的价值,让DBA可以继续及时解决数据库的问题。此外,原来业务系统中积累了很多的运维管理系统,如何在云的形态中发挥其原来的作用,这也是非常大的挑战。通过开放的这种能力,可以将业务各个工具很好的集成进来。此外,不同的系统里面,灵活性也有了,可以针对实例级别设置资源弹性策略等独立能力。所以通过开放的能力,一举解决了中大客户对自主可控和开放灵活的诉求,这在整个业界的数据库中是比较大的创新,是以前云数据库从来没有的模式,全球都是首家。
释放阿里云数据库技术红利——敏捷、开放、低TCO
除了开放之外,技术上阿里云将自己内部使用各种技术进行了输出。典型的有超配的能力, 数据库混部的能力,单个集群里面小实例管理的能力,实例灵活在线迁移的能力开放给大家,让客户享受阿里云的成熟管理能力和服务。客户的业务和服务商所提供的能力非常有效的结合才能充分享受技术红利,达到敏捷、开放和低TCO。
在今年阿里云集团数据库上云也全面采用MyBase的形态,阿里集团的各种电商、支付等等业务应该是再中国最大的数据库使用者,MyBase这种灵活专属,自主可控是阿里集团数据库上云的最佳实践,成功经受住了双十一场景的严苛考验。
自动驾驶专属资源池
另外我们观察到,除了灵活专属、自主可控之外,还会有更多的企业希望能够实现数据库的自动驾驶,就像是特斯拉一样。在大部分场景下,简单重复的工作,可以通过数据库的自动驾驶能力释放数据库管理的负担。真正在复杂场景里面,以及需要和业务紧密贴合的场景,自动驾驶技术确实无法处理的时候,又可以让人工灵活地介入项目。
当前在DBA常见重复性工作,如主机、实例以及磁盘等自动扩缩容,自动迁移等问题,阿里云MyBase提供了自动驾驶的专属资源池,所做的就是像特斯拉这样,在通用道路场景下解决自动驾驶的问题,在特殊场景下又可以通过人工灵活地调整。
阿里云NoSQL生态开放实践
未来75%数据库都会上云,云数据库为什么能够替代传统数据库,除了不断向新的场景中提供新的能力和通过创新带来新的价值之外,非常核心的一点就是在云所能够提供的生态的能力。阿里云在践行云的生态方面持一个非常开放的态度,我们一直希望通过与业界最优秀的厂商合作共同努力一起服务好客户。
阿里云独家支持MongoDB新版本
在去年的10月份阿里云和MongoDB官方达成了深度的合作,阿里云是目前唯一能够提供MongoDB新版本的云厂商。简单回顾下MongoDB的版本发展,在4.0版本中支持事务,并向传统RDS市场渗透;在4.2版本中,支持了分布式事务,并向NewSQL转型;在4.4版本中,则由用户驱动实现全面提升,而且其中的一些feature由阿里巴巴和MongoDB官方一起深度合作、联合开发,而MongoDB的最新版本只能在阿里云上进行独家提供。
物联网、工业网联网全场景覆盖
阿里云除了和类似MongoDB这种数据库厂商的合作之外,还深入到具体的行业中提供一站式解决方案。在工业互联网这部分,面对产生的New Data,阿里云与国内外的厂商一起打造了各种场景解决方案,比如工业生产线IT和OT融合监控中的OSIsoft+Intel、智能楼宇的Honeywell等,提供全场景的方案,这些解决方案已经成功形成能力,并且落地在电力、钢铁等等非常大的行业,做到真正让数据存得起,看得见。我们希望越来越多的优秀的厂商和我们一起合作共赢。
阿里云NoSQL数据库的创新和开放
阿里云NoSQL数据库在近一年来的创新和开放可以大致总结为以上五个方面,即非易失性存储的软硬件结合、AI技术赋能图数据库、面向工业互联网的多模场景、面向中大客户自主可控的新形态和开放共赢面向new data的生态。
阿里云NoSQL的核心理念就是创新和开放,我们通过持续创新产品能力,去拓展纵深场景,创新产品形态,解决客户关键的问题;同时我们希望更多的合作伙伴和我们一起共建生态,合作共赢,来共同打造解决方案来使能客户。
相关阅读
DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路
https://developer.aliyun.com/article/781040
【内含干货PPT下载】DTCC 2020 | 阿里云叶正盛:数据库2025
https://developer.aliyun.com/article/780725
【内含干货PPT下载】DTCC 2020 | 阿里云赵殿奎:PolarDB的Oracle平滑迁移之路
https://developer.aliyun.com/article/780749
【内含干货PPT下载】DTCC 2020 | 阿里云王涛:阿里巴巴电商数据库上云实践
https://developer.aliyun.com/article/781001
【内含干货PPT下载】DTCC 2020 | 阿里云张鑫:阿里云云原生异地多活解决方案
https://developer.aliyun.com/article/781031
DTCC 2020 | 阿里云梁高中:DAS之基于Workload的全局自动优化实践
https://developer.aliyun.com/article/781036
【内含干货PPT下载】DTCC 2020 | 阿里云程实:云原生时代的数据库管理
https://developer.aliyun.com/article/780992
【内含干货PPT下载】DTCC 2020 | 阿里云吉剑南:在线分析进入Fast Data时代的关键技术解读
https://developer.aliyun.com/article/780747