达摩院数据库存储实验室自 2018 年成立以来,一直致力于面向云时代构建原生的数据库管理系统,希望通过技术创新为企业客户带来更高质量、更高价值的数据库管理服务,最终让企业客户数据能够无缝、安全、智能、自由流动。
目前,达摩院数据库与存储实验室主要聚焦于全域多模、安全可信、智能自治、混合负载几个研究方向。同时,我们也将研究成果真实落地到了阿里云各个数据库产品之中,为企业客户带来全新的体验。
一、全域多模
近年来,位置智能技术发展非常迅速,主要运用于自动驾驶、智能物流、增强现实等场景之中。相信未来,这些面向全空间的位置服务将会深入融入到我们工作生活的方方面面。面向全空间场景,需要管理的数据类型越来越多,数据规模也越来越大。因此,如何更好地管理数据、存储数据便成为了的更大挑战。
达摩院打造了孪生全空间数据管理引擎Ganos,将全空间数据管理能力融入到云原生数据库管理层中,在业界首个推出了融合了空天地、室内外、地上下多模态数据的混合存储、查询与分析计算服务。
上图列出了Ganos的十大功能引擎,比如处理车辆行驶数据会使用到轨迹引擎,处理建筑模型数据会用到表面网格引擎。不同引擎组合在一起解决了现实生活中非常复杂的模型表达与数据操作问题,也实现了全空间数据在数据库内部的超融合处理。
Ganos发布了全新5.0版本,支持了视算一体化3D全空间数据处理,主要包含三个核心能力的突破。
第一,基于表面网格、三维实景与体网格构建了3D全空间模型,使得城市全域传输的复杂场景得以在Ganos中进行表达。
第二,在数据库内支持了全空间计算能力,比如拓扑关系计算、交并差集计算,使得全空间的复杂计算相比于传统中间件的方式提升了50到100倍。
第三,支持了全空间扩展存储,可以将部分数据存储于成本更低的OSS空间,使得库内数据容量降低50%。
除了功能升级,Ganos也与阿里云数据可视化平台DataV进行了深度融合,推出了联合解决方案 —— 全空间可计算孪生系统。相比于传统的数字与孪生系统有了全面升级,包括全空间、可计算、真孪生。真孪生指使用实体模型取代传统的静态切片,使得数据真正能够动起来,能够实时进行计算与分析。
二、安全可信
近年来,企业数字化进程不断加快,数据已经成为企业的重要资产。同时,《数据安全法》、《个人信息保护法》纷纷出台,国家对数据安全的重视度越来越高。
在如此严峻的形势下,企业如何在允许数据在不同系统与组织之间流通使用的同时,还能保障数据资产的安全,成为了现在数据库管理系统面临的巨大挑战。
达摩院打造了下一代数据库安全可信体系,在业界首个提出向全生命周期数据密态管理”理念,通过创新技术更好地保障企业数据资产的机密性、真实性与隐私性。
数据库安全可信体系包括以下几项核心能力:
第一,全链路敏感数据保护。能够让业务敏感数据,比如客户个人信息在进入整个应用链路最初即进行加密,在后续任何子系统中都看不到数据明文,只有授权的角色方能看到动态脱敏后的数据。
第二,全密态数据库。密文数据进入数据库以后无需解密,可直接在密文上进行数据查询、分析与计算,实现企业数据资产的“可用不可见”。
第三,防篡改能力。对真实性要求很高的数据,比如存证数据、合约数据等,可通过防篡改能力验证数据真实性,并且追溯任何对数据的操作和修改历史。
第四,隐私计算引擎。企业可以将自己的数据资产与第三方数据资产进行跨组织融合分析,在不泄露任何一方数据隐私的前提下,利用数据进行联合计算,实现企业资产的“共用不共享”。
全链路敏感数据保护以及全密态数据库的研究成果已经发表在今年的数据库顶会VLDB 2022上;防篡改数据能力也是首批通过信通院防篡改测评的产品;隐私计算目前已覆盖所有常用计算功能。
依托于阿里云数据库DMS平台,我们将创新安全能力以及数据库经典的安全能力统一管理,为用户提供了覆盖数据全生命周期的安全防护与隐私保护体系。
我们的产品通过了各项安全资质的认证。同时,我们也在积极与各个权威机构协作,推行各个行业的数据安全标准,密切关注数据与安全行业的发展。
三、智能自治
近年数据库技术与人工智能技术不断碰撞,催生了两种新技术,其一是 AI for DB,用AI的能力更好地提升数据库使用体验;其二,DB for AI,通过DB能力更好地挖掘数据蕴含的价值。
达摩院在 AI for DB方向打造了国内领先的数据自治技术,也促成了行业标准,是首批通过信通院数据库系统智能化标准的厂商之一。通过自动分析一系列的可观测数据,可以自动地执行数据库运维和系统调优任务,将客户从复杂的运维工作中解放出来,将更多精力聚焦在业务本身。我们的时序分析算法,在数据库内提供了原生的时序算子,在相同准确率的情况下,性能优于竞品1000倍以上,且使用非常方便。
DB for AI方面,我们在数据内提供原生的AI能力,能够将数据与AI算法统一进行管理,相比于传统的将数据导出到外部的方式更简单、更高效。基于内置的AI算法也提供了比如数据库知识咨询、实体关系识别、ID Mapping、NL2SQL等各种AI解决方案。其中,NL2SQL技术在耶鲁大学Spider测评中准确度全球第一,执行速度10倍于竞品。我们也在公开数据集上进行了测试,超过80%的测试任务效果会优于其他方案。
根据预测,2023年到2025年,全球将有75%的数据库实例运行在云上,大规模的云上实例更加速了数据库自治的需求。我们打造的 AI for DB能力已经服务于超过70万阿里云数据库实例。
DB for AI方面,达摩院联合PolarDB,发布了首款数据库原生的AI服务Polar4AI,可以在PolarDB内直接搭建AI应用,比如可一键搭建数据库知识咨询、风险控制、金融服务、搜索推荐等。同时内置了MLOps,使用户能够通过声明式SQL的方式方便地管理AI任务,也可以帮助用户将自然语言的任务需求自动转化为数据库的执行SQL。
目前,Polar4AI能力在很多复杂场景之下已经达到商业要求,因此阿里云数据库已经采用了该技术,帮助用户更高效、更快捷地管理数据资产。
四、系统内核
分布式一致性协议通常需要通过Paxos/Raft协议保证不同节点之间对整个数据库的运行状态达成共识。传统方式下,一般要求数据操作必须严格按照顺序存储。而达摩院创新采取了分布式乱序存储的方式,规避了顺序存储带来的性能瓶颈。相同规格下,吞吐可提升7倍。
分布式数据管理要保障原子性,则需要引入分布式事务处理机制。传统的2PC机制在高吞吐、高并发、高冲突的情况下,很容易出现性能瓶颈。而达摩院对该场景进行了优化,避免写操作被回退,大幅降低了性能瓶颈出现的概率,吞吐提升30%到100%。
近年来,HTAP 数据库的架构演进迅速,经过达摩院探索发现,基于共享存储与in-memory列存的架构方案相比传统方案,在弹性伸缩方面存在明显优势。该方案在内存上采取了行列转存设计,使得AP节点构造时的效率大幅提升。
数据库算子硬件化方面,通过利用可编程交换机(硬件 SNA),将数据库操作比如一致性协议、缓存、负载均衡等能力下推到网络层,减少DB层、OS层的计算任务,实现了降本增效。
五、学术影响力
实验室在潜心研究的同时,也持续不断地在数据库学术领域发声。今年,实验室联合阿里数据库产品团队在数据库三大顶会共发表论文16篇。值得一提的是,VLDB 2022 Industrial Track全球共收录22篇,其中阿里云数据库5篇,也证明了达摩院的研究实力与学术影响力。
未来,达摩院数据库实验室会一如既往地继续探索数据库领域的技术前沿,与阿里云数据产品服务一起相互促进,为企业源源不断地提供技术能力,提升数据价值,为大家带来更好地数据库体验。