达摩院加持下的数据库技术前沿

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 汪晟 阿里巴巴集团资深技术专家 达摩院数据库与存储实验室系统与安全方向负责人

3549e7f5c3ba49b2b3ff1978be57645f.png

达摩院数据库存储实验室自 2018 成立以来,一直致力于面向云时代构建原生数据库管理系统,希望通过技术创新为企业客户带更高质量、更高价值数据库管理服务最终让企业客户数据能够无缝安全、智能自由流动。

目前,达摩院数据库与存储实验室主要聚焦于全域多模、安全可信、智能自治、混合负载几个研究方向。同时,我们也将研究成果真实落地到了阿里云各个数据库产品之中,为企业客户带来全新的体验。

一、全域多模

近年来,位置智能技术发展非常迅速,主要运用自动驾驶、智能物流、增强现实等场景之中。相信未来,这些面向全空间位置服务将会深入融入到我们工作生活方方面面。面向全空间场景,需要管理数据类型越来越多,数据规模也越来越大。因此,如何更好管理数据存储数据便成为了的更大挑战。

image.png

达摩院打造孪生全空间数据管理引擎Ganos将全空间数据管理能力融入到云原生数据库管理层中在业界首个推出了融合了空天地室内外、地上下多模态数据混合存储查询与分析计算服务

上图列出了Ganos十大功能引擎,比如处理车辆行驶数据会使用到轨迹引擎,处理建筑模型数据会用到表面网格引擎。不同引擎组合在一起解决了现实生活中非常复杂模型表达与数据操作问题,实现了全空间数据在数据库内部的超融合处理。

2b26c757143849e8aeb121f9a7aca0b1.png

Ganos发布了全新5.0版本,支持了算一体化3D全空间数据处理,主要包含三个核心能力突破。

第一,基于表面网格、三维实景与体网格构建了3D全空间模型,使得城市全域传输的复杂场景得以在Ganos中进行表达。

第二,在数据库内支持了全空间计算能力,比如拓扑关系计算计算使得全空间复杂计算相比于传统中间件方式提升了50100倍。

第三,支持了全空间扩展存储,可以将部分数据存储于成本更低OSS空间,使得库内数据容量降低50%

efbb2d22151d4d9d9d0554e2acd515f0.png

除了功能升级Ganos也与阿里云数据可视化平台DataV进行了深度融合,推出了联合解决方案 —— 全空间可计算孪生系统。相比于传统数字与孪生系统有全面升级,包括全空间、可计算孪生真孪生指使用实体模型取代传统静态切片,使得数据真正能够动起,能够实时进行计算与分析。


二、安全可信

近年来,企业数字化进程不断加快,数据已经成为企业重要资产。同时,《数据安全法、《个人信息保护法纷纷出台,国家对数据安全重视度越来越高。

如此严峻形势下,企业如何在允许数据在不同系统与组织之间流通使用同时,还能保障数据资产安全,成为了现在数据库管理系统面临的巨大挑战。

0d79a6dc0f064d10b6772c20afd1ca91.png

达摩院打造下一代数据库安全可信体系,在业界首个提出向生命周期数据密态管理理念,通过创新技术更好地保障企业数据资产的机密性、真实性与隐私性。

ec1cd2ab35854be6ac9342e6a0fc0187.png

数据库安全可信体系包括以下几项核心能力:

第一,全链路敏感数据保护能够让业务敏感数据,比如客户个人信息在进入整个应用链路最初即进行加密,在后续任何子系统中都看不到数据明文,只有授权角色方能看到动态脱敏后的数据。

第二,全密态数据库密文数据进入数据库以后无需解密,可直接在密文上进行数据查询、分析与计算,实现企业数据资产的“可用可见

第三,防篡改能力。对真实性要求很高数据,比如存证数据、合约数据等,可通过防篡改能力验证数据真实性,并且追溯任何对数据操作修改历史。

第四,隐私计算引擎企业可以将自己数据资产与第三方数据资产进行跨组织融合分析,在不泄露任何一方数据隐私前提下,利用数据进行联合计算实现企业资产的“共用不共享

     全链路敏感数据保护以及全密态数据库研究成果已经发表在今年数据库VLDB 2022上;防篡改数据能力也是首批通过信院防篡改测评的产品;隐私计算目前覆盖所有常用计算功能。

依托于阿里云数据库DMS平台,我们将创新安全能力以及数据库经典的安全能力统一管理,为用户提供了覆盖数据全生命周期的安全防护与隐私保护体系。

6aa564de40fa46879826a832e3174547.png

我们的产品通过了各项安全资质认证。同时,我们在积极与各个权威机构协作,推行各个行业数据安全标准,密切关注数据与安全行业发展。


三、智能自治

近年数据库技术与人工智能技术不断碰撞,催生了两技术,其一 AI for DB,用AI能力更好提升数据库使用体验;其二,DB for AI,通过DB能力更好挖掘数据蕴含的价值。

aaaa8d720ca84764b9977e4e53349554.png

     达摩院 AI for DB方向打造了国内领先数据自治技术,也促成了行业标准是首批通过信通院数据库系统智能化标准的厂商一。通过自动分析一系列的可观测数据,可以自动地执行数据库运维和系统调优任务,将客户从复杂的运维工作中解放出来,将更多精力聚焦在业务本身。我们的时序分析算法,在数据库内提供了原生的时序,在相同准确率的情况下,性能优于竞品1000倍以上,且使用非常方便。

DB for AI方面,我们在数据内提供原生AI能力,能够将数据与AI算法统一进行管理相比于传统将数据导出到外部的方式更简单更高效。基于内置AI算法也提供了比如数据库知识咨询、实体关系识别ID MappingNL2SQL等各种AI解决方案。其中,NL2SQL技术在耶鲁大学Spider测评中准确度全球第一,执行速度10倍于竞品。我们也在公开数据集上进行了测试,超过80%测试任务效果会优于其他方案。

7da3d4e7f3d94090adf347a8addcdf94.png

根据预测20232025全球将75%的数据库实例运行在云上,大规模的云上实例更加速了数据库自治的需求。我们打造的 AI for DB能力已经服务于超过70万阿里云数据库实例。

a66bab2c96654710b7daf51572371ae7.png

DB for AI方面,达摩院联合PolarDB,发布了首款数据库原生的AI服务Polar4AI可以在PolarDB内直接搭建AI应用,比如可一键搭建数据库知识咨询风险控制金融服务、搜索推荐等。同时内置MLOps使用户能够通过声明式SQL方式方便管理AI任务,也可以帮助用户将自然语言任务需求自动转化为数据库的执行SQL

目前Polar4AI能力在很多复杂场景之下已经达到商业要求因此阿里云数据库已经采用了技术,帮助用户更高效、更快捷地管理数据资产。


四、系统内核

94993d9ce6b64f7f9d87a9e412bf5e42.png

分布式一致性协议通常需要通过Paxos/Raft协议保证不同节点之间对整个数据库运行状态达成共识。传统方式下,一般要求数据操作必须严格按照顺序存储。而达摩院创新采取了分布式乱序存储方式,规避了顺序存储带来的性能瓶颈。相同规格下,吞吐可提升7

分布式数据管理要保障原子性需要引入分布式事务处理机制。传统2PC机制在高吞吐、高并发高冲突情况下,很容易出现性能瓶颈。达摩院对场景进行优化,避免写操作被回退,大幅降低了性能瓶颈出现的概率,吞吐提升30%到100%

6d40fdfb8aad49718a0ac767aed2404b.png

近年来,HTAP 数据库的架构演进迅速,经过达摩院探索发现基于共享存储与in-memory列存的架构方案相比传统方案,在弹性伸缩方面存在明显优势。该方案在内存上采取了行列转存设计,使得AP节点构造时效率大幅提升。

数据库算子硬件化方面通过利用可编程交换机硬件 SNA),将数据库操作比如一致性协议、缓存、负载均衡等能力下推到网络层,减少DBOS计算任务,实现了降本增效。


五、学术影响力

115714645adf459f8c0f06d7df4c2462.png

实验室在潜心研究同时,也持续不断地在数据库学术领域发。今年实验室联合阿里数据库产品团队在数据库三大顶会共发表论文16。值得一提的是,VLDB 2022 Industrial Track全球共收录22篇,其中阿里云数据库5篇,也证明了达摩院的研究实力与学术影响力。

     未来达摩院数据库实验室会一如既往地继续探索数据库领域技术前沿,与阿里数据产品服务一起相互促进,为企业源源不断提供技术能力,提升数据价值,为大家带来更好地数据库体验。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
相关文章
|
5天前
|
存储 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:单机性能优化篇
阿里云PolarDB云原生数据库在TPC-C基准测试中,以20.55亿tpmC的成绩打破性能与性价比世界纪录。此外,国产轻量版PolarDB已上线,提供更具性价比的选择。
|
5天前
|
存储 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:单机性能优化篇
日前,阿里云PolarDB云原生数据库以超越原记录2.5倍的性能一举登顶TPC-C基准测试排行榜,以每分钟20.55亿笔交易(tpmC)和单位成本0.8元人民币(price/tpmC)的成绩刷新TPC-C性能和性价比双榜的世界纪录。 每一个看似简单的数字背后,都蕴含着无数技术人对数据库性能、性价比和稳定性的极致追求,PolarDB的创新步伐从未止步。「阿里云瑶池数据库」公众号特此推出「PolarDB登顶TPC-C技术揭秘」系列硬核文章,为你讲述“双榜第一”背后的故事,敬请关注!
登顶TPC-C|云原生数据库PolarDB技术揭秘:单机性能优化篇
|
26天前
|
人工智能 Cloud Native 多模数据库
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
|
1月前
|
SQL 存储 关系型数据库
【SQL技术】不同数据库引擎 SQL 优化方案剖析
不同数据库系统(MySQL、PostgreSQL、Doris、Hive)的SQL优化策略。存储引擎特点、SQL执行流程及常见操作(如条件查询、排序、聚合函数)的优化方法。针对各数据库,索引使用、分区裁剪、谓词下推等技术,并提供了具体的SQL示例。通用的SQL调优技巧,如避免使用`COUNT(DISTINCT)`、减少小文件问题、慎重使用`SELECT *`等。通过合理选择和应用这些优化策略,可以显著提升数据库查询性能和系统稳定性。
92 9
|
2月前
|
存储 运维 OLAP
【Meetup回顾 第1期】竟是这样的国产数据库,YashanDB技术内幕曝光
YashanDB是一款基于统一内核,支持单机/主备、共享集群、分布式等多种部署方式,覆盖OLTP/HTAP/OLAP交易和分析混合负载场景的新型数据库系统;YashanDB同时提供开发平台、运维平台和迁移平台3大工具平台以满足数据全生命周期管理。
56 2
【Meetup回顾 第1期】竟是这样的国产数据库,YashanDB技术内幕曝光
|
2月前
|
关系型数据库 分布式数据库 数据库
1月17日|阿里云云谷园区,PolarDB V2.0技术沙龙,畅聊国产数据库
为了助力国产化项目顺利推进,阿里云邀请企业开发者和数据库负责人到云谷园区,与PolarDB V2.0技术专家面对面交流。扫描海报二维码报名,我们将根据信息为您申请入园。欢迎参与,共同探讨PolarDB的最新技术和应用!
|
3月前
|
存储 JSON NoSQL
学习 MongoDB:打开强大的数据库技术大门
MongoDB 是一个基于分布式文件存储的文档数据库,由 C++ 编写,旨在为 Web 应用提供可扩展的高性能数据存储解决方案。它与 MySQL 类似,但使用文档结构而非表结构。核心概念包括:数据库(Database)、集合(Collection)、文档(Document)和字段(Field)。MongoDB 使用 BSON 格式存储数据,支持多种数据类型,如字符串、整数、数组等,并通过二进制编码实现高效存储和传输。BSON 文档结构类似 JSON,但更紧凑,适合网络传输。
99 15
|
3月前
|
人工智能 物联网 大数据
解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾
在数字化时代,开源已成为推动技术创新和知识共享的核心力量,尤其在数据领域,开源技术的涌现不仅促进了行业的快速发展,也让更多的开发者和技术爱好者得以参与其中。随着物联网、工业互联网等技术的广泛应用,时序数据库的需求愈发强烈,开源的兴起更是为这一技术的创新与普及提供了强有力的支持。
66 3
|
4月前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
99 3
|
4月前
|
Java 数据库连接 数据库
深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能
在Java应用开发中,数据库操作常成为性能瓶颈。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能。文章介绍了连接池的优势、选择和使用方法,以及优化配置的技巧。
97 1

热门文章

最新文章