近日,国际顶级数据库学术会议VLDB 2022在澳大利亚悉尼举办。阿里云与达摩院空天数据库引擎团队有关Ganos的两项研发成果被VLDB 2022收录。VLDB与SIGMOD、ICDE并称为数据库业界的三大顶级学术会议,收录全球研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。数据库作为核心基础软件,是底层硬件基础资源与上层应用系统之间的重要桥梁。Ganos率先借助云原生能力研究大规模3D场景和移动对象轨迹的In-database空间计算,研发成果在VLDB的发表,揭开了数据库基础软件在数字孪生3D空间计算方向上的崭新篇章。
将现实世界放进数据库
数字孪生,是指利用物理模型、传感器更新、仿真模拟等技术完成现实世界到虚拟世界的映射。简而言之,就是创造现实世界的数字克隆体,并把它放到计算机管理起来。和传统计算机辅助设计(CAD)不同,这个数字克隆体是会“动”的,发生在现实世界中的变化会实时地反映到数字克隆体上。作为一个新兴技术,数字孪生还有很多的挑战亟待解决,比如用什么模型来表示现实世界的物体、如何存储数字克隆体、如何支持高效的查询和数据更新等。
随着智能城市和数字孪生技术的结合,快速分析与处理大规模的多维、动态、场景化空间数据已构成挑战。例如,建筑的精细化BIM模型数据、网联汽车产生的大量动态轨迹数据,无人机拍摄的实景三维数据等。传统数据库能良好处理整数、浮点数、文本等各种常规数据类型,但如何把一幢摩天大楼数字化后放进数据库?如何对城市中的各类移动车辆的动态数据进行有效管理仍然存在诸多挑战。这种以人、车、建筑等复杂单体(静态或动态)及其动态交互为处理对象的新型数据库需要数据库处理模式的变革,也需很大程度上依赖云算力的极致发挥。Ganos团队通过阿里巴巴达摩院数据库与存储实验室的关键技术突破,并借助阿里云的技术转化,在解决数字孪生背景下如何在数据库中表示和存储现实世界的数字克隆,并支持高效的查询与分析计算问题上实现了阶段性的重要突破。
成果简介
主论文《Ganos: A Multidimensional, Dynamic, and Scene-Oriented Cloud-Native Spatial Database Engine》为阿里云和达摩院的独立研究,分析了数字孪生新技术浪潮背景下,多维、动态、场景化新型空间多模态数据的挑战,介绍了Ganos在云原生关系型数据库PolarDB for PostgreSQL上的实现,包括应用背景、系统架构、支持的数据类型、低成本高可用性扩展存储机制以及多级并行查询等技术。Ganos加持PolarDB数据库,使之成为业界首个具备数字孪生空间计算,且最早系统性支持移动对象和3D场景数据处理能力的云原生数据库。
论文阐述的主要技术创新包括:
对多维、动态、场景化数据提供数据库原生支持。Ganos将多维、动态、场景化数据视为数据库首等公民,提供3DMesh、Trajectory、Raster、PointCloud等新型数据类型与模型体系、多维索引访问方法以及空间查询、时空查询、面向场景查询和跨模态查询复杂能力。
低成本高可用性扩展存储机制。Ganos利用云原生对象存储服务(OSS)大容量、低成本、高可用特性实现了一套扩展存储机制,在保证查询效率的同时大幅扩展了存储容量,并降低了存储成本。
空间多级并行查询处理机制。针对数字孪生场景多维复杂查询耗时长的难题,Ganos结合PolarDB共享存储、存计分离云原生架构特性,创新提出了面向空间计算的多级并行查询处理框架,相较于已有并行机制实现高达一倍以上的性能提升。
与此同时,针对百亿级超大规模轨迹数据的处理,Ganos团队与皇家墨尔本理工大学(RMIT)合作,在本次VLDB大会上联合发表了论文《VRE: A Versatile, Robust, And Economical Trajectory Data System》。论文介绍了功能丰富、强鲁棒性、低成本的大规模弹性轨迹系统VRE的系统设计,而该系统正是阿里云多模数据库Lindorm时空轨迹处理系统的原型。论文阐述了VRE的系统架构、轨迹分段模型、时空索引机制以及两阶段查询处理框架等技术。
VRE系统架构
VRE系统(Lindorm Ganos原型)的功能特性和主要技术创新为:
覆盖丰富的轨迹查询。结合阿里巴巴的实际应用需求,VRE首个全面支持了ID时间查询、空间范围查询、时空范围查询等基础查询,以及近似轨迹搜索、近似轨迹连接、子轨迹近似搜索等高级查询,并且同时支持Fréchet、Hausdorff、 DTW、 LCSS和 EDR距离度量。
高效存储和索引机制。VRE提出了新的轨迹分段模型,在存储成本和过滤性能两方面的综合性能明显优于传统的以轨迹为单位的存储模型以及以轨迹点为单位的存储模型。同时,针对各类查询实现了不同的索引结构,显著提升了查询性能。
两阶段查询处理框架。VRE采用了两阶段查询处理框架,在第一阶段仅使用数据规模小的轨迹元数据进行过滤操作,在第二阶段只对第一阶段无法过滤掉的轨迹数据才读取完整的轨迹做检查。将过滤操作下推到存储层,大幅减少了数据传输开销和查询效率。
优异的性能。实验表明,VRE在存储开销和查询效率方面都表现优异,和现有方法相比,可以实现1/3的存储开销以及高达10倍以上的典型查询效率提升。
行业应用
从实验室到使能百业,Ganos在快速迭代进化。Ganos解决了传统位置多模态大数据使用流程复杂、使用门槛高、应用效率低等问题,实现了位置智能服务的普惠计算,目标使能千行百业。据不完全统计,云上Ganos引擎被创建次数达到3万6千多次,目前已应用到航空航天、自然资源、共享出行、灾害应急、交通物流、远程银行、农业/海洋/水利以及社交/健身/O2O等总计45个不同行业/应用方向。
/ End /