达摩院重要科技突破!空天数据库引擎Ganos解读

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务、多模融合、计算下推和云原生全新处理架构,为政府、企事业单位、泛互联网客户提供移动对象、空间/时空、遥感多模态数据混合存储、查询与分析服务,解决空天大数据使用流程复杂、使用门槛高、应用效率低等问题,主要应用于城市管理、交通物流、自然资源、航空航天、物联信息等领域。

image.png

作者 | 谢炯
来源 | 阿里技术公众号

Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务、多模融合、计算下推和云原生全新处理架构,为政府、企事业单位、泛互联网客户提供移动对象、空间/时空、遥感多模态数据混合存储、查询与分析服务,解决空天大数据使用流程复杂、使用门槛高、应用效率低等问题,主要应用于城市管理、交通物流、自然资源、航空航天、物联信息等领域。

一 研发背景

1 什么是空天大数据

随着移动互联网、位置感知技术、对地观测技术的快速发展,以移动对象、空间/时空、遥感为代表的空天传感数据呈爆发式增长,成为新基建和数字化框架的重要基础。

狭义上,空天数据(aerospace data)主要来自天基和空基,例如基于天基平台的GNSS(全球导航卫星系统)数据等,基于空基平台的航拍影像、视频数据等。广义上,我们将空天数据定义为涵盖Spatial(空,即地理空间)和Space(天,即宇宙空间)的地海空天各类与位置相关数据,也即本文所述空天大数据。天问一号携祝融号在火星的登陆将为我们传来大量火星遥感影像和空间信息,使大家最直观地感受到来自地球之外的空天大数据。

以空天大数据助力疫情防控为例,我们可以利用人、车等移动对象的轨迹数据进行传播源追踪和疑似人群排查;利用海事通信卫星提供的AIS船舶动态数据分析疫情对港口贸易的影响等等。在这类复杂分析场景中,遥感影像、移动对象、物联通信等新型空天传感数据的快速获取、存储与高效查询处理为智能辅助决策起到关键作用。

2 空天大数据面临的挑战

数据结构复杂多样难以管理

相比文本型、图片型等非结构化数据,空天数据具有类型多样、高度非结构化、大单体、多维度等特征,给一体化数据管理和高效查询检索提出了极大挑战。例如:

  • 百万点构成的超大复杂实体化对象,如长江/黄河、复杂建筑、灌区等;
  • 千万点构成的移动对象时空轨迹,如车、船、航空器等超长行程数据;
  • 万亿像素构成的大范围高分辨遥感影像连续覆盖……

数据动态变化要求更高维度计算

传统空间数据更多表达静态地物,如河流、铁路、建筑等。随着移动APP和IoT等技术的普及应用,以时空移动对象(人、车、船等)为代表的动态数据越来越多。记录位置的动态变化,需要系统提供时空建模、时空索引和时空分析计算能力。

大数据和大计算场景性能不佳

非结构化、大对象和动态性决定了空天数据的潜在大体量,单表小则千万级,大则百亿级场景将不再是个别现象,因此,对系统的存储成本、弹性能力、读写效率必将提出更高要求。当大规模数据要求提供在线化分析计算服务,传统基于离线预处理(如离线切片)方式的生产和应用流程将面临极大挑战。

智能化需要多模态数据融合管理

文本、时序、时空、图(Graph)等多模态数据融合管理和跨模查询分析是智能化的重要基础。单模态数据智能化无法有效支撑复杂业务知识发现并真正探寻事物发展规律和趋势,因此,从局部模型专业化到全局多模通用化仍存在较大鸿沟,需要从基础数据库形态层面发展全新架构。

3 达摩院首创空天数据库

针对此,达摩院研发新一代空天数据库引擎Ganos,从数据库与存储最底层解决空天数据的一体化管理、快速交叉融合查询以及高效分析处理挑战,实现 “亿级规模”地物多边形全图快显访问、秒级效率的“千万平方公里”遥感影像时空动态拼图等先进技术,具有“一体化融合管理、大规模弹性服务、核心技术自主可控”等优势,可面向空、天、地、海全域空间应用,成为支撑天联网和星云产业发展的新型数据库基础设施。

二 空天数据处理架构演进

1995年,美国ESRI公司为了满足2B市场需求,革命性地推出了空间数据引擎SDE——基于商业关系数据库+中间件架构建模我们的世界,影响了一代人。20多年过去了,随着Hadoop、Spark以及分布式数据库技术的演进,分布式空间数据引擎近年来得到了快速发展,在一些大规模空间数据分析处理场景中发挥了独特优势。那么,空间数据处理的下一站演进将去哪里?

我们认为,将空天信息处理融入PaaS服务(Platform as Services),以云数据库与存储平台为核心解决空天数据的实时接入、高效存储和弹性计算,是支撑时空信息云化架构向纵深发展的必然趋势。我们将之分解为平台即服务、多模融合、计算下推和云原生四个方向的架构演进。

1 平台即服务

与传统基于通用数据库作为存储,外置中间件形态的时空数据引擎方案不同,新一代空天数据库引擎采用了平台即服务架构。该架构将空天引擎内置于云上OLTP数据库、OLAP数据仓库、数据湖以及NoSQL多模数据库等不同系统,相比传统方案在易用性、计算效率和事务一致性处理上存在先天优势,且未来基于SQL标准化也能快速建立跨平台能力。通过产品组合可提供从在线处理到在线分析,到离线计算再到离线存储的海量空天大数据解决方案。

image.png

2 多模融合

传统时空数据处理以地理信息系统(GIS)或遥感图像处理平台软件为核心,强调平台专业性,但由于专业强化,形成专业度较高的半封闭系统,也会反向弱化和其他多模类型数据的融合处理能力;从IT视角出发,空天/时空数据将去中心化,成为各类多模数据的一类,并借助数据库建立普适关联,降低专业门槛。通过普适关联,将空天/时空数据与通用数据、文本、时序、图等多模数据一体化管理和处理,这种泛时空求解能力为大数据复杂业务开发将提供更大灵活性。

image.png

3 计算下推

计算下推是IT技术架构演进的一个重要趋势。将空间信息系统业务关键计算下推数据库与大数据系统,让计算离数据更近,可以直接利用存储计算下推、并行化处理、GPU/FPGA异构计算加速能力实现数据本地计算,不但能降低因大量中间结果数据网络传输导致的IO延迟,也能简化业务逻辑并整体提升业务系统性能。

image.png

4 云原生

新一代空天数据库引擎脱胎于公有云,并由公有云走向混合云。我们认为,数据要灵活,算法补;算法要灵活,算力补。举个例子,传统空天数据应用需要大量做切片预处理,导致数据应用不灵活。为了数据更灵活,业界引入了预先静态缓存+动态切片的算法,但这种算法显然很复杂;那么算法要灵活,必须要算力补,即借助足够弹性的算力来保障单一算法的纯粹性和普适性。这就要借助云原生能力。云原生的本质是资源池化,即通过资源池化实现弹性服务和规模化。云服务的本质就是算力经济。

image.png

三 积沙成塔,做好底座

遵循平台即服务、多模融合、计算下推和云原生理念,达摩院设计并实现了新一代空天数据库引擎Ganos。我们在全球空天网格编码、空天多模并行查询处理、大规模矢量图形快显加速等空天数据处理关键技术上不断探索并技术突破,建立了数据存储、索引、查询、分析和可视化支撑技术体系,在空天多模态数据处理核心领域形成差异化竞争力。

1 整体框架

Ganos取名于大地女神盖亚(Gaea)和时间之神柯罗诺斯(Chronos),代表空间+时间的深度结合。它并不是一款独立的云产品,而是一套空天\时空\多维数据存储与处理解决方案。系统底层提供了支撑海陆空天大规模数据存储能力,包括批量快速写入、空天多维表达、多维时空索引和冷热多级存储等,上层提供数据管理、交批查询处理以及分析计算与操作。

image.png


Ganos能力框架

从产品结构上,Ganos将空天数据处理能力融入云关系型数据库RDS PG、云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB PostgreSQL、多模数据库Lindorm、数据湖分析DLA,基于产品组合构建空天数据库大数据一体化底座。进一步联合AI Earth(达摩院发布的首个泛自然资源行业AI引擎)、OSS对象存储、以及微服务框架等技术生态体系,为用户构建免切片存储、时空一体、动态计算、智能分析全新架构的云原生空天大数据平台提供了核心能力支撑,可广泛应用于城市管理、自然资源、应急管理、交通物流等不同行业。

image.png


Ganos生态系统

2 空天多模与全球网格编码

单一化模型已无法满足当前数字化新场景应用,Ganos从底层开发空天多模型引擎,已原生支持10多大类空天数据的存储、查询和分析计算。在此基础上,基于与多模数据库Lindorm集成,实现键值、宽表、时序、时空、搜索、文件等多模数据的一体化管理和处理。

image.png


空天多模型引擎

在此基础上,Ganos基于GeoSOT全球网格剖分理论,结合PolarDB引入了一种全新的网格数据类型geomgrid,支持空天对象打码和网格对象计算等操作。空天网格码是在GeoSOT地球空间剖分理论基础上发展出的一种离散化、多尺度区域位置标识和度量体系。该体系的核心是用一种新的方法,将地心至地上6万公里的地球空间剖分成数以兆亿个大小不等、多尺度、高精度的网格群,同时为每一个网格赋予全球唯一的整形数标识编码。系统可以无缝对接北京大学/旋极伏羲基于GeoSOT的网格大数据平台构建空天数据库-网格大数据一体化解决方案。原生网格数据类型的引入增强了空天数据库的统一时空标识能力、空天计算加速能力和基于地球空间网格的数据共享能力。

image.png


空天网格剖分示意图

3 存计分离与多级并行计算加速

基于PolarDB,Ganos采用了存计分离和分布式共享存储架构。计算和存储分离,将原有一体化设计的数据库的各个组件(计算/内存/存储)完全解耦,形成可独立伸缩的资源池。同时,为降低存计分离带来的写入和查询延迟,共享存储系统采用了端到端全用户态模式,融合了 RDMA、SPDK 等高速数据传输和存取软硬件技术,以及与近存储计算介质硬件结合的DB处理下推技术,有效地提升了空天数据的存储规模和处理能力 。

基于存计分离和分布式共享存储架构,Ganos进一步将两阶段查询增强和多节点并行查询有机结合,实现了跨节点空天并行查询处理框架。其中,三管齐下提升数据并行处理性能:

  • 采用分布式共享存储架构有效避免了数据跨节点shuffle带来的网络IO开销;
  • 基于拓扑索引的粗过滤加精过滤两阶段查询大幅提升空天数据查询过滤性能;
  • 跨节点并行、节点内并行加算子级并行形成多级并行框架。经权威第三方测评结果表明,2亿级图斑做叠加分析并统计面积,采用80进程并行计算,10分钟即可出结果(中间包含裁剪出7800万超大结果集),比传统大数据方案至少快出一个数量级。

image.png


基于两阶段优化的跨节点并行查询处理框架

4 在线动态处理服务智能化

要构建空天“最强大脑”,需建立基于动态计算的数据组织、处理和应用模式。以大规模遥感影像数据处理为例,Ganos综合了PolarDB的空天索引、Lindorm的空天多模存储和DLA Serverless Spark的空天计算能力,为用户提供单元化存储、时空化组织和像素级调用的全新处理框架:

  • 单元化存储:是以每一幅遥感影像为单元进行存储,避免做更多预处理,从而使数据保持足够灵活;
  • 时空化组织:是以原始影像为单位,将时间维植入体系结构,从而使全量数据实现时空结构化;
  • 像素级调用:设计理念上保留影像原始像元矩阵,确保每一寸像元信息精准,包括时间、空间和光谱信息,为智能化服务提供最鲜活原料。用户划定时间和空间边界等条件,Ganos借助弹性云算力,实现动态并行计算。

内部测试表明,基于Serverless弹性算力,千景遥感影像时空拼图效率可达到秒级,革新传统预处理/预切片模式为按需时空动态并行计算模式,节约至少50%存储和处理成本。

11.gif


栅格动态时空拼图

5 视算统筹打破服务边界

空天数据是一种特殊的图形图像数据,同一套数据存储结构很难同时满足快计算和快显示需求,以往用户从查询分析计算延伸到数据大场景显示不得不经历数据结构大幅重构的复杂“熵增”过程。

Ganos的另一个设计述求是将计算和可视化进行统筹,数据库端将存储、计算和可视化打通。大体量的矢量数据入库后即时全局浏览一直是业界难题,额外找工具切图发布又耗时耗力。Ganos通过设计一种稀疏矢量金字塔索引,客户端可通过与数据库实时交互,秒级快速可视化访问“亿级规模”多边形地物,而创建索引仅需分钟级并消耗仅5%的额外存储空间。这种以数据库索引结构加速数据可视化方法极大降低了用户数据处理复杂度。这一技术可方便集成到PGAdmin等数管工具,亿级几何图形数据导入即可秒级全局可视化,解决了传统数管工具针对矢量大图“可查不可看”的历史难题。

12.gif


基于【捷泰天域】提供亿级多边形真实数据实现终端快显访问

四 构建生态解决方案

1 DB for AI——与AI Earth数知地球集成

阿里巴巴达摩院自研AI Earth数知地球产品用于融合分析卫星影像、无人机影像、实时视频流、气象数据、IoT数据等多源地球观测数据,智能解译和实时感应建筑、土地、植被、河流等多种目标信息的变化,为地球环境生态多领域提供专业服务。

Ganos和AI Earth数知地球,正在用创新的方式,解决地球空天地海数据的管理与计算问题。这是一种DB for AI的产品组合,Ganos提供智能化存储与管理大规模空天数据能力,向上服务于AI Earth数知地球,支撑变化检测、地物分类和目标提取等操作,实现智能化计算分析与信息深度挖掘。

image.png


DB for AI: Ganos + AI Earth

2 DB for GIS——与GIS平台共建

GIS平台是空间数据处理的专业化系统。DB for GIS,将改变二十多年来GIS与通用数据库的传统对接模式。GIS的核心空间计算下推以云原生数据库为核心的云基础平台实现计算加速将是下一代GIS系统可行的发展路径。Ganos已与SuperMap(超图)、ArcGIS(ESRI)、MapGIS(中地)等主流GIS基础平台软件完成兼容适配,可支撑已有GIS应用的无缝迁移。GIS平台空间数据引擎可以将空间查询和分析计算下推Ganos,利用空天数据库引擎的多模处理、高效索引、多级并行计算、资源弹性调度实现计算加速。反过来,Ganos也借助GIS平台工具实现地上地下、室内室外、陆地海洋全空间建模与数据展现。

image.png


DB for GIS架构

与GIS平台的深度融合,践行了阿里云的被集成战略,顺应了“一横一竖”的平台策略。通过“一竖”完成垂直整合,即GIS平台借助技术集成Ganos提升了系统整体性能,而Ganos借助GIS平台拓宽了空间业务能力宽度。“一横”是通过品牌叠加,共同构建了平台生态,为强GIS数字化领域应用提供专业的全空间数字化解决方案能力。“一横一竖”整合,扩大了空间数据服务的“面积”。

五 支撑空天地海应用

站在云端,传统空间信息行业的边界在逐渐打破,空天应用的涵盖不断外延。空天数据库引擎Ganos已在天、空、地、海全域空间获得应用,覆盖自然资源、灾害应急、交通物流、航空航天、出行、安全、农业、海洋、水利、科教以及社交、健身、游戏、O2O等不同行业方向。

13.gif


与飞常准及超图合作,实现25亿全球航班轨迹点毫秒级时空回放与展示

14.gif


支撑阿里巴巴数字星球引擎,使PB级大规模遥感数据的时空动态组织、按需逻辑拼接和像素级快速访问调用成为可能

15.gif


在农业信息化领域,以国源科技为代表的农业地理大数据平台,通过2B业务转型,依托Ganos管理地理信息资源,融合云上的人工智能和大数据技术,为现代化农业建设提供农业大数据新型产品和服务

16.gif


与DataV集成,为阿里云三维城市渲染引擎专业版DataV.CityPro提供空天数据检索和多维地形分析能力

17.gif


与北大旋极网格大数据平台建立深度对接,建立网格数据库+大数据一体化解决方案

18.gif


联合达摩院数知地球(AI Earth),形成遥感大数据管理与AI一体化智能平台,应用于自然资源、环保、水利等领域省部级应用

19.gif


赋能全球自然灾害风险大数据服务平台,完整支撑全球地震、台风、滑坡、林草火灾等12个灾种时空过程建模和风险图发布

六 结语

在云计算和大数据时代,空天大数据将成为位置智能化的基础核心。让卫星“天眼”更显神通,让IoT设备更具智能,需建立全新的空天数据组织、处理和应用模式。未来,我们将位置信息、时态信息和多模态信息实现进一步融合管理和处理,拓展计算智能并将场景延伸到深地、深海、深空。Ganos将始终立足云空天基础设施能力建设,解构空天多模与编码、分布式并行计算加速、在线动态处理等关键技术,为企业构建空天“最强大脑”提供基础云服务,推动时空云计算作为数字化转型的基础引擎普惠到更多客户。


2021阿里云峰会暨开发者大会

image.png

数字时代,创新的时代。阿里云始于开发者的理想,坚持用云的力量让开发者的创新更简单,共同成就数字新篇章。2021阿里云开发者大会特邀阿里巴巴集团副总裁、阿里云智能数据库事业部高级研究员李飞飞,和开发者们畅聊云原生时代数据库的现状和未来。点击这里,立即报名吧!5月29日,我们在北京国家会议中心等你来~

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
掌阅科技采用云原生数据库PolarDB,大幅降低使用成本,提升业务稳定性和扩展性
掌阅科技将数据库迁移到PolarDB后,数据压缩到之前的30%,整体成本节省50%。
193 0
|
3月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云牵手海亮科技,共建“教育科技数据库创新应用中心”
海亮科技选择引入阿里云PolarDB开源分布式版(PolarDB for Xscale)数据库,不仅能解决海亮科技数据库业务中面临的可靠性、稳定性问题,也为海亮科技业务的高速发展提供了更好的灵活性和可扩展性。
|
15天前
|
存储 NoSQL 关系型数据库
阿里云数据库MongoDB版助力信也科技 打造互联网金融企业样板
我们的风控系统引入阿里云数据库MongoDB版后,解决了特征类字段灵活加减的问题,大大提高了开发效率,极大的提升了业务用户体验,获得了非常好的效果
阿里云数据库MongoDB版助力信也科技 打造互联网金融企业样板
|
1月前
|
Cloud Native 关系型数据库 Serverless
阿里云数据库获中国计算机学会“科技进步一等奖”!
阿里云数据库获中国计算机学会“科技进步一等奖”!
35 0
|
3月前
|
Cloud Native 关系型数据库 分布式数据库
阿里云牵手海亮科技,共建“教育科技数据库创新应用中心”
近日,阿里云与世界500强旗下、国内领先的教育服务提供商海亮科技集团(以下简称“海亮科技”)达成合作,联合成立“教育科技数据库创新应用中心”。双方将充分整合优势资源,共同推进教育科技领域的数据库技术研究和国产数据库的应用与发展。
114 8
|
2月前
|
存储 NoSQL MongoDB
小川科技携手阿里云数据库MongoDB:数据赋能企业构建年轻娱乐生态
基于MongoDB灵活模式的特性,小川实现了功能的快速迭代和上线,而数据库侧无需任何更改
|
4月前
|
关系型数据库 Serverless 分布式数据库
揭秘PolarDB Serverless:大促洪峰秒级应对,无感伸缩见证科技魔法!一探云数据库管理的颠覆性革新,强一致性的守护神来了!
【8月更文挑战第13天】在云计算背景下,阿里巴巴的云原生数据库PolarDB Serverless针对弹性伸缩与高性能一致性提供了出色解决方案。本文通过一个电商平台大促活动的真实案例全面测评PolarDB Serverless的表现。面对激增流量,PolarDB Serverless能秒级自动扩展资源,如通过调用`pd_add_reader`快速增加读节点分摊压力;其无感伸缩确保服务平滑运行,不因扩展中断;强一致性模型则保障了数据准确性,即便在高并发写操作下也确保库存等数据的同步一致性。PolarDB Serverless简化了数据库管理,提升了系统效能,是追求高效云数据库管理企业的理想选择。
108 7
|
数据可视化 Java
中南林业科技大学Java实验报告十二:数据库系统设计 - 从0到1搭建java可视化学生管理系统源代码(二)
中南林业科技大学Java实验报告十二:数据库系统设计 - 从0到1搭建java可视化学生管理系统源代码
154 0
|
SQL 存储 XML
中南林业科技大学数据库实验五:问题分析与详解,穿插SQL规范
中南林业科技大学数据库实验五:问题分析与详解,穿插SQL规范
182 0
|
7月前
|
人工智能 Oracle 关系型数据库