YashanDB多模数据融合管理技术探索与实践

简介: 本文基于李伟超在“2024年国产数据库创新生态大会”的演讲,介绍了YashanDB如何通过创新架构设计应对AI+时代的多模态数据融合管理挑战。YashanDB采用存算分离架构、联邦查询等技术,实现了对空间、BIM、图、向量等多种类型数据的高效统一管理,支持智慧城市和大模型训练等应用场景。未来,YashanDB将继续优化多模数据管理策略,推动数据价值的最大化释放。

本文基于YashanDB架设技术开发负责人——李伟超2024年11月在“2024年国产数据库创新生态大会”-“根”技术专场的演讲整理形成,主要阐述了YashanDB如何通过创新架构设计以及在各类多模数据(空间、BIM、图、向量)管理上的独特策略,应对AI+时代下多模态数据融合管理挑战。

随着数字化技术的发展,IT系统的数据处理能力越来越强,数据量呈爆炸式增长且类型愈发繁杂多样。如今,除结构化数据外,半结构化数据与非结构化数据的处理需求也日益凸显,这促使传统关系型数据库不断拓展边界,陆续增加对多模型的支持能力,以更好地适应复杂多变的数据环境。
我们先看两个典型的多模数据应用场景。
新场景与新挑战
智慧城市大规模时空数据管理
在智慧城市的建设过程当中,各类平台和场景应用都依赖时空数据库系统作为数字底座提供支撑。这其中数据种类和模型是多样的,包括多源、多类、多维、海量、多时态、多主题以及多细节层次表达等空间数据。如何将这些海量的、多模态的数据融合管理,已成为当前智慧城市建设面临的关键难点之一。其主要挑战体现于以下方面:
时空数据类型繁多,且缺乏统一的标准与规范,致使数据难以融合;
烟囱式处理模式难以保证数据处理的实时性、高效性和可靠性;
开源数据库的性能,难以支撑CIM/BIM平台的规模建设与应用;
大尺度GIS信息与精细化建模BIM数据的高精度匹配问题亟待解决;
面向同一实体对象的不同模态数据的融合处理存在诸多困难。
图片26.png

AI大模型大规模数据管理
大模型训练中使用的向量维度可能从几百到上万维不等,向量的数量级可能达到数十亿甚至数万亿。这一新兴领域背后主要的挑战包括:
挑战一:海量训练数据管理,大规模高维向量数据处理
由于大模型训练使用的维度和数量级较高,存储向量所需的存储空间已达PB级别,如何对大规模多模数据和向量数据进行管理,成为当下关键问题。
挑战二:数据日新月异而模型滞后,决策难以“数据驱动”
因为大模型知识有时效性局限,不能根据昨天的数据做出决策;且大模型训练成本较高,难以应付高时效性的需求,因此,实现大模型知识的实时更新成为新的迫切需求,其中索引技术是核心关键。
挑战三:多模态数据管理,大模型未来发展的基石与障碍
大模型训练所需的数据种类繁多,包括结构化、半结构化和多结构化数据,数据类型丰富多样,需要其具备多模态学习能力;具身模型、世界模型是未来的重要发展方向,多模态数据管理与跨模计算的需求日益凸显。
图片27.png

数据库架构
在深入探讨多模数据管理之前,我们先看一下YashanDB在数据库架构层面的一些考虑。
传统的智慧城市数据平台,难以凭借一个平台、一个数据库来实现整体的数据存储与管理,普遍采用数据库混合存储架构设计,分别使用分布式文件数据库、关系型数据库、非关系型数据库、空间数据库、时序数据库、图数据库、索引数据库等多种类型数据库进行协同管理。
图片28.png

存算分离架构
对于大规模的多模数据管理,鉴于其数据量庞大、计算复杂,亟需一种将数据存储和计算资源分开管理的数据库架构,以满足数据的爆炸性增长和复杂业务需求。可以通过将数据存储和计算功能分离,实现资源的独立扩展和灵活配置,适配不同规模业务的多样化需求。
YashanDB V23.3版本分布式数据库上已实现了存算分离架构,感兴趣的可以到官网(download.yashandb.com)下载试用。
YashanDB在分布式数据库的MPP架构基础上,扩展出一种新的计算节点——PN节点。通过PN组对PN节点进行管理,在一个集群内可以部署多个PN组,供用户按需灵活配置使用,并通过在PN节点的本地缓存加速机制,可以实现与存算一体架构相同的性能表现。
在存储数据方面,YashanDB可以实现数据冷热分离,冷数据可以存储在对象存储等低成本的存储设备中;从应用的角度看,存算一体或是存算分离架构对上层应用而言是透明无感知的。
图片29.png

联邦查询
除了把数据存储在YashanDB中管理,实际业务中也有不少异构数据库跨库访问的场景。以智慧城市建设为例,跨地区、跨单位、跨部门等的数据交互需求必不可少,然而传统的数据查询方式难以直接满足这些需求,且不同数据库系统之间的数据格式、查询语言等都存在差异,直接进行异构数据库跨库访问十分困难。
YashanDB通过database link提供无需迁移数据即可直接查询异构数据库的能力:
支持Apache Hive、Iceberg、Hudi等数据湖上的异构数据,支持多种存储系统,包括HDFS、S3以及OSS等,支持Oracle等关系型数据库;
支持多种开放文件格式:包括CSV、Parquet、ORC等;
实现统一的联邦查询,支持对多种异构数据库和数据湖的链接能力,对这些数据源的海量数据进行统一分析、加工、转换以及存储等处理;
具备查询加速功能,YashanDB提供有界计算加速、并行实时计算、原生HTAP混合负载等能力,可对异构数据库中的数据进行查询加速。
图片30.png

多模数据管理
管理目标:实现多模融合统一
对于多模数据的管理目标,YashanDB旨在实现对多模数据的融合统一管理,具体包括:提供统一的存储引擎,为各类数据提供集中化存储方案;针对特定模型数据的提供索引加速机制,提升数据检索效率;在一套SQL查询引擎上实现跨模融合查询,打破模型隔阂;借助存算分离架构实现资源的灵活配置和降低成本;通过联邦查询连接不同数据孤岛,实现生态对接。
图片31.png

空间数据:提供双形态空间能力
YashanDB在去年已正式发布了YashanDB for GIS,提供空间数据平台引擎、原生空间数据引擎双形态空间能力,并已经在客户场景上线。GIS技术不只在智慧城市、城市规划等场景有应用,在金融领域的网点选型、动产抵押等场景也发挥着重要作用。YashanDB未来也将继续投入资源,进一步提升GIS功能和性能表现。
BIM数据:一套系统全量解析及存储管理
BIM数据在智慧城市中占据重要地位,但其数据格式复杂且数据量巨大,传统的做法大多是将其解析后分解成关系数据、半结构化数据并使用不同的数据库存储。YashanDB的思路是通过一套数据库统一管理各种类型的BIM数据,达到高性能、简化运维、降低成本、提高数据一致性和可靠性的目标。
图数据:无缝集成与关系数据的跨膜查询
图数据也是目前比较重要的一种数据类型,在特定场景中的对关系的查找、匹配等操作,使用图模型相对关系模型在查询性能上有比较大的优势。目前YashanDB也在探索支持图数据的建模,并在SQL上扩展支持属性图查询语法PGQL,已初步实现图数据和关系数据的跨模融合查询。
向量数据:高效检索和精准查询
在向量数据管理方面,YashanDB正从两方面展开探索:一是在工程上,基于YashanDB实现向量数据的管理和检索操作,支持向量数据的增删改查功能,以及通过向量索引技术加速检索过程,提高数据获取效率;二是在学术上,深入探索关系和向量混合查询时的效率和准确性问题,基于属性和向量的映射关系来减少相似性计算,从而在保证准确度的同时实现查询时间与数据量无关。

—————————————————分割线———————————————————
未来,YashanDB也将持续深耕技术研发,优化多模数据管理策略,以更先进的技术、更完善的解决方案,推动多模数据融合管理迈向新高度,加速释放各领域数据价值,为构建智慧、高效、可持续发展的未来贡献力量。

相关文章
|
Android开发
Android Http 请求封装及使用
Android Http 请求封装及使用
338 0
|
5月前
|
机器学习/深度学习 文字识别 自然语言处理
OCR技术:解锁文字识别的无限可能
OCR(光学字符识别)技术是数字化浪潮中的关键工具,可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正,全面解析OCR技术的原理,并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来,OCR将与自然语言处理、计算机视觉等技术深度融合,推动智能化和综合化发展。通过开放生态系统和政策支持,开发者可探索更多创新场景,如古籍数字化、盲人阅读等,为社会带来更多价值。
751 57
|
5月前
|
存储 人工智能 自然语言处理
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
本文深入探讨了混合专家(MoE)架构在大型语言模型中的应用与技术原理。MoE通过稀疏激活机制,在保持模型高效性的同时实现参数规模的大幅扩展,已成为LLM发展的关键趋势。文章分析了MoE的核心组件,包括专家网络与路由机制,并对比了密集与稀疏MoE的特点。同时,详细介绍了Mixtral、Grok、DBRX和DeepSeek等代表性模型的技术特点及创新。MoE不仅解决了传统模型扩展成本高昂的问题,还展现出专业化与适应性强的优势,未来有望推动AI工具更广泛的应用。
1907 4
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
|
8月前
|
存储 Linux
【YashanDB 知识库】如何查看共享集群共享盘的挂载关系
客户在使用YashanDB时,对查看共享集群存储不熟悉。此问题影响测试业务开展,涉及所有版本。通过`yfscmd`命令或配置文件(`$YASCS_HOME/config`)可查看挂载关系,但有时需通过`dmsetup`、`lsblk`等命令确认实际映射的设备号。若磁盘未显示,可用`iscsiadm`刷新会话。详细操作请参考官方文档。
|
8月前
|
SQL 数据库 数据安全/隐私保护
【YashanDB 知识库】YCP 高可用部署离线升级 -rpc 升级详细步骤
本文介绍了从版本 23.2.4.100 升级到 23.2.11.100 的详细步骤。首先,在主节点和两个备节点上执行备份操作,确保数据安全。备份命令包括数据库和配置文件的备份。接着,解压新版本安装包,并生成托管服务器的配置文件。然后,在主节点上执行升级命令,通过指定安装路径、配置文件和其他参数完成升级。升级过程中会停止相关进程,备份现有文件,安装新版本并更新配置。最后,在两个备节点上分别执行类似的升级操作。整个过程确保了系统的稳定性和数据的安全性。升级完成后,可以通过查看 `/opt/ycm/ycm/etc/upgrade/version.toml` 文件确认版本已成功
|
8月前
|
SQL Linux Windows
【YashanDB 知识库】如何设置 yasql 客户端的字符编码
**简介:** 客户在使用YashanDB时,因不熟悉客户端编码配置,在执行不同编码的SQL文件时报错“YAS-00218 string conversion failed”,影响测试业务。问题源于客户端和服务端编码不一致。解决方法包括确认文件编码(如使用xxd或iconv工具),并在`$YASDB_HOME/client/yasc_env.ini`中正确配置编码。验证设置后,执行SQL文件成功即表示问题解决。适用于所有YashanDB版本。
|
8月前
|
Oracle 关系型数据库 MySQL
【YashanDB 知识库】php 查询超过 256 长度字符串,数据被截断的问题
php 查询超过 256 字节数据,显示被截断:yashandb 的 odbc 驱动接口 SQLGetData 现在只支持单次查询,不支持多次取数据的操作。 isql 显示不出来,isql 工具最大只查询 300 长度的数据,超过了该长度未正常显示。
|
11月前
|
安全 Java 编译器
什么是AOP面向切面编程?怎么简单理解?
本文介绍了面向切面编程(AOP)的基本概念和原理,解释了如何通过分离横切关注点(如日志、事务管理等)来增强代码的模块化和可维护性。AOP的核心概念包括切面、连接点、切入点、通知和织入。文章还提供了一个使用Spring AOP的简单示例,展示了如何定义和应用切面。
1243 1
什么是AOP面向切面编程?怎么简单理解?
|
12月前
|
存储 关系型数据库 MySQL
如何在MySQL中创建数据库?
【10月更文挑战第16天】如何在MySQL中创建数据库?
|
存储 机器学习/深度学习 人工智能
向量数据库简介和5个常用的开源项目介绍
在人工智能领域,有大量的数据需要有效的处理。随着我们对人工智能应用,如图像识别、语音搜索或推荐引擎的深入研究,数据的性质变得更加复杂。这就是向量数据库发挥作用的地方。与存储标量值的传统数据库不同,向量数据库专门设计用于处理多维数据点(通常称为向量)。这些向量表示多个维度的数据,可以被认为是指向空间中特定方向和大小的箭头。
4038 1