VLDB论文解读|一文剖析阿里云Lindorm数据库在DB for AI领域的探索

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 论文主要针对大规模监控场景下海量时序数据的存储、访问、分析和管理带来的挑战,描述了阿里云多模数据库 Lindorm 带来的一站式解决方案。

文/Lindorm AI团队


引言


日前,在加拿大温哥华召开的数据库领域顶会 VLDB 2023 上,来自阿里云瑶池数据库团队的论文《Lindorm TSDB: A Cloud-native Time-series Database for Large-scale Monitoring Systems》,成功入选VLDB Industrial Track(工业赛道)


论文背景


论文主要针对大规模监控场景下海量时序数据的存储、访问、分析和管理带来的挑战,描述了阿里云多模数据库 Lindorm 带来的一站式解决方案。其中,阿里云数据库团队在架构上大胆探索了数据库集成 AI 引擎的方式,让用户通过低门槛的 SQL 语句就可以对数据库内的时序数据进行训练和推理,并通过结合数据库成熟的对大规模数据的存储、访问和管理的技术,实现了分布式并行、批量和靠近数据的训练和推理优化。


在监控场景中,针对时序数据的智能分析如异常检测、时序预测等是一个普遍需求,现有做法通常需要在外部构建一个数据处理平台,将数据从数据库中拉出来后进行训练,然后将模型进行部署后对外提供时序分析服务。这种做法存在几个问题:


  1. 开发人员需要熟悉时序数据智能分析的相关算法和模型,编写代码实现模型训练和推理,具备较高的开发成本;
  2. 需要搭建一个复杂的数据处理平台,包括从数据库中拉取数据的组件、一个能高效处理大规模时序数据的机器学习平台以及对模型进行管理的组件,具备较高的运维成本;
  3. 从数据库中拉取数据进行模型训练和推理需要耗费大量带宽,并且随着时间推移,当时序数据发生特征变化时,需要频繁重新拉取数据进行模型更新,模型应用的时效性较差。


为了解决上述问题,我们在 Lindorm 数据库中集成了 Lindorm ML 组件,负责对时序数据进行 In-DB 的训练和推理。如下图所示,用户可以通过一个 CREATE MODEL 的 SQL 在数据库中创建(训练)一个机器学习模型,然后通过另外一个 SQL 函数使用模型对指定数据进行推理。


image.png


由于时序数据的智能分析具有时间线间独立的特点,Lindorm ML 组件利用了 Lindorm TSDB 对时序数据按照时间线维度进行存储的特性以及分布式的组织和管理方式将对应的机器学习模型也进行了分区(对用户透明),从而能够实现时间线维度的计算及分布式并行训练和推理优化。进一步的,在单机节点上,时序分析所需要的预处理和训练、推理等相关的算法被设计实现成 TSDB 流式执行引擎的算子,在时序数据从存储引擎中被扫描出来后就进行计算,再结合查询下推等特性,实现了靠近数据的计算优化,大大减少了数据在数据库内节点间的传输带宽消耗。


image.png


由于减少了从数据库中进行数据拉取的开销,通过和外部进行时序分析的实验对比,Lindorm ML 在训练和推理性能上有 2 倍以上的提升。更重要的是,Lindorm ML 内置了一些成熟的时序分析算法,用户直接通过几个 SQL 就能使用这些机器学习算法对自己的数据进行分析,门槛得到极大的下降。


image.png


架构再升级!Lindorm AI引擎支持大模型应用构建


随着 ChatGPT 带来的 AI 热潮及对模型即服务(Model as a Service)趋势的拥抱,Lindorm 团队将 Lindorm ML 组件升级成了 AI 引擎,除了对时序数据进行建模分析之外,还支持了预训练 AI 模型在数据库内的灵活导入,用于对数据库内存储的多模数据进行分析、理解和处理,从而对用户提供一站式 AI 数据服务。


结合大语言模型(LLM)的能力在企业内部知识库场景进行检索和问答是目前比较火热的 AI 应用,在这其中,除了 LLM 之外,还有两个比较关键的组件,其一是向量数据库,负责通过向量检索技术实现相似文本检索,为 LLM 补充上下文。还有一个则是对知识库文档进行加工和处理的服务,包括对文档进行预处理、切片及向量化(Embedding)。现有解决方案往往需要开发者基于一些流行框架如 LangChain 等来实现,尽管这些框架已经提供了基础的功能及对一些可选组件或服务的对接封装,仍然不是开箱即用的,直接基于它们来搭建一个知识问答应用是比较难真正落地的。一来这些框架具备一定的上手门槛,开发者首先需要学习框架的使用,并对其提供的功能进行深入对比(比如多种文本切片方法)和调优,这些预置的方法在效果上往往达不到生产落地的要求。此外,开发者还需要解决这个复杂架构中如向量数据库、Embedding服务的部署和运维的问题,以及知识库文档的更新等问题。针对这个场景, Lindorm AI 引擎提供了一站式的解决方案用户只需要在数据库中存入知识库文档,由数据库自动完成文档的预处理、切片、向量化等过程,通过一个 SQL 函数就能实现针对文档的语义检索,及结合 LLM 进行问答。利用数据库成熟的数据处理能力,在用户看来,只是针对知识库文档建了一个特殊的 AI 驱动的语义索引,索引建好之后就可以进行语义检索及问答,文档的新增、更新、删除这些过程对用户来说都是透明的。作为一个云服务, Lindorm AI 引擎提供的这个解决方案已经在云上业务中落地


除了私域数据知识问答场景之外,Lindorm AI 引擎还支持一站式多模态检索解决方案,包括通过文本检索图片,以及以图搜图等。和知识问答场景类似,用户不再需要和难以理解的向量以及多个服务打交道,只需要将图片本身(或图片的地址)存储于数据库中,数据库会自动利用 AI 模型的能力对图片进行一站式向量化、存储以及检索,大大简化业务的整体架构,提升开发和运维效率。


结语


从上述知识问答和多模态检索解决方案中可以看到,结合 AI 的能力,从某种意义上,使得数据库对于文本、图像等这类非结构化数据,实现了从简单的“存储和处理”到“理解和应用”的跃迁。在未来,除了数据本身之外,利用 AI 对数据资产进行理解和管理也会是我们继续探索的一个重要方向。正如Lindorm数据库的宗旨是“让数据存得起、看得见、算得好”,我们希望能让更多用户可以更好的用好数据,使得数据价值不断放大。



阿里云Lindorm数据库推出智能问答体验版试用活动啦!

🎉 秒级开通,仅60元/月。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统,快来试用吧!

点击链接即刻开启试用~

相关文章
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
140 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
10天前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
56 27
|
29天前
|
存储 人工智能 数据管理
|
22天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
29天前
|
存储 SQL 人工智能
Lindorm:AI和具身智能时代的海量多模数据服务
本次分享由阿里云资深技术专家沈春辉介绍Lindorm数据库在AI和具身智能时代的应用。Lindorm定位于提供海量多模数据服务,融合了结构化、半结构化及非结构化数据的处理能力,支持时序、地理位置、文本、向量等多种数据类型。其核心特点包括多模一体化、云原生分布式架构、异步攒批写入、冷热数据分离、深度压缩优化、丰富索引和Serverless计算等,旨在提升研发效率并降低成本。Lindorm已广泛应用于车联网领域,覆盖60%国内头部车企,支撑近百PB数据规模,带来90%业务成本下降。
|
6月前
|
人工智能 算法 搜索推荐
数据平台演进问题之在AI时代传统数据库会面临什么变化
数据平台演进问题之在AI时代传统数据库会面临什么变化
|
2月前
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
318 15
|
3月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
238 1
|
3月前
|
存储 人工智能 Java
Neo4j从入门到精通:打造高效知识图谱数据库 | AI应用开发
在大数据和人工智能时代,知识图谱作为一种高效的数据表示和查询方式,逐渐受到广泛关注。本文从入门到精通,详细介绍知识图谱及其存储工具Neo4j,涵盖知识图谱的介绍、Neo4j的特点、安装步骤、使用方法(创建、查询)及Cypher查询语言的详细讲解。通过本文,读者将全面了解如何利用Neo4j处理复杂关系数据。【10月更文挑战第14天】
288 6
|
4月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
88 4