Lindorm:AI和具身智能时代的海量多模数据服务

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 本次分享由阿里云资深技术专家沈春辉介绍Lindorm数据库在AI和具身智能时代的应用。Lindorm定位于提供海量多模数据服务,融合了结构化、半结构化及非结构化数据的处理能力,支持时序、地理位置、文本、向量等多种数据类型。其核心特点包括多模一体化、云原生分布式架构、异步攒批写入、冷热数据分离、深度压缩优化、丰富索引和Serverless计算等,旨在提升研发效率并降低成本。Lindorm已广泛应用于车联网领域,覆盖60%国内头部车企,支撑近百PB数据规模,带来90%业务成本下降。

本次分享的主题是Lindorm:AI和具身智能时代的海量多模数据服务,由里云智能集团数据库产品事业部资深技术专家沈春分享。本次将分享关于新的AI和聚智能时代新的时代下面临的数据挑战,以及阿里云lindorm数据库最近一年方向的思考和能力建设

 

一、AI和具身智能时代的数据挑战

1.信息时代变革

在过去的40年在座的各位经历了信息时代变革,每一次大的技术变革,都会催生各种丰富多样的业务形态,新的业务形态的需求和数据的变化是在一次次的驱动数据库的进化


2.PC时代

在PC时代时,数据主要结构化为主加上一定的查询和分析


3.互联网时代

到互联网时代,随着结构化数据和更复杂的分析文本检索的需求的加入,从2000年开始,以hadoop mongo DB数据库为代表的新型的数据库产品得到了快速的发展,分别解决了很多数据的在线和离线的需求


4.AI时代

在新的AI时代,数据层面开始对非结构化的数据,以及基于非结构化数据的多模态的搜索或数据的理解推理有了进一步的需求,可以相信这一次的技术变革也会大幅的去推动和促进数据库层面的变革


以具身智能的场景为例目前智能化的汽车或各种形态的机器人,以及APP上网上的各种AI助理,都可以把它视为是一种具身智能,具身智能本身在产生类似于像设备的信号的数据位置的数据,以及很多标签,日志,以及基于这些数据特征向量产生了丰富的称之为是多模态的多形态的数据在传统的基于互联网的架构下构建的解决方案中,采用的是一种针对不同的数据,使用不同的数据库来解决不同场景的问题


一般把它分为两大类,在线服务分析计算。这两大类的数据库分别针对不同形态的数据,最终形成业务为解决自己场景的需求,需要叠加不同于HBase PostGIS MongoDB等非常多样的数据库,这对快速迭代的AI业务有非常大的阻力如今每一个人都在期待AI业务给生活和工作带来新的变化或新的价值,需要高速的去迭代效率,但是底下的数据的设施的多样化会严重的阻碍的开发效率。这些多样化的系统本身也引入了很复杂的架构,以及随之而来的各种运维复杂度,相关的资源成本开销。所以阿里云lindorm多模数据库面向新型的AI场景下,思考在AI场景下数据库应该长什么样。

 

二、多模数据库Lindorm定位与设计

1.Lindorm定位

经过过去两年的探索和结合最新的前线的AI的场景lindorm。阿里云的云原生多模数据库lindorm定位于打造一个面向AI时代的海量多模数据服务,把过去传统的需要多个数据库组合解决的方案式的解决方案,通过提供多样化的产品能力把它融合在一个产品里,能力主要也是面对在具身智能的场景常见的数据,比如半结构化结构化的时序数据地理位置数据标签二值数据文本数据向量特征数据,都是新型的新时代的主要的数据,针对这些数据lindorm能够进行统一的多模化的数据存储管理,以及能够提供检索复杂,分析AI推理等多样化的查询能力。


2.lindorm发展历史

lindorm是从2011年开始诞生于互联网时代。为阿里淘宝电商提供大宽表服务,服务在阿里包括支付宝,蚂蚁,菜鸟等各个电商的场景里面提供做出了非常多的优化和感性,在2019年随着阿里云的整体的业务节奏,lindorm产品在阿里云官网上进行上线,提供企业级的Hbase服务。满足互联网很多头部像小米,携程互联网公司场景的HBase和相关的需求,为满足互联网AI新兴未来行业发展的需求,lindorm的整体定位进行升级,从原来的大宽表的数据库,升级成多模态的数据库该升级能够提供宽表之外的时序,时空等多种类型,同时支持基础的点查搜索分析2023年lindorm面向AI浪潮,在lindorm内部提供向量搜索的能力和IN-DB AI推力的能力来满足AI的业务应用的相关需求

 

三、Lindorm的核心能力特点

 

1.多模一体化,极速提升研发效率

了解lindorm数据库核心能力特点和技术实践作为数据库拥有统一的典型的SQL的接口在接口下,用户可以去定义丰富的数据类型,基础的数值类型复合类型以及类似于LB或向量以及其他能够支持复杂需求的数据类型数据类型在一张大表格可以支持达到腕列级,超过上万的列的大宽表列可以动态的增加或删除,并返回整个数据处理对于业务,针对超宽的大宽表,能够通过SQL去做基础的,如点查或范围的查询组件的查询


同时可开展各种非组件的多位多条件的查询或根据关键词做检索以及根据向量做向量搜索。在大宽表业务层面,了解主流的大部分的数据查询需求,以及如何支持查询和过去不能支持查询的原因。lindorm通过多样化的引擎技术,针对不同的数据处理需求,既有基于满足高效检查的宽表索引的技术引擎,也有基于倒排或向量索引的相关的技术支持搜索类相关需求,并通过索引的形式无感知的访问数据,而不需要像传统多个产品方案用多套API,或需要有一个数据的通道去打通两者之间的数据,在lindorm数据的感知数据中,不同数据的列入的传输不同的API统一被分装和收敛,用户使用的是一个超级能力的大型大表的数据库


2.云原生和分布式,从0到PB级的弹性伸缩

数据库设计技术架构遵循两个理念分别是云原生分布式用户层面,它能够支持从0~pB级数据的资源的弹性伸缩所有的数据都是在下层的分布式文件系统,它随着数据的增长而自动弹性对于不同的查询需求,简单查询全文搜索,都能够独立的进行资源伸缩。在lindorm中,每一个组件都能做到存储和计算的分离,计算负载的分离以及不同计算的独立的伸缩


3.异步攒批,最大化写入吞吐

对于海量的数据,传统的数据库的写入事物的写入,从rpc到SQL的解析到事物的处理,到各种内存的排序flash),要经过比较长的阶段对于传统数据库没有做批量化异步化的逻辑处理整体写入链路长,适合吞吐量较低的写入lindorm中,针对海量的数据,在写入的链路层面进行大幅的架构简化以及异步展批,把多行的数据合成一个主包,高吞吐的写入到lindorm系统中例如以车为代表车机数据,如果有100~ 1000个列,使用开源HBcase结构方案,每个扩展能支持的写入是10.5万秒。使用lindorm的方案,写入能力能够上升到72.6万,整体会有7倍的提升


4.多级介质和冷热分离,最小化存储成本

Lindorm海量数据进行多级介质的分离,分离可使用户选择不同时间跨度的数据,M天以前可以选择数据,n天以内近期的数据可以使用热数据。lindorm本身支持4级存储介质,4级存储介质的性能和成本有很好阶梯性的差别不同的用户可以按需去选择不同的存储介质来大幅的提升整体海量数据的存储的性价比


5.深度压缩优化,降低一半存储空间

存储层面,lindorm关于压缩的优化,传统的压缩手段无法应对海量的AI时代车联网时代数据的特征,lindorm重点研发了面向以持续数据为代表的持续专用的压缩算法,压缩算法再结合通用的压缩手段,相比于目前开源市面有一半的存储空间的优化观察右边表格,在完全真实数据下,车企中通过lindorm的持续的压缩技术,相比于业界已经非常领先的格式会有进一步的40%的优化,在左边针对在线的行存的数据库以及MySQL开源数据下也会有一半的压缩优化


6.丰富索引,加速任意灵活查询检索

了解lindorm在数据查询能力的特点,lindorm能支持丰富的搜索能力,既包括全文的检索,多维的检索,也包AI应用强依赖的向量搜索,lindorm能够在SQL的界面去混合执行查询检索,并提供数据的查询能力针对不同的场景,使用了不同的索引技术,常见主键的查询,主要去使用类似lsm的基于行存的PK的检索技术针对全文的检索以及多条件的随机组合的检索,主要使用像lucene倒排的技术,以及做关键词的匹配,在向量检索方面lindorm重点除了传统的基于内存的索引技术之外,重点去攻坚和落地类似于ifp为核心的磁盘缩影技术相比基于内存的技术,它可以把整体对内存的使用大幅下降一个数量级。最低可以做到只消耗16分之一的内存可获得对应的向量检索的能力在SQL界面下索引技术,给用户提供一个丰富的灵活的混合查询和检索能力,可以大幅提升用户开发业务的效率,以及查询检索的性能。


7.Serverless 计算,能离线ETL,也能交互分析

了解lindorm在计算层面的能力。lindorm的计算基于云原生的架构理念使用阿里云的容器服务,结合开源的SPARK引擎来提供收费式的按需使用的效果对业务需要去搭建一个是100台的集群来提供一个固定式spark服务,不同任务之间需要一定的资源增强,或突发临时紧急任务,需要去不同的腾挪资源,无法快速的响应业务的需求对业务而言能使用lindorm的设备的技术Serverless的技术可以解决业务需求和资源成本控制的矛盾性问题。过去存在矛盾冲突问题,想要业务支撑好,需要很多资源和成本。相反为了节省成本,牺牲质量使用了lindormserveless计算的技术,可以使业务在有需求的时候,才会消耗资源,同时资源越多,业务完成的越快,总成本保持不变通过serveless计算技术可以大幅的提升借带应用对于数据的按需分析弹性分析的需求

 

四、Lindorm一站式车联网多模数据平台

 

了解基于lindorm的多模的数据能力搭接的一站式的多模数据平台的解决方案。过去,lindorm围绕车联网,围绕汽车的数据的特点和需求,构建了以lindorm为中心的一站式的多数据平台,并且被广泛应用目前熟知的各种汽车品牌都在使用,已经覆盖60%国内的头部车企支撑近百PB的数据的规模带来90%业务成本的下降,相比于传统基于开源的大数据和在线多模数据库的组合解决方案,整体一体化的平台帮助业务大幅的消化在数据方面企业的负担,包括资源成本运维以及业务效益

相关文章
|
8天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179591 21
|
15天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
17天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9439 24
|
21天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5106 15
资料合集|Flink Forward Asia 2024 上海站
|
21天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
5天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
29天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1247 74