Lindorm:AI和具身智能时代的海量多模数据服务

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本次分享由阿里云资深技术专家沈春辉介绍Lindorm数据库在AI和具身智能时代的应用。Lindorm定位于提供海量多模数据服务,融合了结构化、半结构化及非结构化数据的处理能力,支持时序、地理位置、文本、向量等多种数据类型。其核心特点包括多模一体化、云原生分布式架构、异步攒批写入、冷热数据分离、深度压缩优化、丰富索引和Serverless计算等,旨在提升研发效率并降低成本。Lindorm已广泛应用于车联网领域,覆盖60%国内头部车企,支撑近百PB数据规模,带来90%业务成本下降。

本次分享的主题是Lindorm:AI和具身智能时代的海量多模数据服务,由里云智能集团数据库产品事业部资深技术专家沈春分享。本次将分享关于新的AI和聚智能时代新的时代下面临的数据挑战,以及阿里云lindorm数据库最近一年方向的思考和能力建设

 

一、AI和具身智能时代的数据挑战

1.信息时代变革

在过去的40年在座的各位经历了信息时代变革,每一次大的技术变革,都会催生各种丰富多样的业务形态,新的业务形态的需求和数据的变化是在一次次的驱动数据库的进化


2.PC时代

在PC时代时,数据主要结构化为主加上一定的查询和分析


3.互联网时代

到互联网时代,随着结构化数据和更复杂的分析文本检索的需求的加入,从2000年开始,以hadoop mongo DB数据库为代表的新型的数据库产品得到了快速的发展,分别解决了很多数据的在线和离线的需求


4.AI时代

在新的AI时代,数据层面开始对非结构化的数据,以及基于非结构化数据的多模态的搜索或数据的理解推理有了进一步的需求,可以相信这一次的技术变革也会大幅的去推动和促进数据库层面的变革


以具身智能的场景为例目前智能化的汽车或各种形态的机器人,以及APP上网上的各种AI助理,都可以把它视为是一种具身智能,具身智能本身在产生类似于像设备的信号的数据位置的数据,以及很多标签,日志,以及基于这些数据特征向量产生了丰富的称之为是多模态的多形态的数据在传统的基于互联网的架构下构建的解决方案中,采用的是一种针对不同的数据,使用不同的数据库来解决不同场景的问题


一般把它分为两大类,在线服务分析计算。这两大类的数据库分别针对不同形态的数据,最终形成业务为解决自己场景的需求,需要叠加不同于HBase PostGIS MongoDB等非常多样的数据库,这对快速迭代的AI业务有非常大的阻力如今每一个人都在期待AI业务给生活和工作带来新的变化或新的价值,需要高速的去迭代效率,但是底下的数据的设施的多样化会严重的阻碍的开发效率。这些多样化的系统本身也引入了很复杂的架构,以及随之而来的各种运维复杂度,相关的资源成本开销。所以阿里云lindorm多模数据库面向新型的AI场景下,思考在AI场景下数据库应该长什么样。

 

二、多模数据库Lindorm定位与设计

1.Lindorm定位

经过过去两年的探索和结合最新的前线的AI的场景lindorm。阿里云的云原生多模数据库lindorm定位于打造一个面向AI时代的海量多模数据服务,把过去传统的需要多个数据库组合解决的方案式的解决方案,通过提供多样化的产品能力把它融合在一个产品里,能力主要也是面对在具身智能的场景常见的数据,比如半结构化结构化的时序数据地理位置数据标签二值数据文本数据向量特征数据,都是新型的新时代的主要的数据,针对这些数据lindorm能够进行统一的多模化的数据存储管理,以及能够提供检索复杂,分析AI推理等多样化的查询能力。


2.lindorm发展历史

lindorm是从2011年开始诞生于互联网时代。为阿里淘宝电商提供大宽表服务,服务在阿里包括支付宝,蚂蚁,菜鸟等各个电商的场景里面提供做出了非常多的优化和感性,在2019年随着阿里云的整体的业务节奏,lindorm产品在阿里云官网上进行上线,提供企业级的Hbase服务。满足互联网很多头部像小米,携程互联网公司场景的HBase和相关的需求,为满足互联网AI新兴未来行业发展的需求,lindorm的整体定位进行升级,从原来的大宽表的数据库,升级成多模态的数据库该升级能够提供宽表之外的时序,时空等多种类型,同时支持基础的点查搜索分析2023年lindorm面向AI浪潮,在lindorm内部提供向量搜索的能力和IN-DB AI推力的能力来满足AI的业务应用的相关需求

 

三、Lindorm的核心能力特点

 

1.多模一体化,极速提升研发效率

了解lindorm数据库核心能力特点和技术实践作为数据库拥有统一的典型的SQL的接口在接口下,用户可以去定义丰富的数据类型,基础的数值类型复合类型以及类似于LB或向量以及其他能够支持复杂需求的数据类型数据类型在一张大表格可以支持达到腕列级,超过上万的列的大宽表列可以动态的增加或删除,并返回整个数据处理对于业务,针对超宽的大宽表,能够通过SQL去做基础的,如点查或范围的查询组件的查询


同时可开展各种非组件的多位多条件的查询或根据关键词做检索以及根据向量做向量搜索。在大宽表业务层面,了解主流的大部分的数据查询需求,以及如何支持查询和过去不能支持查询的原因。lindorm通过多样化的引擎技术,针对不同的数据处理需求,既有基于满足高效检查的宽表索引的技术引擎,也有基于倒排或向量索引的相关的技术支持搜索类相关需求,并通过索引的形式无感知的访问数据,而不需要像传统多个产品方案用多套API,或需要有一个数据的通道去打通两者之间的数据,在lindorm数据的感知数据中,不同数据的列入的传输不同的API统一被分装和收敛,用户使用的是一个超级能力的大型大表的数据库


2.云原生和分布式,从0到PB级的弹性伸缩

数据库设计技术架构遵循两个理念分别是云原生分布式用户层面,它能够支持从0~pB级数据的资源的弹性伸缩所有的数据都是在下层的分布式文件系统,它随着数据的增长而自动弹性对于不同的查询需求,简单查询全文搜索,都能够独立的进行资源伸缩。在lindorm中,每一个组件都能做到存储和计算的分离,计算负载的分离以及不同计算的独立的伸缩


3.异步攒批,最大化写入吞吐

对于海量的数据,传统的数据库的写入事物的写入,从rpc到SQL的解析到事物的处理,到各种内存的排序flash),要经过比较长的阶段对于传统数据库没有做批量化异步化的逻辑处理整体写入链路长,适合吞吐量较低的写入lindorm中,针对海量的数据,在写入的链路层面进行大幅的架构简化以及异步展批,把多行的数据合成一个主包,高吞吐的写入到lindorm系统中例如以车为代表车机数据,如果有100~ 1000个列,使用开源HBcase结构方案,每个扩展能支持的写入是10.5万秒。使用lindorm的方案,写入能力能够上升到72.6万,整体会有7倍的提升


4.多级介质和冷热分离,最小化存储成本

Lindorm海量数据进行多级介质的分离,分离可使用户选择不同时间跨度的数据,M天以前可以选择数据,n天以内近期的数据可以使用热数据。lindorm本身支持4级存储介质,4级存储介质的性能和成本有很好阶梯性的差别不同的用户可以按需去选择不同的存储介质来大幅的提升整体海量数据的存储的性价比


5.深度压缩优化,降低一半存储空间

存储层面,lindorm关于压缩的优化,传统的压缩手段无法应对海量的AI时代车联网时代数据的特征,lindorm重点研发了面向以持续数据为代表的持续专用的压缩算法,压缩算法再结合通用的压缩手段,相比于目前开源市面有一半的存储空间的优化观察右边表格,在完全真实数据下,车企中通过lindorm的持续的压缩技术,相比于业界已经非常领先的格式会有进一步的40%的优化,在左边针对在线的行存的数据库以及MySQL开源数据下也会有一半的压缩优化


6.丰富索引,加速任意灵活查询检索

了解lindorm在数据查询能力的特点,lindorm能支持丰富的搜索能力,既包括全文的检索,多维的检索,也包AI应用强依赖的向量搜索,lindorm能够在SQL的界面去混合执行查询检索,并提供数据的查询能力针对不同的场景,使用了不同的索引技术,常见主键的查询,主要去使用类似lsm的基于行存的PK的检索技术针对全文的检索以及多条件的随机组合的检索,主要使用像lucene倒排的技术,以及做关键词的匹配,在向量检索方面lindorm重点除了传统的基于内存的索引技术之外,重点去攻坚和落地类似于ifp为核心的磁盘缩影技术相比基于内存的技术,它可以把整体对内存的使用大幅下降一个数量级。最低可以做到只消耗16分之一的内存可获得对应的向量检索的能力在SQL界面下索引技术,给用户提供一个丰富的灵活的混合查询和检索能力,可以大幅提升用户开发业务的效率,以及查询检索的性能。


7.Serverless 计算,能离线ETL,也能交互分析

了解lindorm在计算层面的能力。lindorm的计算基于云原生的架构理念使用阿里云的容器服务,结合开源的SPARK引擎来提供收费式的按需使用的效果对业务需要去搭建一个是100台的集群来提供一个固定式spark服务,不同任务之间需要一定的资源增强,或突发临时紧急任务,需要去不同的腾挪资源,无法快速的响应业务的需求对业务而言能使用lindorm的设备的技术Serverless的技术可以解决业务需求和资源成本控制的矛盾性问题。过去存在矛盾冲突问题,想要业务支撑好,需要很多资源和成本。相反为了节省成本,牺牲质量使用了lindormserveless计算的技术,可以使业务在有需求的时候,才会消耗资源,同时资源越多,业务完成的越快,总成本保持不变通过serveless计算技术可以大幅的提升借带应用对于数据的按需分析弹性分析的需求

 

四、Lindorm一站式车联网多模数据平台

 

了解基于lindorm的多模的数据能力搭接的一站式的多模数据平台的解决方案。过去,lindorm围绕车联网,围绕汽车的数据的特点和需求,构建了以lindorm为中心的一站式的多数据平台,并且被广泛应用目前熟知的各种汽车品牌都在使用,已经覆盖60%国内的头部车企支撑近百PB的数据的规模带来90%业务成本的下降,相比于传统基于开源的大数据和在线多模数据库的组合解决方案,整体一体化的平台帮助业务大幅的消化在数据方面企业的负担,包括资源成本运维以及业务效益

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
4
5
0
321
分享
相关文章
Dify+DeepSeek实战教程!企业级 AI 文档库本地化部署,数据安全与智能检索我都要
接下来这篇文章,就打算用最接地气的方式,手把手带你从 0 到 1 搭建一套专属的本地知识库系统。无论你是想优化企业内部文档检索(不用担心敏感数据上传云端的风险),还是像我一样想为用户打造更智能的文档服务,都能跟着步骤一步步实现。咱们不卖关子,直接上干货
Dify+DeepSeek实战教程!企业级 AI 文档库本地化部署,数据安全与智能检索我都要
让AI真正懂生产的工业智能体长啥样?一个评测告诉你答案
本文探讨了工业互联网平台与大模型技术融合的趋势,重点介绍卡奥斯COSMOPlat平台。该平台通过智能体应用构建,提升生产效率、优化流程并降低开发成本。文章还分析了工业大模型在知识引擎、智能应用开发等方面的应用价值,并通过案例展示其在设备管理、供应链优化中的成效。随着政策推动和市场需求增长,“人工智能+工业互联网”模式正加速产业升级,为工业企业提供新生产力工具,助力数字化转型与智能化发展。
65 5
让AI真正懂生产的工业智能体长啥样?一个评测告诉你答案
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
137 8
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
127 3
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
WiseMindAI 是一款由 Chris 开发的 AI 智能学习助手,支持数据完全本地化存储,确保用户隐私安全。它兼容多种文档格式(如 PDF、Markdown 等),并提供 AI 文档总结、智能笔记、沉浸式翻译、知识卡片生成等功能。此外,WiseMindAI 支持 10+ 大语言模型和自定义 AI 插件,适用于 Windows 和 Mac 平台,支持简体中文、繁体中文及英文。
243 74
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。
143 15
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
259 19
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
阿里云双项入选首批智算一体化权威评估 以AI Stack加速政企智能化升级 ——万卡智算集群服务推进方阵(ICCPA)第三期沙龙在京举办
2024年4月9日,中国信通院主办的智算集群服务沙龙第三期在京召开。阿里云凭借领先的AI技术能力,成为首批通过《面向大模型的智算一体化解决方案》评估的云厂商,并入选行业应用案例。会上,阿里云AI Stack赋能政企大模型高效落地,提供软硬一体推理优化框架,支持主流开源模型快速适配,助力企业构建高性能私有化AI服务,已在政务、金融等领域广泛应用。
通义灵码:以AI重塑开发者生产力,解锁智能编程新范式
通义灵码是阿里云推出的一款AI智能编程助手,基于通义大模型打造,深度集成于主流IDE。它不仅提供全场景智能代码生成、对话式开发体验和工程化智能重构等功能,还通过百亿级参数大模型底座、企业级环境适配、私有化部署等优势,重新定义人机协作边界。在真实开发场景中,通义灵码显著提升API开发与算法优化效率,助力开发者从机械劳动转向创造性对话,开启人机协同的新时代。
66 9

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等