内附源码|头部基模企业信赖之选——DMS+Lindorm智能搜索方案

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 本文为数据库「拥抱Data+AI」系列连载第6篇,针对企业构建智能搜索服务的痛点,介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务,深入分析了DMS+Lindorm的智能搜索解决方案。

本文为数据库「拥抱Data+AI」系列连载第6篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。

本篇针对企业构建智能搜索服务的痛点,介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务,深入分析了DMS+Lindorm的智能搜索解决方案。


1、智能搜索成为信息消费的趋势


近两年,AI大模型的迅速崛起为搜索产品注入了新的活力,这一发展不仅改变了用户获取信息的方式,也为企业和开发者带来了新的机遇。

如今,检索的形式不再局限于关键词匹配,而是朝向更高效、更智能的对话式问答演进。原本用户检索一个专业问题通常需要从多个平台搜集资料,并花大量时间对这些资料进行整合,而智能检索则可以进一步理解用户的搜索意图,帮助用户快速整合提炼信息,大幅提升了信息获取的效率。

随着用户信息消费方式的改变,搜索产品的智能化成为提升用户体验、增加用户粘性的重要手段。微软率先在Bing中整合GPT模型,力求提供更符合用户需求的回答;Google也推出了Gemini,直接针对用户提问来生成答复。

越来越多企业希望为域内用户提供智能搜索服务,而服务的构建需要面临以下三座大山:

1. 快速搭建和迭代的需求:当前AI行业还处于快速发展期,企业需要将主要精力集中在核心业务创新上,从头搭建基础设施效率低,涉及组件多,这些组件架构各异、运维方式不同、使用方式不同,对于运维开发人员来说学习成本很高,同时部署或更新模型也需要大量的时间和技术投入。

2. 数据规模膨胀和成本增加:随着数据规模的不断增长,内存成本和计算资源的需求也会显著增加。传统的检索方案可能无法有效处理大规模数据,导致检索速度下降,同时增加硬件投入和运维成本。

3. 检索的准确性和灵活性:通用搜索引擎方案的检索对业务全程黑盒,业务难以根据实际效果对架构进行调整。业务需要一套更加灵活的智搜方案,比如能够支持自定义部署微调后的Embedding、Rerank模型等。


2、Data+AI解决方案


今年9月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的Data+AI数据管理服务”。该平台通过OneMetaOneOps两大创新,简化了数据管理与AI开发,实现DMS+X一站式的Data+AI全生命周期管理。在DMS+X之上,阿里云将助力企业数据以最快的速度拥抱AI,落地业务,产生价值。

1.png

DMS+Lindorm为广泛的企业群体提供智能搜索应用构建和落地的解决方案,提供强大的AI Infra和低门槛的Data+AI管理平台,加速企业AI应用落地。其中,云原生多模数据库Lindorm作为一款AI时代的一体化开发平台,已经支持数家头部基模企业AI独角兽落地部署万亿数据级别的智能检索方案,并沉淀了一套成熟的服务体系。

云原生多模数据库Lindorm是为AI时代而生的多模数据服务,面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询和离线分析等一站式数据服务。Lindorm针对AI场景支持正排、全文、向量融合检索和AI推理能力,落地场景包括互联网级智能搜索、企业级智能知识库和非结构化数据检索等。


3、Lindorm智搜方案为何成为头部基模客户之选


一站式搭建,实现轻松运维和灵活调整

搭建一个智能搜索平台,首先需要对部署全流程进行拆解:

1、数据准备

首先需要对互联网信息和私域数据进行收集、加工和存储,这就需要用来存储大量数据的标量库;

2、知识向量化

为了同时支持全文和向量检索,同一份数据要经过切割和向量化处理后存储多份,这就需要一个将各种格式的标量数据转化为精准向量的推理引擎,以及一个用于高效存储向量数据的向量库;

3、构建检索系统

接着需要通过检索组件从知识库中检索相关的知识,不仅需要保证召回质量,还需要保证召回速度,这就需要一个高性能、多功能的搜索引擎;

4、集成大模型

为了让用户的问题可以被程序理解,让结果具备可读性,还需要调用大模型,以形成有条理的问答过程,这就需要调用大模型的接口;

5、数据流转和安全保障

以上这些组件之间还需要搭建起一套数据流转的链路,以保证数据的一致性。


首先,对运维开发人员来说要具备多技术栈能力,包括标量库、检索库和向量库的部署与使用;同时为了保证企业内部的数据的安全性,以上这些数据库都需要建立严谨的数据权限机制;又由于信息数据是动态更新的,各组件之间数据同步和维护的难度会比较高,这些问题无疑增加了开发复杂度,延长了项目周期,对于追求快速迭代的AI业务来说,是个严峻挑战。


▶︎ Lindorm作为智能搜索Infra支撑

使用多种开源组件进行部署,不可避免会面临架构冗余、数据处理流程繁琐、数据重复以及接口不兼容等问题。针对这种情况,Lindorm构建了一个全新的一站式数据平台,内部的多个引擎按需插拔,覆盖数据处理全链路,一体化提供离线批处理、在线分析、AI推理服务、融合检索(正排、倒排、全文、向量等),数据全程在Lindorm内部自动流转,无需额外建设和维护同步链路。

在模型部署方面,Lindorm已经集成了主流Embedding、LLM、Rerank模型等,对于运维开发人员来说,仅需使用SQL语句,即可在数据库内部部署和运行AI模型,极大地简化了智搜应用的开发流程。在此基础上,Lindorm同样支持企业自定义部署微调模型,从而根据实际效果进行调整和优化。

2.png


🤖️ 一站式构建智能搜索实操指南

以下指南旨在帮助您高效地利用开源数据集构建一个基于Lindorm的一站式智能搜索平台,提供了从模型部署、知识库构建到检索系统搭建的完整部署代码。代码下载地址:🔗https://github.com/search-demo/lindorm_smart_search/blob/main/lindorm_demo.ipynb

ps:如果您希望使用自己的数据集,可以尝试深入理解demo提供的代码逻辑,从而重新进行表结构的设计,并修改创建表、数据写入和查询等相关操作。


▶︎ Dify On DMS一站式端到端开发

在Lindorm作为AI Infra支撑的基础上,DMS托管的社区版Dify能够帮助业务进一步简化开发,实现端到端部署智能搜索应用。在Lindorm内部所构建的高质量知识库、检索pipline以及大模型,都可以在Dify on DMS进行白屏化配置与串联,并轻松完成模型版本管理、API配置、指标检测等运维工作。

Dify作为一款开源的LLM应用开发平台,提供从Agent构建到AI Workflow编排、模型管理等能力,帮助用户轻松构建和运营Gen-AI原生应用。DMS托管的Dify与阿里云生态进行了深度集成,包括通义大模型、瑶池数据库、百炼以及多款自研精品模型等,能够有效支撑客户落地端到端生产级AI应用,大幅降低管理成本,交付效率提升10倍。

3.png


降低成本存储,应对不断膨胀的海量数据

搜索平台的数据可达到PB级,还要面对未来数据的不断膨胀,数据存储成本将会远超计算成本,是企业的关键考量因素之一。Lindorm具备极高的存储性价比,在支撑低时延、高并发的检索需求的前提下,帮助企业将极大程度节省成本。

1. 高压缩比:Lindorm对ZSTD压缩算法进行了深度优化,在多种场景下所需的存储空间仅为HBase的1/2,MySQL的1/4。

2. 自动冷热分离:支持自动冷热分离,既能保证高频数据的查询效果,还能够帮业务节省低频数据的存储成本。

3. EC降幅本技术:Lindorm的EC降副本技术可以在保证数据可靠性和可用性的前提下,进一步帮助业务节省大量存储空间。

4.png


检索全流程优化,打造最高性价比

检索质量是构建智能检索平台的另一重点,而知识库加工、embedding效果、召回模式等都与检索的准确率相关。Lindorm围绕检索的前、中、后阶段进行优化,相较于Elasticsearch开源方案表现出色。

1. 高质量内容解析:Lindorm擅长处理各种非结构化数据,以文档结构化为技术底座对PDF、图片、网页等进行结构化识别与理解,并在内部自动完成chunking和embedding,从而保证后续的召回效果。

2. 多路召回和MultiQuery:Lindorm对接开源框架,从用户提问到内通召回、再到结果处理,都进行了相应的优化,并且支持用户通过自定义模型、自定义文档质量分等方式对检索效果进行调优。

3. 数据灵活更新与动态扩展:Lindorm提供基于磁盘的向量索引技术,在索引构建后依然支持数据实时修改和实时可查,并且支持动态水平扩展。

5.png


4、总结和展望


Lindorm可以一站式替代多个开源组件的复杂架构,并且在成本更低的前提下,仍然在性能方面优于开源方案。后续,Lindorm将继续发挥多模的优势,满足企业更多样化的需求。

DMS+Lindorm一站式AI搜索解决方案大幅降低了企业落地智搜应用门槛,是所有企业进行搜索产品智能化转型的不二之选,选择所有头部基础大模型公司之所选,筑造企业AI基础设施,把握时代机遇,打造AI原生应用带来全新企业价值。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
存储 数据管理 数据处理
阿里云对象存储OSS价格_云存储服务_企业数据管理_存储
阿里云对象存储OSS价格_云存储服务_企业数据管理_存储,阿里云对象存储OSS收费有两种计费模式,即包年包月和按量付费,包年包月是指购买存储包、流量包来抵扣OSS产生的存储费核流量费,OSS标准(LRS)存储包100GB优惠价33元、500GB存储包半年162元、OSS存储包40GB一年9元,OSS流量包100G 49元/月
622 0
|
8月前
|
存储 人工智能 安全
阿里云网盘与相册服务(简称PDS)是阿里云为客户提供的面向企业、团队与个人的数据管理开放平台
阿里云网盘与相册服务(简称PDS)是阿里云为客户提供的面向企业、团队与个人的数据管理开放平台
303 1
|
存储 边缘计算 数据管理
Docker 存储驱动解析:选择最适合你的存储方案,优化容器化部署性能和数据管理
Docker 存储驱动解析:选择最适合你的存储方案,优化容器化部署性能和数据管理
402 0
|
4月前
|
数据采集 人工智能 数据管理
数据管理进化论:DMS助力企业实现智能Data Mesh
Gartner分析师认为Data Mesh对企业提升数据价值交付效率具有重要意义,阿里云数据管理服务DMS给出了对于Data Mesh的核心思考,包括企业什么时候应该考虑实施Data Mesh,如何解决业务团队素养和意愿问题。结合这些思考,DMS提出了企业可行的落地策略,即企业应以数据价值不断提升为导向,基于元数据驱动的Fabric、AI等能力实现智能Data Mesh,最终形成分布式和集中化的动态平衡,以达到企业数据驱动的最佳状态。
578 6
数据管理进化论:DMS助力企业实现智能Data Mesh
|
3月前
|
存储 数据管理 Java
双副本与双活:TDengine 为企业打造的高效数据管理利器
在现代数据管理中,企业对于可靠性、可用性和成本的平衡有着多样化的需求。为此,TDengine 在 3.3.0.0 版本中推出了两种不同的企业级解决方案:双活方案和基于仲裁者的双副本方案,以满足不同应用场景下的特殊需求。本文将详细探讨这两种方案的适用场景、技术特点及其最佳实践,让大家深入了解这两大方案如何帮助企业在高效可靠的数据存储和管理中取得成功。
46 0
|
4月前
|
缓存 负载均衡 数据管理
深入探索微服务架构的核心要素与实践策略在当今软件开发领域,微服务架构以其独特的优势和灵活性,已成为众多企业和开发者的首选。本文将深入探讨微服务架构的核心要素,包括服务拆分、通信机制、数据管理等,并结合实际案例分析其在不同场景下的应用策略,旨在为读者提供一套全面、深入的微服务架构实践指南。**
**微服务架构作为软件开发领域的热门话题,正引领着一场技术革新。本文从微服务架构的核心要素出发,详细阐述了服务拆分的原则与方法、通信机制的选择与优化、数据管理的策略与挑战等内容。同时,结合具体案例,分析了微服务架构在不同场景下的应用策略,为读者提供了实用的指导和建议。
|
5月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
244 1
|
数据采集 XML 运维
什么是主数据管理?企业主数据管理方法论
主数据又被称为黄金数据,其价值高也非常重要。对企业来说,主数据的重要性如何强调都不为过,主数据治理是企业数据治理中最为重要的一环。主数据管理的内容包括 主数据管理标准、主数据应用标准 和 主数据集成服务标准 三大类。
|
8月前
|
存储 机器学习/深度学习 运维
数据仓库与数据湖:解析企业数据管理的两大利器
在信息时代,企业数据的管理和分析变得至关重要。数据仓库和数据湖作为两种不同的数据管理模式,各自具有独特的特点和应用场景。本文将深入探讨数据仓库与数据湖的概念、优势和应用,帮助读者更好地理解和运用这两个工具。
198 0
|
SQL 人工智能 Cloud Native
玖章算术获评“浙江省创新型中小企业”,开启数据管理新时代
近日,浙江省工业和信息化厅开展了 2023 第二季度创新型中小企业评价工作,经企业自评、地市审核、抽查、市经信局审核评价等程序,玖章算术以优秀的自主创新能力通过认定,成为浙江省 2023 年度创新型中小企业。
129 0

热门文章

最新文章

相关产品

  • 数据管理