阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介: 阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。

阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。

https://huggingface.co/spaces/mteb/leaderboard


混合检索Embedding模型

随着RAG技术的广泛应用,其中关键检索链路中的Dense Embedding模型发展迅速,不断有SOTA模型出来,但所有Dense模型仍存在out-of-distribution时不精准的问题。

Query

Doc

Dense Similarity

Sparse Similarity

hwy14-186bku1

海尔洗碗机hwy14-186bku1

0.71

0.19

hwy15-186bku1

0.89

0.16

hwy14-186bku2

0.96

0.18

本文以实际场景中出现的产品型号词检索举例,Dense模型忽视了Query-Doc匹配中最重要的型号词,而是对句式接近的给出更高的相似度分数。对于这类问题Sparse模型处理得更好,保证了完全匹配的Doc可以排到第一位。


Dense与Sparse融合在实践中已经广泛应用,为了验证具体的融合效果,这里将Sparse Vector降维到固定维度的Sparse Embedding后与Dense Embedding拼接,得到混合的Hybrid Embedding。

在实现产品优势的背后,也离不开对模型性能的不断追求,C-MTEB榜单上的成果为我们提供了有力证明。C-MTEB榜单是专门用来评估中文Embedding模型的多任务混合评测榜单,具体包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型,共35个公开数据集。


对于其中的Retrieval检索任务,OpenSearch-text-hybrid模型提升最为明显,也印证了我们提出模型时观察到纯Dense模型的缺陷,检索任务上Sparse模型可以和Dense模型形成互补。


另外值得注意的几点:

  1. Hybrid Embedding融合时,Dense Embedding需要归一化,Sparse Embedding需要做适当缩放后拼接。
  2. Hybrid Embedding在检索算相似度的时候只能采用内积的方式。
  3. OpenSearch-text-hybrid在榜单上的结果是对Sparse Embedding做了降维,有少许精度损失,实际在OpenSearch RAG产品中引擎的实现可以不做降维,效果还有提升空间。


快速体验OpenSearch RAG

在了解了C-MTEB榜单上的卓越表现后,企业与开发者也可以快速体验OpenSearch RAG的强大功能。目前OpenSearch已支持RAG实验室,提供默认数据源,即可免费体验效果:

https://opensearch.console.aliyun.com/cn-shanghai/openknowledge/lab/base


开启混合检索模型,只需要在实例创建过程中,对数据同时配置上“向量模型”和“稀疏向量模型”即可。


开箱即用的 RAG 云产品

阿里云OpenSearch即是在以上技术实现逻辑下研发打磨的产品,是阿里巴巴一站式智能搜索业务开发平台,凭借多年搜索领域的深耕,结合搜索技术与通义系列、开源大模型,OpenSearch推出专注RAG场景开箱即用的LLM智能问答版产品。


OpenSearch LLM智能问答版适用于企业知识库、智能客服、电商导购、课程助手等多种场景,并可以对您现有的搜索场景结合LLM的能力进行升级,助您一站式快速构建RAG系统。

1、一站式端到端RAG服务,简单易用

  • 高效:只需上传业务数据,两分钟内即可快速搭建企业级RAG系统
  • 低成本:无需进行模型训练和部署运维,零研发成本、零代码门槛搭建RAG服务


2、精细化的RAG处理,效果过关

  • 多样性数据预处理:支持DOC、EXCEL、PDF、HTML文件内容解析;支持自动获取URL中的文本、图片支持自定义表结构,对excel、数据表进行基于SQL的表格问答
  • 多年沉淀的中文检索能力:支持Query分词、改写能力,内置多种切片、向量化模型,支持混合检索,配合重排模型等策略,提升检索效果
  • 数百个客户打磨的实战大模型:支持通义千问、llama2、falcon等多个大模型;持续对模型进行升级,提升准确率
  • 数据一致性:检索和生成的数据有一致性流转及用户体验,保障从检索到生成的效果稳定与连贯
  • 生态对接:对接钉钉、飞书、企业微信,将智能问答场景简单便捷的与IM工具进行结合
相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
相关文章
|
1月前
|
自然语言处理
阿里云百炼大模型服务--企业知识检索问答指南
阿里云百炼提供的企业知识检索问答应用可以帮助大家实现让大模型瞬间“开挂”的技能。结合上传的知识数据,大模型识别解析学习文档内容,最终给出生成式回复。我们在通义千问-Turbo/Max大模型基础上,将文件上传、读取、切片、向量化等过程都开发好预置在应用中,实现开箱即用,更能满足您的日常需求。
|
10天前
|
监控 Serverless API
阿里云函数计算的工作原理与事件驱动模型密切相关
【4月更文挑战第17天】阿里云函数计算的工作原理与事件驱动模型密切相关
64 4
|
18天前
|
机器学习/深度学习 编解码 人工智能
阿里云百炼的模型怎么选择并体验
本模块为您提供大模型服务平台百炼中支持的模型类型,便于您快速根据自己的需求选择所需模型!
|
20天前
|
人工智能 自然语言处理 测试技术
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
31 1
|
20天前
|
云安全 人工智能 定位技术
交通运输部公路科学研究院携手阿里云共建交通行业大模型
交通运输部公路科学研究院携手阿里云共建交通行业大模型
22 0
|
1月前
|
人工智能 数据可视化 API
阿里云百炼大模型服务--流程编排接入快速上手指南
流程编排是一种面向开发者的可视化开发工具,支持LLM、API、脚本等类型节点,旨在简化接入大型语言模型(LLM)流程,同时提供应用流程的全生命周期管理,包括流程的编排、试验、部署等,为开发者提供自定义AI应用开发一站式服务。
阿里云百炼大模型服务--模型训练指南
模型训练是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。
|
1月前
|
自然语言处理 算法 关系型数据库
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
1月前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
1月前
|
存储 分布式计算 网络协议
阿里云服务器内存型r7、r8a、r8y实例区别参考
在阿里云目前的活动中,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格,相比于活动内的经济型e、通用算力型u1实例来说,这些实例规格等性能更强,与计算型和通用型相比,它的内存更大,因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘,Hadoop、Spark集群等场景,本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格,以供参考。
阿里云服务器内存型r7、r8a、r8y实例区别参考

相关产品

  • 智能开放搜索 OpenSearch