阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。

阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。

https://huggingface.co/spaces/mteb/leaderboard


混合检索Embedding模型

随着RAG技术的广泛应用,其中关键检索链路中的Dense Embedding模型发展迅速,不断有SOTA模型出来,但所有Dense模型仍存在out-of-distribution时不精准的问题。

Query

Doc

Dense Similarity

Sparse Similarity

hwy14-186bku1

海尔洗碗机hwy14-186bku1

0.71

0.19

hwy15-186bku1

0.89

0.16

hwy14-186bku2

0.96

0.18

本文以实际场景中出现的产品型号词检索举例,Dense模型忽视了Query-Doc匹配中最重要的型号词,而是对句式接近的给出更高的相似度分数。对于这类问题Sparse模型处理得更好,保证了完全匹配的Doc可以排到第一位。


Dense与Sparse融合在实践中已经广泛应用,为了验证具体的融合效果,这里将Sparse Vector降维到固定维度的Sparse Embedding后与Dense Embedding拼接,得到混合的Hybrid Embedding。

在实现产品优势的背后,也离不开对模型性能的不断追求,C-MTEB榜单上的成果为我们提供了有力证明。C-MTEB榜单是专门用来评估中文Embedding模型的多任务混合评测榜单,具体包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型,共35个公开数据集。


对于其中的Retrieval检索任务,OpenSearch-text-hybrid模型提升最为明显,也印证了我们提出模型时观察到纯Dense模型的缺陷,检索任务上Sparse模型可以和Dense模型形成互补。


另外值得注意的几点:

  1. Hybrid Embedding融合时,Dense Embedding需要归一化,Sparse Embedding需要做适当缩放后拼接。
  2. Hybrid Embedding在检索算相似度的时候只能采用内积的方式。
  3. OpenSearch-text-hybrid在榜单上的结果是对Sparse Embedding做了降维,有少许精度损失,实际在OpenSearch RAG产品中引擎的实现可以不做降维,效果还有提升空间。


快速体验OpenSearch RAG

在了解了C-MTEB榜单上的卓越表现后,企业与开发者也可以快速体验OpenSearch RAG的强大功能。目前OpenSearch已支持RAG实验室,提供默认数据源,即可免费体验效果:

https://opensearch.console.aliyun.com/cn-shanghai/openknowledge/lab/base


开启混合检索模型,只需要在实例创建过程中,对数据同时配置上“向量模型”和“稀疏向量模型”即可。


开箱即用的 RAG 云产品

阿里云OpenSearch即是在以上技术实现逻辑下研发打磨的产品,是阿里巴巴一站式智能搜索业务开发平台,凭借多年搜索领域的深耕,结合搜索技术与通义系列、开源大模型,OpenSearch推出专注RAG场景开箱即用的LLM智能问答版产品。


OpenSearch LLM智能问答版适用于企业知识库、智能客服、电商导购、课程助手等多种场景,并可以对您现有的搜索场景结合LLM的能力进行升级,助您一站式快速构建RAG系统。

1、一站式端到端RAG服务,简单易用

  • 高效:只需上传业务数据,两分钟内即可快速搭建企业级RAG系统
  • 低成本:无需进行模型训练和部署运维,零研发成本、零代码门槛搭建RAG服务


2、精细化的RAG处理,效果过关

  • 多样性数据预处理:支持DOC、EXCEL、PDF、HTML文件内容解析;支持自动获取URL中的文本、图片支持自定义表结构,对excel、数据表进行基于SQL的表格问答
  • 多年沉淀的中文检索能力:支持Query分词、改写能力,内置多种切片、向量化模型,支持混合检索,配合重排模型等策略,提升检索效果
  • 数百个客户打磨的实战大模型:支持通义千问、llama2、falcon等多个大模型;持续对模型进行升级,提升准确率
  • 数据一致性:检索和生成的数据有一致性流转及用户体验,保障从检索到生成的效果稳定与连贯
  • 生态对接:对接钉钉、飞书、企业微信,将智能问答场景简单便捷的与IM工具进行结合
相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
相关文章
|
自然语言处理 分布式计算 Java
基于OpenSearch向量检索版和智能问答版搭建企业专属对话搜索系统
本文将介绍如何使用OpenSearch向量检索版和智能问答版,搭建灵活自定义的企业专属对话搜索系统。
1984 1
|
5月前
|
算法 物联网 数据库
阿里云 OpenSearch RAG 应用实践
本文介绍了阿里云OpenSearch在过去一年中在RAG方面的应用和探索。
27191 3
阿里云 OpenSearch RAG 应用实践
|
2月前
|
SQL 机器学习/深度学习 自然语言处理
Text-to-SQL技术演进 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法剖析
本文主要介绍了阿里云OpenSearch在Text-to-SQL任务中的最新进展和技术细节。
|
3月前
|
存储 人工智能 搜索推荐
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
飞天大数据平台产品问题之阿里云OpenSearch的定义如何解决
|
6月前
|
分布式计算 搜索推荐 MaxCompute
基于OpenSearch向量检索版的多主体识别最佳实践
本文将介绍如何通过OpenSearch向量检索版,在图像搜索服务中进行多主体识别。
136240 9
|
6月前
|
自然语言处理 分布式计算 算法
通过OpenSearch向量检索版进行混合检索的最佳实践
本文介绍如何通过OpenSearch向量检索版,使用稀疏-稠密向量进行混合检索,获得更好的搜索效果。
1631 0
|
12月前
|
自然语言处理 算法 数据库
OpenSearch向量检索和大模型方案深度解读
深度解读开放搜索在向量检索和大模型方面的升级演进。
81401 7
|
存储 分布式计算 算法
OpenSearch向量检索版和MaxCompute快速搭建图搜服务
本方案介绍用户在没有向量数据的情况下,通过直接导入图片源数据,在OpenSearch内部便捷完成图片向量化、向量搜索等步骤,实现以图搜图、以文搜图等多种图像检索能力。
1532 0
|
6月前
|
SQL 监控 搜索推荐
Elasticsearch 与 OpenSearch:开源搜索技术的演进与选择
Elasticsearch 与 OpenSearch:开源搜索技术的演进与选择
452 2
|
Web App开发 自然语言处理 搜索推荐
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。

相关产品

  • 智能开放搜索 OpenSearch