阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。
https://huggingface.co/spaces/mteb/leaderboard
混合检索Embedding模型
随着RAG技术的广泛应用,其中关键检索链路中的Dense Embedding模型发展迅速,不断有SOTA模型出来,但所有Dense模型仍存在out-of-distribution时不精准的问题。
Query |
Doc |
Dense Similarity |
Sparse Similarity |
hwy14-186bku1 |
海尔洗碗机hwy14-186bku1 |
0.71 |
0.19 |
hwy15-186bku1 |
0.89 |
0.16 |
|
hwy14-186bku2 |
0.96 |
0.18 |
本文以实际场景中出现的产品型号词检索举例,Dense模型忽视了Query-Doc匹配中最重要的型号词,而是对句式接近的给出更高的相似度分数。对于这类问题Sparse模型处理得更好,保证了完全匹配的Doc可以排到第一位。
Dense与Sparse融合在实践中已经广泛应用,为了验证具体的融合效果,这里将Sparse Vector降维到固定维度的Sparse Embedding后与Dense Embedding拼接,得到混合的Hybrid Embedding。
在实现产品优势的背后,也离不开对模型性能的不断追求,C-MTEB榜单上的成果为我们提供了有力证明。C-MTEB榜单是专门用来评估中文Embedding模型的多任务混合评测榜单,具体包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型,共35个公开数据集。
对于其中的Retrieval检索任务,OpenSearch-text-hybrid模型提升最为明显,也印证了我们提出模型时观察到纯Dense模型的缺陷,检索任务上Sparse模型可以和Dense模型形成互补。
另外值得注意的几点:
- Hybrid Embedding融合时,Dense Embedding需要归一化,Sparse Embedding需要做适当缩放后拼接。
- Hybrid Embedding在检索算相似度的时候只能采用内积的方式。
- OpenSearch-text-hybrid在榜单上的结果是对Sparse Embedding做了降维,有少许精度损失,实际在OpenSearch RAG产品中引擎的实现可以不做降维,效果还有提升空间。
快速体验OpenSearch RAG
在了解了C-MTEB榜单上的卓越表现后,企业与开发者也可以快速体验OpenSearch RAG的强大功能。目前OpenSearch已支持RAG实验室,提供默认数据源,即可免费体验效果:
https://opensearch.console.aliyun.com/cn-shanghai/openknowledge/lab/base
开启混合检索模型,只需要在实例创建过程中,对数据同时配置上“向量模型”和“稀疏向量模型”即可。
开箱即用的 RAG 云产品
阿里云OpenSearch即是在以上技术实现逻辑下研发打磨的产品,是阿里巴巴一站式智能搜索业务开发平台,凭借多年搜索领域的深耕,结合搜索技术与通义系列、开源大模型,OpenSearch推出专注RAG场景开箱即用的LLM智能问答版产品。
OpenSearch LLM智能问答版适用于企业知识库、智能客服、电商导购、课程助手等多种场景,并可以对您现有的搜索场景结合LLM的能力进行升级,助您一站式快速构建RAG系统。
1、一站式端到端RAG服务,简单易用
- 高效:只需上传业务数据,两分钟内即可快速搭建企业级RAG系统
- 低成本:无需进行模型训练和部署运维,零研发成本、零代码门槛搭建RAG服务
2、精细化的RAG处理,效果过关
- 多样性数据预处理:支持DOC、EXCEL、PDF、HTML文件内容解析;支持自动获取URL中的文本、图片;支持自定义表结构,对excel、数据表进行基于SQL的表格问答
- 多年沉淀的中文检索能力:支持Query分词、改写能力,内置多种切片、向量化模型,支持混合检索,配合重排模型等策略,提升检索效果
- 数百个客户打磨的实战大模型:支持通义千问、llama2、falcon等多个大模型;持续对模型进行升级,提升准确率
- 数据一致性:检索和生成的数据有一致性流转及用户体验,保障从检索到生成的效果稳定与连贯
- 生态对接:对接钉钉、飞书、企业微信,将智能问答场景简单便捷的与IM工具进行结合