OpenSearch LLM智能问答版全新升级

2024-05-10 2313

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

OpenSearch LLM智能问答版免费试用套餐，存储1GB首月+计算资源100CU

简介： 阿里云OpenSearch LLM智能问答版近期全新升级，新增最新版开源大模型、多模态模型、切片策略升级等产品能力。

阿里云OpenSearch LLM智能问答版是OpenSearch推出的一站式开箱即用的检索增强生成（RAG）云产品，帮助开发者快速构建多模态对话式搜索服务。

自2023年6月上线以来，OpenSearch LLM智能问答版已累计支持了数百家云上客户搭建RAG系统，适用于商品导购、智能客服、企业知识库等众多典型应用场景。随着AI技术日新月异的发展，OpenSearch也在进行能力升级，持续打造更优质的RAG云产品。

本文将重点介绍OpenSearch近期带来的全新升级。

内置最新开源大模型

OpenSearch LLM智能问答版新增支持最新版开源大模型。相比于去年同期发布的模型，新一代大模型的训练数据量扩展了7倍，包含的代码数量扩展了4倍，其在标准测试集上的效果也超过了众多知名模型，被称为“目前市场上最好的开源大模型”。

在RAG场景下，最新版大模型的表现同样优异。在相似的模型参数规模下，最新版大模型生成结果的冗余性大幅降低，总结能力明显提升，同时在英文场景下的表现更加出色。

第二代大模型生成结果

第三代大模型生成结果

目前，OpenSearch LLM智能问答版已全量开放最新版大模型测试，欢迎感兴趣的客户对比测试。

中文语义理解能力登顶C-MTEB榜单

语义理解是搜索的基础，也是影响RAG系统准确性的重要环节。

OpenSearch基于自主研发的稠密+稀疏混合向量模型，构建更精准的语义理解能力，目前已登顶中文向量模型C-MTEB榜单，超过众多知名国内外厂商和开源模型。

特别是在召回率指标上，OpenSearch的优势更加明显。更高的召回率保证了对话大模型能获取更充足的语料输入，从而生成更优质的答案。

多模态模型助力新一代图片理解

在电商导购、智能客服、企业知识库等场景中，大量关键信息以图片的形式呈现，图文结合的多模态展现可以大幅提升用户体验和结果准确率。

OpenSearch结合Qwen-VL-Max多模态大模型，实现了全新一代图片内容理解，打造多模态RAG系统。

其中，图片结合能力包含：

图片内容理解：使用Qwen-VL-Max模型，理解文档中的图片信息，并作为文档知识参与知识库对话问答。

示例：

问题：伞是什么颜色的

回答：伞是红色的。在已知信息中提到：“这种图片展示了一个场景，其中一个人站在一个红色的雨伞下。”因此，可以确定伞的颜色是红色。

文字信息OCR：识别图片中的文字信息，并作为格式化文本存储到知识库中。

示例：

问题：哲学书的名字是什么

回答：哲学书的名字是“苏格拉底的申辩”。

上下文信息扩展联想：结合图片上下文的文本信息，作为图片内容的辅助描述，增强图片的理解能力。
多参考图片返回：升级后的OpenSearch LLM智能问答版支持多种图片作为问答结果的参考图片，适用于操作流程图、商品信息展示等多个场景。

切片策略升级，搜索能力大幅提升

在常见的RAG框架中，知识库中的长文本文档会首先进行切片，然后进行后续的向量化以及索引构建等处理。

最新版OpenSearch LLM智能问答版支持语义切片、单句切片等多种切片策略。结合使用两种切片策略后，OpenSearch在典型场景上的准确率、召回率得到大幅提升。

切片方式	回答准确率	搜索召回率
语义切片	85%	88%
语义切片+单句切片	90%	95%

结合OpenSearch底层高性能引擎Havenask，即使单句切片产生了大量的扩展文本和向量索引，系统也可毫秒级返回最相关的文档段落，从而保障RAG系统整体的性能和效果。

未来规划

未来，OpenSearch将结合大语言模型、自然语言处理技术，持续探索智能搜索技术，并将于近期推出搜索开发工作台，支持在智能搜索、RAG场景下更灵活使用，敬请期待。

更多智能开放搜索 OpenSearch的相关信息，请访问产品官网：https://www.aliyun.com/product/opensearch

OpenSearch LLM智能问答版全新升级

内置最新开源大模型

中文语义理解能力登顶C-MTEB榜单

多模态模型助力新一代图片理解

切片策略升级，搜索能力大幅提升

未来规划

智能搜索推荐

热门文章

最新文章

相关产品

相关电子书

相关实验场景