文档备案控制台

开发者社区大数据与机器学习智能搜索推荐正文

如何构建评估搜索增强服务的测试集？

如何构建评估搜索增强服务的测试集？

展开

收起

邂逅青青 2024-08-13 16:07:56 374 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小Lee

构建评估搜索增强服务的测试集通常涉及以下几个步骤：

定义评估指标：首先确定要评估的关键性能指标，比如精度、召回率、NDCG（Normalized Discounted Cumulative Gain）、MRR（Mean Reciprocal Rank）等。
多样性和相关性：确保测试集包含各种查询类型，包括常见的、罕见的和模糊的，以及各种相关性和不相关的结果，以测试服务的广泛适应性。
真实用户查询：使用历史用户查询数据，这样可以反映真实世界的使用场景。
人工标注：对结果集进行人工标注，确定每个查询的正确排序或相关文档，这将作为评估的基础。
负例采样：包含一些负例查询，即那些返回结果不理想或不相关的情况，来测试服务的抗噪声能力。
动态调整：测试集应随着服务的改进和新特性的添加而不断更新。
分组测试：可以将测试集划分为多个子集，比如开发集（用于模型训练和调参）、验证集（选择最佳模型）和测试集（最终评估）。
规模与覆盖率：测试集应足够大以覆盖各种情况，同时确保对服务覆盖的搜索空间有足够的代表性。
隐私考虑：确保遵循隐私法规，对敏感信息进行匿名化或脱敏处理。
可参考文档

2024-08-13 17:10:09

赞同展开评论

问答标签：

评估测试搜索测试

问答地址：

开发者社区 > 大数据与机器学习 > 智能搜索推荐 > 问答

相关问答

开放搜索 OpenSearch

“融合认证（基于原子能力） > 短信认证服务 > 快速测试”区域测试短信要收费吗？

242

1

0

百炼构建的工作流发布应用后，修改提示词，进行文生图，图生文测试，没有按照我给出的提示词进行生成内容

226

0

0

ai程序员功能中的单元测试智能体对基于gradle构建的项目不支持。

265

1

0

基于funasr构建离线长语音ASR，测试过程中发现内存泄漏，如何解决？

486

0

0

图像搜索测试一组7张图片上传了两次，搜索时发现几个0.9几中间穿插有0.4几的，怎么回事？

371

3

0

Maven中如何加速构建和测试过程？

282

1

0

如何配置Git以便在Java服务中下载代码来运行单元测试？

221

1

0

为什么选择在Java服务中调用Go单元测试脚本，而不是直接在aone实验室脚本中运行？

260

1

0

融合认证-通信服务怎么抵扣测试短信认证服务的次数？

188

0

0

在OpenSearch进行搜索测试时，如何使用`IN`条件来筛选满足多个值的字段？

584

1

0

大数据与机器学习

智能搜索推荐

智能推荐（Artificial Intelligence Recommendation，简称AIRec）基于阿里巴巴大数据和人工智能技术，以及在电商、内容、直播、社交等领域的业务沉淀，为企业开发者提供场景化推荐服务、全链路推荐系统开发平台、工程引擎组件库等多种形式服务，助力在线业务增长。

我要提问

相关解决方案

更多

高效构建全球网络服务性能观测体系

通义灵码一站式定制专属MCP服务

千问与 LangChain 搭建对话服务

主动式智能导购 AI 助手构建

基于 Supabase 高效构建轻量级应用

热门讨论

热门文章

VScode、Trae断点的按钮找不到

在OpenSearch LLM智能问答中想在Query和向量化之前增加处理模块，支持此种自定义吗？

OpenSearch LLM智能问答这个可以做api形式吗？一个介入一个返回

阿里云 AIRec 核心功能有哪些？

通义灵码在pycharm中，侧边栏上下滑动的按钮显示不了

OpenSearch LLM智能问答流式接口，最后几行存在重复怎么办？

钉钉小程序企业内部免登服务在IOS系统用不了

OpenSearch LLM智能问答和阿里的云原生多模数据库 Lindorm 的区别是啥？

OpenSearch LLM智能问答这个数据目前有api接口可以查询吗？

服务器遭遇阿里云大量ip无端访问。

展开全部

OpenSearch：轻松构建大数据搜索服务

DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用

Ha3搜索引擎简介

DII—算法服务利器

深度学习在锦囊细选上的应用

阿里集团搜索中台TisPlus

iGraph架构演进之三战

云栖硬核回顾|企查查搜索引擎演进之路

拍立淘Open SDK-在你的App里用相机连接淘宝和世界

云栖全程回顾|搜索推荐工程技术专场（附视频与文档）

展开全部

还有其他疑问?