开发者社区> 工程师U> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO

简介: 3月28日,阿里巴巴团队以0.450的得分,刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录。据悉,搜索团队最新研发的文本检索及排序技术已通过阿里云智能开放搜索OpenSearch产品对外输出。
+关注继续查看

9f5ff79a07c04d49b7ab1f3d6709d55b.png

文本检索排序任务需根据指定查询词,检索数据集中所有文档并进行排序。相关技术在机器阅读理解、智能问答、搜索引擎等领域应用广泛,一直是NLP领域重要的研究课题。由于候选文档数量巨大,文本检索排序通常包括粗排(召回)和精排两个阶段,其核心是在每个阶段建模查询词和候选文档的语义相关性。近两年,基于大规模预训练语言模型训练的文本检索排序模型,较传统的统计模型效果提升显著,但业界在针对该任务设计适用工业实践的预训练语言模型底座及下游模型上仍有待突破。


MS MARCO是文本检索排序领域最具代表性的数据集,收录了微软Bing搜索引擎和Cortana智能助手近百万查询词与800万文档在内的真实搜索场景数据。自2018年MS MACRO短文本检索排序任务发布以来,在全球范围内吸引了包括谷歌、Facebook、卡内基梅隆大学等上百个研究团队竞相挑战,促进了文本检索排序技术的发展。

3月28日,阿里巴巴团队采用全新研发的文本检索与排序技术,登上MS MARCO短文本检索排序榜单榜首,较第二名得分提升2.5%。


据了解,阿里达摩院语言技术实验室与智能引擎团队提出了针对文本检索排序任务的新型预训练语言模型解决方案,即Search Language Model (SLM) + Hybird List Aware Reranking (HLAR)。在粗排阶段,团队针对文本召回任务的特征设计了新的预训练语言模型SLM,在保证召回效率的同时将召回阶段的效果提升了3.9%。在精排阶段,以StructRobertaLarge模型为底座,团队提出了以Transformer结构为基础、组合粗排与精排特征的重排序模型HLAR, 进一步提升了文本排序的效果。


上述解决方案已通过阿里云智能搜索产品-开放搜索OpenSearch对外输出,打造行业独有的在电商、教育、游戏、内容等多个行业搜索解决方案,行业版对比通用模型效果提升10%以上,模板化业务配置,企业可轻松接入获得高质量搜索效果,在业界获得好评。未来持续探索更多行业能力,助力更多场景应用。


为推动中文领域文本检索与排序技术的发展,近期阿里也公开了基于阿里巴巴真实搜索场景数据构建的多领域文本搜索数据集Multi-CPR,未来团队将逐步推进相关文本排序模型的开源。

详细内容可以参考

论文: https://arxiv.org/abs/2203.03367

数据: https://github.com/Alibaba-NLP/Multi-CPR


了解更多阿里云智能开放搜索产品内容:https://www.aliyun.com/product/opensearch

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
继成为全国烟草数字中台必选产品后,阿里云E2 BizWorks赢得首届“鼎新杯”数字技术创新一等奖!
在本届峰会上,阿里云E2 BizWorks产品荣获“鼎新杯”数字技术创新产品一等奖,基于BizWorks产品研发的韵达快递智慧物流数字中台案例获得了“鼎新杯”行业融合应用二等奖。正式公布了BizWorks是首批通过中国信通院业务中台建设与运营认证的产品,BizWorks产品负责人谢纯良荣获“EDCC企业数字化发展共建共享平台先锋人物”称号。
52 0
台湾大学林轩田机器学习基石课程学习笔记11 -- Linear Models for Classification
台湾大学林轩田机器学习基石课程学习笔记11 -- Linear Models for Classification
27 0
阿里oss上传图片react组件alioss-react,vue组件alioss-vue (不用我先收藏着,后端看下前端处理方法)
1、介绍     最近开发了一个项目,其中需要一个上传图片到阿里云的 oss 上面,就是上传图片到阿里云的 oss 上面。   因为之前开发过 vue 的阿里云 oss 上传,所以直接复制粘 vue 的组件。
5516 0
《Cocos2D-x权威指南》——导读
现在,开始的好奇心和兴趣成就了我引以为豪的事业。在大四的时候,我到了天津猛犸实习,从J2ME平台到Android平台,从Android平台到iOS平台,我不仅接触了不同平台的开发,更学会了游戏开发的技巧和思想。如果说编程是一门艺术,那么游戏开发就是艺术中的艺术。
1171 0
+关注
59
文章
3
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载