阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介: 3月28日,阿里巴巴团队以0.450的得分,刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录。据悉,搜索团队最新研发的文本检索及排序技术已通过阿里云智能开放搜索OpenSearch产品对外输出。

9f5ff79a07c04d49b7ab1f3d6709d55b.png

文本检索排序任务需根据指定查询词,检索数据集中所有文档并进行排序。相关技术在机器阅读理解、智能问答、搜索引擎等领域应用广泛,一直是NLP领域重要的研究课题。由于候选文档数量巨大,文本检索排序通常包括粗排(召回)和精排两个阶段,其核心是在每个阶段建模查询词和候选文档的语义相关性。近两年,基于大规模预训练语言模型训练的文本检索排序模型,较传统的统计模型效果提升显著,但业界在针对该任务设计适用工业实践的预训练语言模型底座及下游模型上仍有待突破。


MS MARCO是文本检索排序领域最具代表性的数据集,收录了微软Bing搜索引擎和Cortana智能助手近百万查询词与800万文档在内的真实搜索场景数据。自2018年MS MACRO短文本检索排序任务发布以来,在全球范围内吸引了包括谷歌、Facebook、卡内基梅隆大学等上百个研究团队竞相挑战,促进了文本检索排序技术的发展。

3月28日,阿里巴巴团队采用全新研发的文本检索与排序技术,登上MS MARCO短文本检索排序榜单榜首,较第二名得分提升2.5%。


据了解,阿里达摩院语言技术实验室与智能引擎团队提出了针对文本检索排序任务的新型预训练语言模型解决方案,即Search Language Model (SLM) + Hybird List Aware Reranking (HLAR)。在粗排阶段,团队针对文本召回任务的特征设计了新的预训练语言模型SLM,在保证召回效率的同时将召回阶段的效果提升了3.9%。在精排阶段,以StructRobertaLarge模型为底座,团队提出了以Transformer结构为基础、组合粗排与精排特征的重排序模型HLAR, 进一步提升了文本排序的效果。


上述解决方案已通过阿里云智能搜索产品-开放搜索OpenSearch对外输出,打造行业独有的在电商、教育、游戏内容等多个行业搜索解决方案,行业版对比通用模型效果提升10%以上,模板化业务配置,企业可轻松接入获得高质量搜索效果,在业界获得好评。未来持续探索更多行业能力,助力更多场景应用。


为推动中文领域文本检索与排序技术的发展,近期阿里也公开了基于阿里巴巴真实搜索场景数据构建的多领域文本搜索数据集Multi-CPR,未来团队将逐步推进相关文本排序模型的开源。

详细内容可以参考

论文: https://arxiv.org/abs/2203.03367

数据: https://github.com/Alibaba-NLP/Multi-CPR


了解更多阿里云智能开放搜索产品内容:https://www.aliyun.com/product/opensearch

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理生成文本
自然语言处理生成文本
20 4
|
3月前
|
机器学习/深度学习 自然语言处理 算法
在Python中进行自然语言处理(NLP)的文本预处理
在Python中进行自然语言处理(NLP)的文本预处理
58 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
NLP文本生成全解析:从传统方法到预训练完整介绍
NLP文本生成全解析:从传统方法到预训练完整介绍
127 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
自然语言处理算法与文档管理软件:提升搜索与分类效率的未来
如果想要让你的文档管理软件更智能、更易用,那就让我们聊一聊如何巧妙地应用自然语言处理(NLP)算法吧!这绝对是提升用户体验和工作效率的“绝佳利器”!下面是一些能帮你通过自然语言处理算法提升文档管理软件的搜索和分类效率的方法——
105 1
|
9天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
用于NLP的Python:使用Keras进行深度学习文本生成
用于NLP的Python:使用Keras进行深度学习文本生成
20 2
|
9天前
|
存储 机器学习/深度学习 自然语言处理
R语言自然语言处理(NLP):情感分析新闻文本数据
R语言自然语言处理(NLP):情感分析新闻文本数据
24 0
|
4月前
|
自然语言处理 Python
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
266 0
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取
【NLP】Datawhale-AI夏令营Day1打卡:文本特征提取
|
3月前
|
人工智能 自然语言处理 机器人
NLP自学习平台中的文本摘要功能并不仅限于电商版
【1月更文挑战第20天】【1月更文挑战第100篇】NLP自学习平台中的文本摘要功能并不仅限于电商版
116 2
|
4月前
|
数据采集 自然语言处理 Python
【Python自然语言处理】文本向量化处理用户对不同类型服装评论问题(超详细 附源码)
【Python自然语言处理】文本向量化处理用户对不同类型服装评论问题(超详细 附源码)
41 1