文本检索排序任务需根据指定查询词,检索数据集中所有文档并进行排序。相关技术在机器阅读理解、智能问答、搜索引擎等领域应用广泛,一直是NLP领域重要的研究课题。由于候选文档数量巨大,文本检索排序通常包括粗排(召回)和精排两个阶段,其核心是在每个阶段建模查询词和候选文档的语义相关性。近两年,基于大规模预训练语言模型训练的文本检索排序模型,较传统的统计模型效果提升显著,但业界在针对该任务设计适用工业实践的预训练语言模型底座及下游模型上仍有待突破。
MS MARCO是文本检索排序领域最具代表性的数据集,收录了微软Bing搜索引擎和Cortana智能助手近百万查询词与800万文档在内的真实搜索场景数据。自2018年MS MACRO短文本检索排序任务发布以来,在全球范围内吸引了包括谷歌、Facebook、卡内基梅隆大学等上百个研究团队竞相挑战,促进了文本检索排序技术的发展。
3月28日,阿里巴巴团队采用全新研发的文本检索与排序技术,登上MS MARCO短文本检索排序榜单榜首,较第二名得分提升2.5%。
据了解,阿里达摩院语言技术实验室与智能引擎团队提出了针对文本检索排序任务的新型预训练语言模型解决方案,即Search Language Model (SLM) + Hybird List Aware Reranking (HLAR)。在粗排阶段,团队针对文本召回任务的特征设计了新的预训练语言模型SLM,在保证召回效率的同时将召回阶段的效果提升了3.9%。在精排阶段,以StructRobertaLarge模型为底座,团队提出了以Transformer结构为基础、组合粗排与精排特征的重排序模型HLAR, 进一步提升了文本排序的效果。
上述解决方案已通过阿里云智能搜索产品-开放搜索OpenSearch对外输出,打造行业独有的在电商、教育、游戏、内容等多个行业搜索解决方案,行业版对比通用模型效果提升10%以上,模板化业务配置,企业可轻松接入获得高质量搜索效果,在业界获得好评。未来持续探索更多行业能力,助力更多场景应用。
为推动中文领域文本检索与排序技术的发展,近期阿里也公开了基于阿里巴巴真实搜索场景数据构建的多领域文本搜索数据集Multi-CPR,未来团队将逐步推进相关文本排序模型的开源。
详细内容可以参考
论文: https://arxiv.org/abs/2203.03367 ;
数据: https://github.com/Alibaba-NLP/Multi-CPR。
了解更多阿里云智能开放搜索产品内容:https://www.aliyun.com/product/opensearch
如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群