Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

简介: Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

1. Background & Motivation


截断任务是为了平衡检索模型的表现力和效率。


案例检索任务查看排序列表中的内容比一般检索任务更费力,因为1. 用户倾向于检查更多搜索引擎返回的结果,以获取充分信息,统计信息见下图。2. 法律文书更长、更难读。

image.png

因此在案例检索任务中做截断是有意义的。


以前的截断模型主要关注传统ad-hoc检索任务traditional ad-hoc retrieval tasks1,仅使用排序分数和简单的文档特征(如文档长度、术语频率)为输入,忽略了建模过程中的高级文档语义。

LeCut则利用了检索任务中的隐藏层特征作为额外信息,用平行框架处理检索特征,以识别文档和排序列表级别的query-文档相似性。然后用RNN+Transformer层+positional embeddings捕获排序列表的序列依赖。

LeCut是第一个利用检索模型中语义特征和上下文信息的截断模型。

检索任务和截断任务都关注识别相似文档,因此彼此收集到的信息互有裨益。因此本文提出了JOTR框架联合优化这两个模型,分别用输出作为对方任务的新特征。为了将LeCut信息应用到法律检索模型上,用映射函数将LeCut原始输出转换为合理的截断特征,以加强检索任务。


本文通过改进已有指标构建了新的评估指标。


2. 模型介绍


image.png

c i 表示在位置 i 截断排序列表的概率。


2.1 LeCut

image.png


2.1.1 Feature Preparation

从query-文档对中抽取输入特征。

以前的方法大多用相似度和文档统计特征。

而LeCut抽取:相似度得分,文档统计特征(文档长度+相邻文档的TFIDF相似度),检索任务中句子级别的嵌入。

这个TFIDF是用所有candidates作为语料,然后计算每个candidate的相似度(二维向量):

image.png

(第一个和最后一个的开头和结尾都是1,感觉有哪里怪怪的)


除固定的文档统计信息外,queries-candidates对之间的动态信息也可能有效。

用在检索数据集上用NSP任务微调过的Transformer,喂query-candidate对,用最后一层隐藏层表征作为句子级别的嵌入。


2.1.2 Truncation Model

  1. Input Layer
  • 输入:相似度得分 r i ,文档统计特征 d i  ,句子级别的嵌入 s i
  • 为了利用排序列表中的 list-wise relations

image.png

  • 排行更高的文档应该有更多attention。

image.png


  1. Encoding Layer:利用序列依赖

image.png


(d i 有3维)


  1. Attention Layer

用Transformer encoder表示排序列表中的文档嵌入。用其多头注意力机制捕获文档间的长距上下文信息。

用可学习的additional positional embeddings p pp(用于区分不同位置的文档) 替换原始的sinusoidal positional values

image.png


  1. Decision Layer

image.png

DCG是一种搜索引擎算法的衡量指标可以直接参考百度百科:DCG_百度百科

在损失函数里怎么加这种离散指标我也很震惊

(y i 是文档i 的相似度标签)


2.2 JOTR

image.png


先纯排序,然后结合截断信息重新检索。

直接结合c 进来可能会导致效果变差,因为c 和r 分布不一致。因此本文提出映射函数ξ ,对齐c i 和r i

image.png


3种映射函数:

image.png


(原理没仔细看,略)

image.png


迭代到指标稳定。


3. 实验


3.1 数据集

  1. LeCaRD
  2. CAIL2021-LCR
  3. COIEE2021-T1

image.png


3.2 baseline

  1. Fixed-k
  2. Greedy
  3. BiCut
  4. Choppy
  5. AttnCut2
  6. Oracle


3.3 实验设置

用于生成排序列表的神经网络检索模型:


  1. BERT
  2. RoBERTa
  3. Lawformer LFM
  4. BERT-Crime

其他配置细节略。


3.4 实验结果

指标:

检索任务:NDCG@k

截断任务:F1, DCG, and Negative Cumulative Impact (NCI)

(理由略)

f866224456554a5cb9331a3f41801c13.png


3.5 模型分析

image.png

image.png

image.png

image.png

image.png

image.png

image.png


4. 代码复现


待补。



相关文章
|
运维 安全 Linux
Jumpserver堡垒机部署和基本使用
Jumpserver堡垒机部署和基本使用
2063 2
|
Windows
Mac 下SVN的使用(SnailSVN)
Mac 下SVN的使用(SnailSVN)
2317 0
|
jenkins 持续交付 Docker
Jenkins - 插件安装失败处理方法
Jenkins - 插件安装失败处理方法
11279 1
Jenkins - 插件安装失败处理方法
|
存储 NoSQL MongoDB
微服务——MongoDB的特点
MongoDB是一款高性能、高可用、高扩展性的文档型数据库。通过嵌入式数据模型与多种索引(文本、TTL、地理位置等),优化I/O活动,提升查询效率,同时支持多存储引擎(如WiredTiger、In-Memory)。其副本集功能确保高可用性,提供自动故障转移和数据冗余。分片机制实现水平扩展,满足海量数据存储需求,并支持基于片键的数据区域管理。此外,MongoDB提供丰富的查询语言,支持CRUD操作、数据聚合、文本搜索及地理空间查询等功能,适用于多样化的应用场景。
153 0
|
存储 监控 Java
Zipkin/Pinpoint/SkyWalking全面对比
【11月更文挑战第1天】这里重点从探针的性能、Collector的可扩展性、调用链路分析、完整的应用拓扑、对于科技人员使用友好程度(部署安装、埋点接入、使用管理)几个方面来进行对比。
|
人工智能 缓存 自然语言处理
阿里云 × 天润融通:基于智能体的企业营销与客户服务实践分享
本次分享由阿里云与天润融通联合呈现,主题为“基于智能体的企业营销与客户服务实践”。主讲人安静波(北京天润融通科技股份有限公司CTO)将介绍天润融通的智能体平台架构及其在企业营销和客服场景中的应用。内容涵盖天润融通的发展历程、基于阿里云的AICC架构、智能体平台的技术细节及优化实践,并通过客户案例展示如何通过智能体提升营销转化率和客户满意度。重点探讨了智能体在实时响应、打断处理等方面的优化措施,以及大模型的应用经验。
1174 0
|
Unix Linux 数据处理
Linux命令stty详解
`stty`是Linux命令,用于设置和查看终端参数,如波特率、字符处理和控制字符。它直接与终端驱动交互,支持多种选项以适应不同的配置需求。例如,`stty -a`显示当前设置,`stty -echo`关闭回显,`stty 115200 cs8`调整波特率和字符大小。注意修改设置可能影响终端行为,建议先备份(`stty -g`)并谨慎操作。查阅手册页以获取详细信息。
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
1537 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
存储 定位技术 C++
Armadillo矩阵库在Visual Studio软件C++环境中的配置方法
Armadillo矩阵库在Visual Studio软件C++环境中的配置方法
399 1
|
关系型数据库 MySQL Unix
nginx代理DB & ip限制
nginx代理DB & ip限制