Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

简介: Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

1. Background & Motivation


截断任务是为了平衡检索模型的表现力和效率。


案例检索任务查看排序列表中的内容比一般检索任务更费力,因为1. 用户倾向于检查更多搜索引擎返回的结果,以获取充分信息,统计信息见下图。2. 法律文书更长、更难读。

image.png

因此在案例检索任务中做截断是有意义的。


以前的截断模型主要关注传统ad-hoc检索任务traditional ad-hoc retrieval tasks1,仅使用排序分数和简单的文档特征(如文档长度、术语频率)为输入,忽略了建模过程中的高级文档语义。

LeCut则利用了检索任务中的隐藏层特征作为额外信息,用平行框架处理检索特征,以识别文档和排序列表级别的query-文档相似性。然后用RNN+Transformer层+positional embeddings捕获排序列表的序列依赖。

LeCut是第一个利用检索模型中语义特征和上下文信息的截断模型。

检索任务和截断任务都关注识别相似文档,因此彼此收集到的信息互有裨益。因此本文提出了JOTR框架联合优化这两个模型,分别用输出作为对方任务的新特征。为了将LeCut信息应用到法律检索模型上,用映射函数将LeCut原始输出转换为合理的截断特征,以加强检索任务。


本文通过改进已有指标构建了新的评估指标。


2. 模型介绍


image.png

c i 表示在位置 i 截断排序列表的概率。


2.1 LeCut

image.png


2.1.1 Feature Preparation

从query-文档对中抽取输入特征。

以前的方法大多用相似度和文档统计特征。

而LeCut抽取:相似度得分,文档统计特征(文档长度+相邻文档的TFIDF相似度),检索任务中句子级别的嵌入。

这个TFIDF是用所有candidates作为语料,然后计算每个candidate的相似度(二维向量):

image.png

(第一个和最后一个的开头和结尾都是1,感觉有哪里怪怪的)


除固定的文档统计信息外,queries-candidates对之间的动态信息也可能有效。

用在检索数据集上用NSP任务微调过的Transformer,喂query-candidate对,用最后一层隐藏层表征作为句子级别的嵌入。


2.1.2 Truncation Model

  1. Input Layer
  • 输入:相似度得分 r i ,文档统计特征 d i  ,句子级别的嵌入 s i
  • 为了利用排序列表中的 list-wise relations

image.png

  • 排行更高的文档应该有更多attention。

image.png


  1. Encoding Layer:利用序列依赖

image.png


(d i 有3维)


  1. Attention Layer

用Transformer encoder表示排序列表中的文档嵌入。用其多头注意力机制捕获文档间的长距上下文信息。

用可学习的additional positional embeddings p pp(用于区分不同位置的文档) 替换原始的sinusoidal positional values

image.png


  1. Decision Layer

image.png

DCG是一种搜索引擎算法的衡量指标可以直接参考百度百科:DCG_百度百科

在损失函数里怎么加这种离散指标我也很震惊

(y i 是文档i 的相似度标签)


2.2 JOTR

image.png


先纯排序,然后结合截断信息重新检索。

直接结合c 进来可能会导致效果变差,因为c 和r 分布不一致。因此本文提出映射函数ξ ,对齐c i 和r i

image.png


3种映射函数:

image.png


(原理没仔细看,略)

image.png


迭代到指标稳定。


3. 实验


3.1 数据集

  1. LeCaRD
  2. CAIL2021-LCR
  3. COIEE2021-T1

image.png


3.2 baseline

  1. Fixed-k
  2. Greedy
  3. BiCut
  4. Choppy
  5. AttnCut2
  6. Oracle


3.3 实验设置

用于生成排序列表的神经网络检索模型:


  1. BERT
  2. RoBERTa
  3. Lawformer LFM
  4. BERT-Crime

其他配置细节略。


3.4 实验结果

指标:

检索任务:NDCG@k

截断任务:F1, DCG, and Negative Cumulative Impact (NCI)

(理由略)

f866224456554a5cb9331a3f41801c13.png


3.5 模型分析

image.png

image.png

image.png

image.png

image.png

image.png

image.png


4. 代码复现


待补。



相关文章
|
3月前
|
算法 数据挖掘 数据处理
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。
33 2
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
|
7月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
55 2
|
8月前
|
算法 TensorFlow 算法框架/工具
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
49 2
|
8月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
61 0
|
算法 计算机视觉 知识图谱
ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息
138 0
|
机器学习/深度学习 存储 自然语言处理
RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level 论文解读
在文档级事件提取(DEE)任务中,事件论元总是分散在句子之间(跨句子问题),多个事件可能位于一个文档中(多事件问题)。在本文中,我们认为事件论元的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架
143 0
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
207 0
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
144 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
142 0
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
115 0