Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

简介: Re25:读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

1. Background & Motivation


截断任务是为了平衡检索模型的表现力和效率。


案例检索任务查看排序列表中的内容比一般检索任务更费力,因为1. 用户倾向于检查更多搜索引擎返回的结果,以获取充分信息,统计信息见下图。2. 法律文书更长、更难读。

image.png

因此在案例检索任务中做截断是有意义的。


以前的截断模型主要关注传统ad-hoc检索任务traditional ad-hoc retrieval tasks1,仅使用排序分数和简单的文档特征(如文档长度、术语频率)为输入,忽略了建模过程中的高级文档语义。

LeCut则利用了检索任务中的隐藏层特征作为额外信息,用平行框架处理检索特征,以识别文档和排序列表级别的query-文档相似性。然后用RNN+Transformer层+positional embeddings捕获排序列表的序列依赖。

LeCut是第一个利用检索模型中语义特征和上下文信息的截断模型。

检索任务和截断任务都关注识别相似文档,因此彼此收集到的信息互有裨益。因此本文提出了JOTR框架联合优化这两个模型,分别用输出作为对方任务的新特征。为了将LeCut信息应用到法律检索模型上,用映射函数将LeCut原始输出转换为合理的截断特征,以加强检索任务。


本文通过改进已有指标构建了新的评估指标。


2. 模型介绍


image.png

c i 表示在位置 i 截断排序列表的概率。


2.1 LeCut

image.png


2.1.1 Feature Preparation

从query-文档对中抽取输入特征。

以前的方法大多用相似度和文档统计特征。

而LeCut抽取:相似度得分,文档统计特征(文档长度+相邻文档的TFIDF相似度),检索任务中句子级别的嵌入。

这个TFIDF是用所有candidates作为语料,然后计算每个candidate的相似度(二维向量):

image.png

(第一个和最后一个的开头和结尾都是1,感觉有哪里怪怪的)


除固定的文档统计信息外,queries-candidates对之间的动态信息也可能有效。

用在检索数据集上用NSP任务微调过的Transformer,喂query-candidate对,用最后一层隐藏层表征作为句子级别的嵌入。


2.1.2 Truncation Model

  1. Input Layer
  • 输入:相似度得分 r i ,文档统计特征 d i  ,句子级别的嵌入 s i
  • 为了利用排序列表中的 list-wise relations

image.png

  • 排行更高的文档应该有更多attention。

image.png


  1. Encoding Layer:利用序列依赖

image.png


(d i 有3维)


  1. Attention Layer

用Transformer encoder表示排序列表中的文档嵌入。用其多头注意力机制捕获文档间的长距上下文信息。

用可学习的additional positional embeddings p pp(用于区分不同位置的文档) 替换原始的sinusoidal positional values

image.png


  1. Decision Layer

image.png

DCG是一种搜索引擎算法的衡量指标可以直接参考百度百科:DCG_百度百科

在损失函数里怎么加这种离散指标我也很震惊

(y i 是文档i 的相似度标签)


2.2 JOTR

image.png


先纯排序,然后结合截断信息重新检索。

直接结合c 进来可能会导致效果变差,因为c 和r 分布不一致。因此本文提出映射函数ξ ,对齐c i 和r i

image.png


3种映射函数:

image.png


(原理没仔细看,略)

image.png


迭代到指标稳定。


3. 实验


3.1 数据集

  1. LeCaRD
  2. CAIL2021-LCR
  3. COIEE2021-T1

image.png


3.2 baseline

  1. Fixed-k
  2. Greedy
  3. BiCut
  4. Choppy
  5. AttnCut2
  6. Oracle


3.3 实验设置

用于生成排序列表的神经网络检索模型:


  1. BERT
  2. RoBERTa
  3. Lawformer LFM
  4. BERT-Crime

其他配置细节略。


3.4 实验结果

指标:

检索任务:NDCG@k

截断任务:F1, DCG, and Negative Cumulative Impact (NCI)

(理由略)

f866224456554a5cb9331a3f41801c13.png


3.5 模型分析

image.png

image.png

image.png

image.png

image.png

image.png

image.png


4. 代码复现


待补。



相关文章
|
1月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
13 0
|
10月前
|
算法 计算机视觉 知识图谱
ACL2022:A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
少样本关系提取旨在通过在每个关系中使用几个标记的例子进行训练来预测句子中一对实体的关系。最近的一些工作引入了关系信息
86 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
120 0
|
8月前
|
自然语言处理 数据挖掘 数据处理
【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
目前流行的第四大范式Prompt的主流思路是PVP,即Pattern-Verbalizer-Pair,主打的就是Pattern(模板)与Verbalizer(标签映射器)。   本文基于PVP,提出PET与iPET,但是关注点在利用半监督扩充自己的数据集,让最终模型学习很多样本,从而达到好效果。
|
10月前
|
机器学习/深度学习 存储 人工智能
Event Extraction by Answering (Almost) Natural Questions论文解读
事件抽取问题需要检测事件触发词并抽取其相应的论元。事件论元抽取中的现有工作通常严重依赖于作为预处理/并发步骤的实体识别,这导致了众所周知的错误传播问题。
78 0
|
10月前
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
80 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读
先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。
63 0
|
10月前
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
81 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
64 0
|
机器学习/深度学习 自然语言处理 数据挖掘
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
122 0
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification