《Reasoning about Entailment with Neural Attention》阅读笔记

简介: 《Reasoning about Entailment with Neural Attention》阅读笔记

题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一个结论或者摘要文本2(premise),判断两个文本的关系:

  • ENTAILMENT:相关,有密切联系,都在讲述同一件事情
  • NEUTRAL :中立
  • CONTRADICTION:完全相反,讲述的不是同一件事情


摘要


这一部分提了下当前端到端模型的不足和局限,本文提出使用LSTM的神经网络模型来阅读两个句子并推断它们之间的关系,同时使用word by word的注意力机制推断单词或者短语之间的关系,最终模型达到目前state-of-the-art accuracy(state-of-the-art这个单词见了好多次 ^_^


简介


识别文本蕴涵- Recognizing textual entailment (RTE)的任务包括:

(i)两个句子是否冲突

(ii)两个句子是否不相关,处于中立关系

(iii)是否可以从第一个句子推断出第二个句子

针对以上任务,作者调研了当前RTE方法,比如《 A large an-notated corpus for learning natural language inference》提出使用LSTM达到77.6%的准确率。相比上文,作者提出了一种基于注意力的神经网络模型,能够更加有效地推断出premise和hypothesis的关系。

本文主要贡献:

  • 提出了一种基于LSTM的神经网络模型来做自然语言推理
  • 使用 word-by-word attention mechanism来扩展模型
  • 提供了详细的和高质量的神经注意力模型的分析报告


方法


使用一个LSTM对premise编码,然后使用LSTM对hypothesis进行解码;同时中间加了两种attention机制,一种是只考虑(c1,c2,c3,c4,c5)对h9的影响;另一种是考虑(c1,c2,c3,c4,c5)分别对(h7,h8,h9)的影响,也就是word by word attention


102.png


结果


103.png


代码


https://github.com/borelien/entailment-neural-attention-lstm-tf


相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 数据处理
论文《Attention is All You Need》
论文《Attention is All You Need》
294 1
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
793 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
3月前
|
机器学习/深度学习 算法 TensorFlow
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
本文探讨了使用复数卷积神经网络进行MRI图像重建的方法,强调了复数网络在保留相位信息和减少参数数量方面的优势,并通过实验分析了不同的复数激活函数、网络宽度、深度以及结构对模型性能的影响,得出复数模型在MRI重建任务中相对于实数模型具有更优性能的结论。
35 0
【文献学习】Analysis of Deep Complex-Valued Convolutional Neural Networks for MRI Reconstruction
|
3月前
|
机器学习/深度学习 PyTorch 语音技术
【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition
文章介绍了Conformer模型,这是一种结合了Transformer的自注意力机制和CNN卷积模块的混合模型,旨在提高语音识别任务的性能,通过自注意力捕捉全局上下文信息,同时利用卷积模块有效捕获局部特征。
74 0
|
机器学习/深度学习 自然语言处理 算法
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
|
机器学习/深度学习 PyTorch 测试技术
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。
400 0
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
136 0
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(下)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
1053 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(下)
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(中)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
1253 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(中)
|
机器学习/深度学习 语音技术 知识图谱
LSTM:《Understanding LSTM Networks》的翻译并解读(一)
LSTM:《Understanding LSTM Networks》的翻译并解读