《Reasoning about Entailment with Neural Attention》阅读笔记

简介: 《Reasoning about Entailment with Neural Attention》阅读笔记

题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一个结论或者摘要文本2(premise),判断两个文本的关系:

  • ENTAILMENT:相关,有密切联系,都在讲述同一件事情
  • NEUTRAL :中立
  • CONTRADICTION:完全相反,讲述的不是同一件事情


摘要


这一部分提了下当前端到端模型的不足和局限,本文提出使用LSTM的神经网络模型来阅读两个句子并推断它们之间的关系,同时使用word by word的注意力机制推断单词或者短语之间的关系,最终模型达到目前state-of-the-art accuracy(state-of-the-art这个单词见了好多次 ^_^


简介


识别文本蕴涵- Recognizing textual entailment (RTE)的任务包括:

(i)两个句子是否冲突

(ii)两个句子是否不相关,处于中立关系

(iii)是否可以从第一个句子推断出第二个句子

针对以上任务,作者调研了当前RTE方法,比如《 A large an-notated corpus for learning natural language inference》提出使用LSTM达到77.6%的准确率。相比上文,作者提出了一种基于注意力的神经网络模型,能够更加有效地推断出premise和hypothesis的关系。

本文主要贡献:

  • 提出了一种基于LSTM的神经网络模型来做自然语言推理
  • 使用 word-by-word attention mechanism来扩展模型
  • 提供了详细的和高质量的神经注意力模型的分析报告


方法


使用一个LSTM对premise编码,然后使用LSTM对hypothesis进行解码;同时中间加了两种attention机制,一种是只考虑(c1,c2,c3,c4,c5)对h9的影响;另一种是考虑(c1,c2,c3,c4,c5)分别对(h7,h8,h9)的影响,也就是word by word attention


102.png


结果


103.png


代码


https://github.com/borelien/entailment-neural-attention-lstm-tf


相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 数据处理
论文《Attention is All You Need》
论文《Attention is All You Need》
352 1
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
842 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
4月前
|
机器学习/深度学习 PyTorch 语音技术
【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition
文章介绍了Conformer模型,这是一种结合了Transformer的自注意力机制和CNN卷积模块的混合模型,旨在提高语音识别任务的性能,通过自注意力捕捉全局上下文信息,同时利用卷积模块有效捕获局部特征。
116 0
|
机器学习/深度学习 PyTorch 测试技术
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。
418 0
|
机器学习/深度学习 算法
Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
118 0
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
149 0
|
编解码 数据挖掘 计算机视觉
论文阅读笔记 | MLP系列——CycleMLP
论文阅读笔记 | MLP系列——CycleMLP
312 0
论文阅读笔记 | MLP系列——CycleMLP
|
机器学习/深度学习 计算机视觉 容器
论文阅读笔记 | MLP系列——AS-MLP
论文阅读笔记 | MLP系列——AS-MLP
381 0
论文阅读笔记 | MLP系列——AS-MLP
|
机器学习/深度学习
论文阅读笔记 | MLP系列——MLP部分汇总(gMLP,aMLP,ResMLP,RepMLP)
论文阅读笔记 | MLP系列——MLP部分汇总(gMLP,aMLP,ResMLP,RepMLP)
796 0
论文阅读笔记 | MLP系列——MLP部分汇总(gMLP,aMLP,ResMLP,RepMLP)
|
机器学习/深度学习
论文阅读笔记 | MLP系列——MLP部分汇总(RaftMLP,DynaMixer)
论文阅读笔记 | MLP系列——MLP部分汇总(RaftMLP,DynaMixer)
387 0
论文阅读笔记 | MLP系列——MLP部分汇总(RaftMLP,DynaMixer)