《Reasoning about Entailment with Neural Attention》阅读笔记

简介: 《Reasoning about Entailment with Neural Attention》阅读笔记

题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一个结论或者摘要文本2(premise),判断两个文本的关系:

  • ENTAILMENT:相关,有密切联系,都在讲述同一件事情
  • NEUTRAL :中立
  • CONTRADICTION:完全相反,讲述的不是同一件事情


摘要


这一部分提了下当前端到端模型的不足和局限,本文提出使用LSTM的神经网络模型来阅读两个句子并推断它们之间的关系,同时使用word by word的注意力机制推断单词或者短语之间的关系,最终模型达到目前state-of-the-art accuracy(state-of-the-art这个单词见了好多次 ^_^


简介


识别文本蕴涵- Recognizing textual entailment (RTE)的任务包括:

(i)两个句子是否冲突

(ii)两个句子是否不相关,处于中立关系

(iii)是否可以从第一个句子推断出第二个句子

针对以上任务,作者调研了当前RTE方法,比如《 A large an-notated corpus for learning natural language inference》提出使用LSTM达到77.6%的准确率。相比上文,作者提出了一种基于注意力的神经网络模型,能够更加有效地推断出premise和hypothesis的关系。

本文主要贡献:

  • 提出了一种基于LSTM的神经网络模型来做自然语言推理
  • 使用 word-by-word attention mechanism来扩展模型
  • 提供了详细的和高质量的神经注意力模型的分析报告


方法


使用一个LSTM对premise编码,然后使用LSTM对hypothesis进行解码;同时中间加了两种attention机制,一种是只考虑(c1,c2,c3,c4,c5)对h9的影响;另一种是考虑(c1,c2,c3,c4,c5)分别对(h7,h8,h9)的影响,也就是word by word attention


102.png


结果


103.png


代码


https://github.com/borelien/entailment-neural-attention-lstm-tf


相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 数据处理
论文《Attention is All You Need》
论文《Attention is All You Need》
24 1
|
机器学习/深度学习 人工智能 自然语言处理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
530 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
1月前
Simplifying Graph Convolutional Networks论文笔记
Simplifying Graph Convolutional Networks论文笔记
|
8月前
|
机器学习/深度学习 PyTorch 测试技术
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。
202 0
|
机器学习/深度学习 自然语言处理 算法
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
【论文泛读】 知识蒸馏:Distilling the knowledge in a neural network
|
算法 数据可视化 计算机视觉
论文阅读笔记 | 目标检测算法——Generalized Focal Lossv1,v2
论文阅读笔记 | 目标检测算法——Generalized Focal Lossv1,v2
815 0
论文阅读笔记 | 目标检测算法——Generalized Focal Lossv1,v2
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
98 0
|
编解码 数据挖掘 计算机视觉
论文阅读笔记 | MLP系列——CycleMLP
论文阅读笔记 | MLP系列——CycleMLP
238 0
论文阅读笔记 | MLP系列——CycleMLP
|
机器学习/深度学习 自然语言处理 搜索推荐
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
近年来,深度神经网络在语音识别、计算机视觉和自然语言处理方面取得了巨大的成功。然而,深度神经网络在推荐系统上的探索相对较少受到关注。在这项工作中,我们致力于开发基于神经网络的技术来解决推荐中的关键问题——基于隐式反馈的协同过滤。
257 0