Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond 阅读笔记

简介: - Ramesh Nallapati, Bowen Zhou, Cicero dos Santos; IBM - CoNLL2016 - 这篇文章除了seq2seq,还用了很多的tricks来提升性能,model部分看起来挺多的,LVT在网上搜不到,搜sampled softmax就能搜到了。

Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

  • Ramesh Nallapati, Bowen Zhou, Cicero dos Santos; IBM
  • CoNLL2016
  • 这篇文章除了seq2seq,还用了很多的tricks来提升性能,model部分看起来挺多的,LVT在网上搜不到,搜sampled softmax就能搜到了。
  • Models

    • LVT/sampled softmax: seq2seq输出的时候使用了softmax,计算V中的每个词的值并归一化,这一步非常耗时。sampled softmax对每个句子/文章单独采样了一个V',只对V'中的词计算softmax并归一化,大幅减少了训练时的计算量。不过在测试的时候仍然需要计算所有词
    • Feature-rich encoder: 就是将POS、NER、TF、IDF等文本特征拼接在word embedding后面作为encoder的输入
    • Switching Generator-Pointer: 这个操作主要用于解决OOV和UNK问题,当碰到OOV时,g_i置为0,模型会从输入中寻找一个词作为输出和下一时间片的输入。测试时模型会自动决定采用decoder的输出还是从输入中挑选一个词作为输出。
    • Hierarchical Attention: 模型会对每个句子计算attention,并整合句子的权重计算每个词的权重。句子的的隐层状态后面还会拼接position embedding。
    • Hierarchical Attention效果没有预期的好,作者还使用了Temporary Attention(Sankaran et al., 2016, Temporal Attention Model for Neural Machine Translation),效果大幅提升。
  • DataSet: 本文提出了CNN/Daily Mail Corpus,每个摘要包含了多个句子(之前的DUC2004和Gigaword每个摘要只包含1个句子),后续被大量用于评测。
  • 性能

    • Gigaword: Rouge-1:35.30/Rouge-2:16.64/Rouge-L:32.62
    • CNN/Daily Mail Corpus: Rouge-1:35.46/Rouge-2:13.30/Rouge-L:32.65
目录
相关文章
|
弹性计算 Kubernetes Cloud Native
现代化部署与管理:ECS容器化与云原生应用实践
本文深入研究了云服务器ECS的容器化与云原生应用部署策略,重点关注了Docker、Kubernetes等容器化技术的基本概念,以及ECS与容器的集成。在第八章的容器化技术简介部分,我们介绍了如何使用Docker打包和部署应用,以及如何在ECS上部署容器化应用。通过示例代码,读者可以了解如何在ECS中集成容器化应用。
461 0
|
存储 索引
开发指南—Sequence—显示用法—创建Sequence
本文主要介绍如何创建各种类型的Sequence。
106 0
开发指南—Sequence—显示用法—查询与获取Sequence
本文主要介绍如何查询Sequence类型以及获取Sequence值。
204 0
|
存储 弹性计算 运维
阿里云无影云电脑怎么买?阿里无影云电脑仅19.9元/月起
阿里云无影云电脑怎么买?阿里无影云电脑仅19.9元/月起,阿里云无影云电脑配置具体价格表,无影云桌面4核8G企业办公型云电脑可以免费使用3个月,无影云电脑地域不同价格不同,无影云电脑价格是由云桌面配置、云盘价格、互联网访问带宽价格、AD Connector 价格、桌面组共用桌面session 价格等费用组成
1756 2
|
Linux API
Linux操作系统实验三 文件管理(一)(下)
Linux操作系统实验三 文件管理(一)(下)
265 0
|
机器学习/深度学习 JavaScript 前端开发
Mediapipe三维实时人体关键点检测与追踪(一)
Mediapipe三维实时人体关键点检测与追踪(一)
1442 0
|
前端开发 JavaScript 开发工具
ruoyi-vue | electron打包教程(超详细)
ruoyi-vue | electron打包教程(超详细)
1139 0
|
机器学习/深度学习 自然语言处理 算法框架/工具
Sequence to Sequence学习资料
Sequence to Sequence学习资料
107 0
|
机器学习/深度学习 编解码 数据可视化
深度学习基础入门篇9.1:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解
深度学习基础入门篇9.1:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解
深度学习基础入门篇9.1:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解