A Thorough Examination of CNN/Daily Mail Reading Comprehension

简介:

本篇是reading comprehension系列的第三篇,文章于2016年6月9号submit在arxiv上,比之前介绍的Gated-Attention Readers for Text Comprehension更晚地出现,但尴尬的是本文的模型结果不如GA Reader。6月7号submit的一篇Iterative Alternating Neural Attention for Machine Reading,用了和GA非常类似的方法,得到了稍微差一点的结果。确实最近在arxiv上常常可以刷出reading comprehension的paper,可以看得出这个领域当前多么地火热。同时火热的还有dialogue generation任务,今天凌晨的wwdc2016大会中,苹果宣布打造更加智能的siri,几大科技巨头纷纷表示要将聊天机器人作为智能的未来,由此可见与其相关的研究将会越来越热。本文的作者是来自斯坦福大学的博士生Danqi Chen,本科毕业于清华的姚班。

虽然本文并没有比GA模型有更好的效果,但作为了解整个Reading Comprehension研究的发展以及模型的思路还是很有意义的。本文最大的贡献在于提出了一种基于人工特征的分类器模型和一个改进版的端到端模型(这里是基于Teaching Machines to Read and Comprehend的Attentive Reader模型)。

第一个模型,是典型的人工特征模型,通过提取了八个特征构建特征空间,通过使得正确答案entity比其他entity获得更高的得分来训练得到模型参数。包含的特征有:该entity是否出现在原文中,该entity是否出现在问题中,出现过几次,第一次出现的位置等等八个特征。

第二个模型,基本思路与Attentive Reader接近。看下图:

这里只介绍不同的地方:

1、在计算query和document的注意力权重时,没有采用非线性的tanh,而是采用了bilinear。

2、得到注意力权重之后,计算context的输出,然后直接用输出进行分类预测,而Attentive Reader是用输出与query又做了一次非线性处理之后才预测的。

3、词汇表中只包括entity,而不是所有的单词。

模型上的改进只有第一点算是吧,后两点只是做了一些简单的优化。

虽然模型简单了,但效果却比Attentive Reader好很多,提升了约5%的效果,我们不管其模型有没有什么亮点,这些简化处理反而得到非常好的效果,这一点很引人深思。

结果这部分,作者分析了八个特征分别对模型结果的影响,其中影响最大的是n-gram match(entity和placeholder是否有相似的上下文),其次是entity出现的频率,具体见下表:


端到端模型比Attentive Reader效果好很多,但和最近的GA来比还是差了很多。看过本文之后,只有一个疑问,简化后的模型为什么比稍微复杂一点的模型好那么多呢?

最后作者总结了下Reading Comprehension任务中常用的数据集:

1、CNN/Daily Mail

2、MCTest

3、Children Book Test(CBT)

4、bAbI

本周末计划将本周看过的几篇reading comprehension写成一篇综述,好好做一次系统地对比和总结。敬请期待。



来源:paperweekly


原文链接

相关文章
|
算法 Java BI
使用jmap和MAT进行堆内存分析
Java程序运行中常常会遇到各种关于内存的问题,例如内存泄漏、内存溢出、内存使用率太高等问题,如果没有合适的工具和方法,则定位问题时常常感觉难以入手。本文介绍如何使用Jmap配合MAT进行Java堆内存分析,快速定位问题。
980 0
|
7月前
|
人工智能 算法 API
AutoGPT vs BabyAGI:自主任务执行框架对比与选型深度分析
在众多涌现的自主代理框架中,AutoGPT和BabyAGI无疑是最具代表性的两个项目。AutoGPT凭借其强大的任务分解能力和丰富的工具集成,在GitHub上获得了超过150k的星标;而BabyAGI则以其简洁优雅的架构设计和高效的任务执行循环,成为了许多开发者的首选框架。这两个项目的出现,标志着AI自主代理技术从理论研究走向了工程实践的重要转折点。
483 0
AutoGPT vs BabyAGI:自主任务执行框架对比与选型深度分析
|
设计模式 缓存 算法
14.策略者模式设计思想
策略模式是一种行为型设计模式,用于定义一系列可互换的算法,并使它们可以独立于使用它们的客户端而变化。本文档详细介绍了策略模式的基础概念、原理、结构及应用案例,包括折扣计算、文件排序等实际场景,帮助读者深入理解策略模式的实现和优势。此外,还对比了策略模式与其他设计模式(如状态模式、模板模式)的区别,并提供了相关代码示例。适合初学者和有一定经验的开发者参考。
318 10
14.策略者模式设计思想
|
消息中间件 Kafka 应用服务中间件
仙讯畅通无阻:探索MQ阵法的强大功能
MQ(消息队列)起源于1993年IBM推出的MQSeries,后更名为WebSphere MQ和IBM MQ。常见的MQ系统包括:IBM MQ、Apache ActiveMQ、RabbitMQ、Apache Kafka、RocketMQ和Amazon SQS。这些系统广泛应用于异步通信、系统解耦和削峰填谷等场景,确保消息的可靠传递。在修真界,MQ阵法如同神秘的传信工具,能在仙人修炼时安全传递重要信息,保障仙讯畅通无阻。
244 4
|
监控 安全 网络安全
|
机器学习/深度学习 存储 算法
【强化学习】常用算法之一 “Q-learning”
Q-learning算法是一种基于强化学习的无模型学习方法,通过学习到目标系统的Q值函数来解决智能体在给定环境下的最优决策策略问题。Q-learning算法是基于后验策略方法,即学习出目标系统的价值函数Q之后,通过使用某种策略来最大化该价值函数,称之为后验策略。Q-learning算法是偏差-方差权衡的算法,在偏差较高的情况下可以在基于模型的强化学习中找到一个接近最优策略的解决方案。同时它也具有较高的收敛速度和广泛的适用性,因为其只需要存储一个值函数,不需要存储模型。
1391 0
【强化学习】常用算法之一 “Q-learning”
|
域名解析 弹性计算 Linux
PHP SDK 的安装与调用
Alibaba Cloud SDK for PHP是支持PHP开发者快速访问阿里云服务的开发包,由Alibaba Cloud Client for PHP提供底层支持。Alibaba Cloud SDK for PHP让您不用复杂编程即可访问云服务器、云数据库RDS和云监控等多个阿里云服务。本文将为大家介绍PHP SDK的安装与调用过程。
2653 0
PHP SDK 的安装与调用
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97447 2
中文竞技场(MS)大模型评测
|
缓存 Java Android开发
12 张图看懂 CPU 缓存一致性与 MESI 协议,真的一致吗?
什么是缓存一致性问题,CPU Cache 的读取和写入过程是如何执行的,MESI 缓存一致性协议又是什么?今天我们将围绕这些问题展开。
2057 1
|
供应链 安全 区块链
联盟链平台搭建技术|联盟链场景介绍
何为联盟链?联盟链是区块链三大类型之一,有多个组织团体节点联合在一起维护的,只针对特定某个群体的成员和有限的第三方开放,共同记录交Y数据,其主要解决的是账本共享问题。

热门文章

最新文章