《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集-阿里云开发者社区

《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

2017-09-04 1941

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章，第7.9节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.9 机器阅读理解评测数据集

现阶段，和阅读理解相关的数据集主要有以下五个。

1 . MCTest

微软研究院的研究员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集。在这个数据集中，所有的文档都是一些叙述性的故事。它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内，包含有许多常识性的推理，这些推理既包含事实性的，也包含非事实性的。这个数据集包含有两部分，一个是 MC160，还有一个是 MC500，分别包含 160 篇和 500 篇文档。由于这个数据集较为接近我们真实的阅读理解场景，因而成为阅读理解相关研究者的首选评测数据集。

2 . bAbi

这个数据集是由 Facebook 人工智能实验室的研究人员提出[2] ，将问答系统中的任务按照回答方法分成了 20 种，比如单支撑句问题、方位问题等。20 个问题的分类和一些常用方法在这些问题上面的结果如图 2 所示。
由于在这个数据集中，所有的问题和背景文档都是依靠规则自动生成的，因而数据量比较大（可以无限大）。但是由于包含的信息太少，主要是用来测试一些推理模型，如 memory Networks 或者神经图灵机。最新的工作[3]已经可以依靠规则系统，将这 20 类问题全部答对。

3 . CNN&Daily Mail

该数据集是 Google Deepmind 的研究人员在NIPS2015上提出的一个数据集[4] ，数据的构造非常巧妙。首先，作者在两个新闻语料上（CNN 和 Daily Mail）分别搜集了 11 万和 21.8 万篇新闻，每篇新闻都有一些总结句（文章标题或者新闻要点），然后作者将其中的每篇新闻看成一个背景文档，把总结句中的实体去掉，再把这个去掉实体的标题当成问题。如图 3 所示。

作者用这种自动的方法构造了一个海量的数据集，在这些问题中答案没有预先给出，但是都可以在原文中得到。这个数据集主要考察哪些答案是实体类型的问题，问题也都是陈述型的问句，因而是一种 cloze（完形填空）型的机器阅读理解任务。

4 . CBTest

这个数据集也是 Facebook 人工智能实验室的研究员在 ICLR2016 上发布的数据[5] ，主要根据儿童读物的文章构建。其中，每篇文章包含一个故事；每个故事采用人工的方式分为很多小部分；每个部分含有 21 句话，前 20 句话是被当成背景文档，第21 句话是问题，需要系统对其中缺少的实体或者名词进行补全。在答案中会事先给出 10 个候选，需要从这 10 个候选中找到正确的一项对空处进行填充。如图 4 所示。类似于 CNN&Daily Mail 数据集，由于这些问题大部分是实体的，所以也是 cloze（完形填空）型的机器阅读理解任务。

5 . 公开评测

除了上述公开数据集之外，Cross LingualEvaluation Forum （CLEF） 1 从 2013 年开始每年举办“Entrance Exams（入学考试）”问答子任务。该评测数据从日本入学考试中选取，每篇文档都伴随有若干问题，每个问题有若干选项。但是由于考试的内容有限，所以数据集非常小。（2015 年时提供的训练集大小只有 19 篇文档、89 个问题。）

综上所述，目前各公开的数据集，由于其考察系统阅读理解能力侧重点的不同，因此所构造的数据集的方式、规模和形式也不尽相同。从已有研究成果来看，大部分方法目前主要侧重于系统对文本深层次的语义理解能力，因此，大部分机器阅读理解方法都集中于在 MCTest 数据集进行评测。在下面的章节中，本文也主要围绕 MCTest 数据集介绍已有的机器阅读理解方法。

《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

7.9 机器阅读理解评测数据集

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

7.9 机器阅读理解评测数据集

热门文章

最新文章

相关课程

相关电子书

相关实验场景