《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章,第7.9节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.9 机器阅读理解评测数据集

现阶段,和阅读理解相关的数据集主要有以下五个。

1 . MCTest

微 软 研 究 院 的 研 究 员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集。在这个数据集中,所有的文档都是一些叙述性的故事。它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内,包含有许多常识性的推理,这些推理既包含事实性的,也包含非事实性的。这个数据集包含有两部分,一个是 MC160,还有一个是 MC500,分别包含 160 篇和 500 篇文档。由于这个数据集较为接近我们真实的阅读理解场景,因而成为阅读理解相关研究者的首选评测数据集。

2 . bAbi

这个数据集是由 Facebook 人工智能实验室的研究人员提出[2] ,将问答系统中的任务按照回答方法分成了 20 种,比如单支撑句问题、方位问题等。20 个问题的分类和一些常用方法在这些问题上面的结果如图 2 所示。image
由于在这个数据集中,所有的问题和背景文档都是依靠规则自动生成的,因而数据量比较大(可以无限大)。但是由于包含的信息太少,主要是用来测试一些推理模型,如 memory Networks 或者神经图灵机。最新的工作[3]已经可以依靠规则系统,将这 20 类问题全部答对。

3 . CNN&Daily Mail

该数据集是 Google Deepmind 的研究人员在NIPS2015上提出的一个数据集[4] ,数据的构造非常巧妙。首先,作者在两个新闻语料上(CNN 和 Daily Mail)分别搜集了 11 万和 21.8 万篇新闻,每篇新闻都有一些总结句(文章标题或者新闻要点),然后作者将其中的每篇新闻看成一个背景文档,把总结句中的实体去掉,再把这个去掉实体的标题当成问题。如图 3 所示。

image
作者用这种自动的方法构造了一个海量的数据集,在这些问题中答案没有预先给出,但是都可以在原文中得到。这个数据集主要考察哪些答案是实体类型的问题,问题也都是陈述型的问句,因而是一种 cloze(完形填空)型的机器阅读理解任务。

4 . CBTest

这个数据集也是 Facebook 人工智能实验室的研究员在 ICLR2016 上发布的数据[5] ,主要根据儿童读物的文章构建。其中,每篇文章包含一个故事;每个故事采用人工的方式分为很多小部分;每个部分含有 21 句话,前 20 句话是被当成背景文档,第21 句话是问题,需要系统对其中缺少的实体或者名词进行补全。在答案中会事先给出 10 个候选,需要从这 10 个候选中找到正确的一项对空处进行填充。如图 4 所示。类似于 CNN&Daily Mail 数据集,由于这些问题大部分是实体的,所以也是 cloze(完形填空)型的机器阅读理解任务。image

5 . 公开评测

除 了 上 述 公 开 数 据 集 之 外,Cross LingualEvaluation Forum (CLEF) 1 从 2013 年开始每年举办“Entrance Exams(入学考试)”问答子任务。该评测数据从日本入学考试中选取,每篇文档都伴随有若干问题,每个问题有若干选项。但是由于考试的内容有限,所以数据集非常小。(2015 年时提供的训练集大小只有 19 篇文档、89 个问题。)

综上所述,目前各公开的数据集,由于其考察系统阅读理解能力侧重点的不同,因此所构造的数据集的方式、规模和形式也不尽相同。从已有研究成果来看,大部分方法目前主要侧重于系统对文本深层次的语义理解能力,因此,大部分机器阅读理解方法都集中于在 MCTest 数据集进行评测。在下面的章节中,本文也主要围绕 MCTest 数据集介绍已有的机器阅读理解方法。

相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI检测技术:如何识别机器生成的“数字指纹”?
AI检测技术:如何识别机器生成的“数字指纹”?
511 115
|
8月前
|
人工智能 自然语言处理 数据安全/隐私保护
AI生成的文本:如何识破机器的“笔迹”?
AI生成的文本:如何识破机器的“笔迹”?
1235 85
|
8月前
|
人工智能 数据安全/隐私保护
AI生成的痕迹:我们如何检测机器撰写的文本
AI生成的痕迹:我们如何检测机器撰写的文本
2317 117
|
9月前
|
人工智能 数据挖掘 大数据
人工智能模型决策过程:机器与人类协作成效
决策智能(DI)融合AI与人类判断,提升商业决策质量。通过数据驱动的预测与建议,结合人机协作,实现更高效、精准的业务成果,推动企业迈向数据文化新阶段。(238字)
|
9月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
765 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
8月前
|
人工智能 生物认证 数据安全/隐私保护
AI检测器:我们如何识别机器生成的内容?
AI检测器:我们如何识别机器生成的内容?
639 3
|
8月前
|
机器学习/深度学习 人工智能
破译AI指纹:如何检测内容是否出自机器之手?
破译AI指纹:如何检测内容是否出自机器之手?
379 3
|
9月前
|
人工智能 运维 监控
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
341 8
|
8月前
|
人工智能 搜索推荐 数据安全/隐私保护
AI检测技术:如何识别机器生成内容?
AI检测技术:如何识别机器生成内容?
517 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗AI语义大模型软件:让机器真正“懂”你的话
AI语义大模型远非聊天机器人,其核心由三大技术构成:基于Transformer的自注意力机制实现语言理解;通过预训练+微调,从通才成长为专才;结合提示工程与推理优化,提升输出质量与运行效率。这是一套深度融合算法、数据与工程的复杂系统,推动智能应用真正落地。
288 0