DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书

简介:
本文来自AI新媒体量子位(QbitAI)

在机器阅读理解界的ImageNet——SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩。

d8e10d4bb3246eeb2a6b929b933b5d582f8a3eea

可是,为什么我们依然觉得机器不太听/看得懂人话?

科学研究界有句老话说得好,世界上最远的距离,就是从实验环境到工程实际。

这句话是量子位现编的,不过现有的这些阅读理解数据集,的确和现实有一些距离。用DeepMind最近一篇论文里的话来说,它们“不能测试出阅读理解必要的综合方面”。

为了给算法准备一套不那么小儿科的试题,DeepMind今天发布了一个难度更高的阅读理解任务和数据集:NarrativeQA

更长的文档,更难的问题

DeepMind说,NarrativeQA是第一个基于整本书或整个剧本的大规模问答数据集

它最大的特点,就是其中大部分问题不能仅靠文档表面的模式匹配和凸显来回答,而是至少要读上几段内容,这几段内容甚至会分布在故事的各个部分。要正确答出问题,算法必须真的理解文档所讲的故事。

其实,测试机器阅读理解能力的数据集已经有不少。

比如我们在文章开头提到的SQuAD挑战赛就有同名数据集,是斯坦福大学2016年发布的,包含从536个Wikipedia条目中提取的23000个段落,10.8万个人工生成的问题。其他数据集还有以童书为阅读材料的Children’s Book Test (CBT)、BookTest,小学水平的MCTest,新闻构成的CNN/Daily Mail、NewsQA,以及搜出来的文章组成的MS MARCO和SearchQA。

DeepMind研究了这些数据集,发现他们有的规模太小或者不够自然,就算比较自然的数据集,难度也不够,里边大部分问题根据文章中一两句话,就能回答出来。

基于这些数据集存在的问题,他们在设计NarrativeQA时,先确定了几个必需的特质:要有很多问答对,这些问答要基于大量文档或者少量的长文档,问答需要是自然、自由、人工生成的,回答问题需要参考文档中的几处内容或者一长段话。他们还希望数据集的标注者不要用文档中的话来回答问题,而是换个说法,或者要考虑到文档中实体、地点、事件之间较高层次的关系。

daab02635cec6114d529d80f50d510b7f8b1705f

最终,他们的NarrativeQA数据集包含1572个故事和46765个问题。

数据集中的故事文档基本是书和电影剧本,书来自古腾堡计划中的电子书,而电影剧本是从网上抓取来的。数量虽少,但是与其他数据集相比,这些文档都非常长,最长的有430061个token(也就是一本几十万字的书),而且有着不错的词汇覆盖面和多样性。

而其中的问答对,是亚马逊众包平台Mechanical Turk上的标注员根据这些书和剧本的维基百科摘要写出来的,每个文档大约对应着30对问答。

fd500115604b91aa79e7023b35a11ea2edb20960

NarrativeQA中大部分问题都是“WH-”开头的,也就是“什么、谁、为什么、怎么、哪里、哪个、多少”等等。

而其中的回答,有44.05%来自文档概要,29.57%来自文档本身。

e14d5b43361a3d633f870fc7c8f09f66a0aec06e

NarrativeQA数据集包含的故事中,书和剧本所占的比例差不多。整个数据集约70%被划分到训练集,7.5%被划分到验证集,22.5%被划分到测试集。

相关论文

524f06158a0d1de2754dd970d9eb0d7175e25d9d


The NarrativeQA Reading Comprehension Challenge

作者:
Tomáš Kočiský, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, Edward Grefenstette

地址:
https://www.arxiv-vanity.com/papers/1712.07040v1/

数据集下载

DeepMind自己公布了一个GitHub地址:
https://github.com/deepmind/narrativeqa

不过,这里只有NarrativeQA中文档的名称、链接、维基百科概要、问题和答案,并没有这些文档的全文,只给出了抓取这些文档所需要的脚本。

纽约大学的NLP专家Kyunghyun Cho表示这不能忍……他说,互联网是动态的,网页总在变,脚本说不定哪天就不管用了。

保险起见,他抓取了数据集中该有的所有文档,上传到了Google Drive。

地址:
https://drive.google.com/file/d/19ol41J8Obu-0bp5eOcaDqtt-dR_syrU-/view

量子位搬了一份到度娘的网盘,在公众号QbitAI对话界面回复“NarrativeQA”提货。

本文作者:夏乙 
原文发布时间: 2017-12-21
相关文章
|
17天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
111 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI与艺术创作:机器的艺术天赋
【10月更文挑战第31天】本文探讨了AI在艺术创作中的应用及其独特“艺术天赋”。从绘画、音乐、文学到设计,AI通过计算机视觉、自然语言处理和生成对抗网络等技术,逐渐展现出强大的创作能力。尽管面临原创性、审美标准和法律伦理等挑战,AI艺术创作仍为艺术界带来了新的视角和灵感,未来有望与人类艺术家共同推动艺术的创新与发展。
|
2月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
144 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
|
2月前
|
人工智能
阅读了《文档智能 & RAG让AI大模型更懂业务》的解决方案后对解决方案的实践原理的理解
阅读《文档智能 & RAG让AI大模型更懂业务》后,我对文档智能处理与RAG技术结合的实践原理有了清晰理解。部署过程中,文档帮助详尽,但建议增加常见错误处理指南。体验LLM知识库后,模型在处理业务文档时效率和准确性显著提升,但在知识库自动化管理和文档适应能力方面仍有改进空间。解决方案适用于多种业务场景,但在特定场景下的集成和定制化方面仍需提升。
|
3月前
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。
|
3月前
|
机器学习/深度学习 人工智能 算法
AI伦理边界:当机器决策超越人类认知
【9月更文挑战第5天】AI伦理边界的探索是一个复杂而艰巨的任务,需要政府、企业、学术界和社会各界的共同努力。随着AI技术的不断发展,我们有理由相信,通过不断的探索和实践,我们一定能够找到一条既符合伦理道德又能够充分发挥AI技术潜力的道路。在未来的日子里,让我们携手并进,共同迎接AI技术带来的机遇与挑战。
|
4月前
|
人工智能 自然语言处理 文字识别
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
在当今信息爆炸的时代,AI阅读工具正在革新我们的阅读方式,成为了提高效率、优化阅读体验的关键。这类AI阅读辅助工具,只需要上传文件或者输入链接,便可以直接以聊天对话的形式进行一键总结和智能问答,满足用户AI PDF 阅读、AI文档问答分析、AI音视频总结等多种实用需求,高效提炼信息要点精华,建立属于自己的AI知识管理和信息管理工作流。对此,根据阅读场景,精选了 13 个具有代表性、各具特点的高质量 AI 阅读助手助理。 具体如何选择,见文末总结。
437 1
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
|
3月前
|
人工智能 数据处理 计算机视觉
AI计算机视觉笔记十六:yolov5训练自己的数据集
本文介绍了一种利用云服务器AutoDL训练疲劳驾驶行为检测模型的方法。由于使用本地CPU训练效率低下,作者选择了性价比高的AutoDL云服务器。首先,从网络获取了2000多张疲劳驾驶行为图片并使用labelimg软件进行标注。接着,详细介绍了在云服务器上创建实例、上传数据集和YOLOv5模型、修改配置文件以及开始训练的具体步骤。整个训练过程耗时约3小时,最终生成了可用于检测的模型文件。
|
6月前
|
机器学习/深度学习 存储 人工智能
【AI】告别繁琐阅读,阿里通义智文阅读助手带您轻松畅游知识海洋!
阿里通义智文阅读助手是AI驱动的阅读辅助工具,能识别并解析PPT、图片、PDF等文档,提供摘要、关键词提取、语义理解与问答功能。用户可上传图片文件,工具自动识别文字,支持图表识别和全文搜索。此外,它还具有智能问答功能,能回答用户关于文档内容的问题。工具兼容多种文件格式,但有每日使用和存储限制。作者木头左邀请用户体验并期待下次分享。
【AI】告别繁琐阅读,阿里通义智文阅读助手带您轻松畅游知识海洋!
|
5月前
|
机器学习/深度学习 人工智能 算法
AI与创意写作:机器如何学习讲故事
【7月更文挑战第8天】在数字时代的浪潮中,人工智能已经从实验室走向了文学创作的领域。本文将探讨AI在创意写作中的应用,揭示它如何通过算法模仿人类的思维模式,生成引人入胜的故事。我们将一同穿梭于代码与文字之间,见证一个由数据驱动的叙事新纪元的诞生。
下一篇
DataWorks