SQuAD,斯坦福在自然语言处理的野心

简介:

真英雄,成名于少林寺武侠大会;好算法,验证在斯坦福公开数据。

武侠小说中一个公平且有影响力的平台,可以让侠之大者脱颖而出,科研也是,一个优秀的公开数据集可以让好算法脱颖而出,并同时让那些靠吹的算法身败名裂。本文将详细叙述今年目前为止自然语言处理界最重量级的数据集 SQuad。

1. SQuAD是什么?

SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章数据集的贡献者为斯坦福Percy Liang等人,Percy Liang是自然语言处理界的一位全才,在Semantic Parsing, QA, Optimization等多个领域都有重要贡献。

SQuAD,斯坦福在自然语言处理的野心

当前的公开数据集对比如下,MCTest,Algebra和Science是现在的三个公开的阅读理解数据集,我们可以看到Squad在数量上远远超过这三个数据集,这使得在这个数据集上训练大规模复杂算法成为可能。同时,相比于WikiQA和TrecQA这两个著名问答数据集,Squad也在数量上远远超过。而CNN Mail和CBT虽然大,但是这两个数据集都是挖空猜词的数据集,并不是真正意义上的问答。

2. 追赶ImageNet ,发力自动问答领域

这个数据集文章展现了着斯坦福做一个自然语言处理的ImageNet的野心,他很可能成为自然语言学术界未来至少一年内最流行的数据集。模型在这个数据集上做出好成绩,可以让自己的文章加分不少,被顶会录取的几率大大增加。如果读者想发顶会,且目前没有明确的研究方向,那么刷这个数据集是一条很好的道路。

于此同时,这个数据集也会为工业界做出贡献。之所以说会为工业界做出贡献,因为自然语言处理的研究风气和图像相比差一些,任务较多,且没有在paper里面附带代码的行业规则,导致很多工作无法重现,甚至有些人会连实验都不做,直接往图和表里面填数造一篇文章。而这个数据集学习了Imagenet,不给测试集,这样你就没法作弊,把代码交上来,我来给你跑,之后把测试集合上的水平评测出来,这样大家都公平,谁也别吹牛,谁也别作弊。此种环境有利于真正大贡献的工作得以浮现,例如Residual Network在去年席卷图像领域,在一个公平的环境下,以比其他对手好很多的效果呈现在了世人的面前。而SQuAD则是斯坦福在自然语言处理上,意图构建一个类似“ImageNet”的测试集合,分数实时在leaderboard上显示

这就让这个数据集有如下优势

  1. 测试出真正的好算法。尤其对于工业界,这个数据集是十分值得关注的,因为他可以告诉大家现在各个算法在“阅读理解”或者说“自动问答”这个任务上的排名。我们可以光看分数排名,就知道世界上哪个算法最好,不会再怀疑是作者做假了还是实现的不对


  2. 提供一个阅读理解的大规模数据集。由于之前的阅读理解数据集规模太小或者十分简单,用一个普通的深度学习算法就可以刷到90%度,所以并不能很好的体现不同算法优劣。

纵使SQuAD不会像ImageNet有那么大的影响力,但绝对也会在接下来的几年内对自动问答领域产生深远的影响,并且是各大巨头在自动问答这个领域上的兵家必争之地(IBM已经开始了)。

3. 如何构建 SQuad数据集?

接下来,让我们详细介绍这个数据集的构建(此数据集已经被EMNLP2016会议收录 https://arxiv.org/pdf/1606.05250.pdf),我们先感受一下这个数据集精美的界面。

SQuAD,斯坦福在自然语言处理的野心

从图中我们可以看到,在验证集合和测试集合的水平。其中测试集合需要你提交一个可以运行的程序。最后一名和第一名分别是作者做的baseline以及人来回答能达到的水平,我们可以看到虽然只发布一个月,新加坡一些大学和IBM公司已经在这个任务上进行了尝试。 下图就是这个数据集的一个样例,首先给定一篇文章,然后开始问问题,第一个问题“什么造成了降雨”答案是重力造成的。问题十分有难度,需要推理,不过答案仍然在文中出现过。

SQuAD,斯坦福在自然语言处理的野心

数据集的具体构建如下

1. 文章是随机sample的wiki百科,一共有536篇wiki被选中。而每篇wiki,会被切成段落,最终生成了23215个自然段。之后就对这23215个自然段进行阅读理解,或者说自动问答。

2. 之后斯坦福,利用众包的方式,进行了给定文章,提问题并给答案的人工标注。他们将这两万多个段落给不同人,要求对每个段落提五个问题。

SQuAD,斯坦福在自然语言处理的野心

3. 让另一些人对提的这个问题用文中最短的片段给予答案,如果不会或者答案没有在文章中出现可以不给。之后经过他们的验证,人们所提的问题在问题类型分布上足够多样,并且有很多需要推理的问题,也就意味着这个集合十分有难度。如下图所示,作者列出了该数据集答案的类别分布,我们可以看到 日期,人名,地点,数字等都被囊括,且比例相当。

SQuAD,斯坦福在自然语言处理的野心

4. 这个数据集的评测标准有两个,第一:F1,第二:EM。EM是完全匹配的缩写,必须机器给出的和人给出的一样才算正确。哪怕有一个字母不一样,也会算错。而F1是将答案的短语切成词,和人的答案一起算recall,Precision和F1,即如果你match了一些词但不全对,仍然算分。

5. 为了这个数据集,他们还做了一个baseline,是通过提特征,用LR算法将特征组合,最终达到了40.4的em和51的f1。而现在IBM和新加坡管理大学利用深度学习模型,均突破了这个算法。可以想见,在不远的将来会有更多人对阅读理解发起挑战,自然语言的英雄也必将诞生。甚至会有算法超过人的准确度。

自动问答超越人类,你准备好了?


本文作者:NLP日月星辰


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
Ubuntu
ubuntu 安装telnet服务
ubuntu 安装telnet服务
311 0
|
Shell Android开发 开发者
adb简介及常用命令总结
adb(Android Debug Bridge),安卓平台调试桥,是连接Android手机与PC端的桥梁,通过adb可以管理、操作模拟器和设备,如安装软件、查看设备软硬件参数、系统升级、运行shell命令等。 简单总结主要功能有: 1、运行设备的shell(命令行) 2、管理模拟器 3、计算机和设备之间上传/下载文件 4、将本地apk软件安装至模拟器或android设备
2085 0
|
6月前
|
安全
移动硬盘提示需要格式化怎么办?这样操作数据还能保住!
当移动硬盘提示“需要格式化”时,很多人会误操作导致数据丢失。本文详解了硬盘提示格式化的常见原因,并提供不格式化恢复数据的具体方法,包括使用DiskGenius直接读取、智能加载分区和深度扫描等步骤。同时介绍了修复硬盘及预防问题的实用技巧,帮助你安全应对突发情况,保护重要数据。
|
存储 网络协议 容灾
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
凭借在规模化部署和应用模型上的创新,阿里云存储团队发表的技术论文《Deploying User-space TCP at Cloud Scale with LUNA》被 USENIX ATC'23 收录。
1817 4
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
|
监控 数据可视化 数据挖掘
直播电商复盘全解析:如何通过工具提升团队效率
直播电商作为新兴商业模式,正改变传统零售格局。其成功不仅依赖主播表现和产品吸引力,更需团队高效协作与分工优化。复盘是提升执行力的关键环节,通过总结经验、发现问题、优化流程,结合在线工具如板栗看板,可提升复盘效率。明确团队角色、建立沟通机制、制定优化方案,确保数据驱动决策,从而在竞争中保持领先。
|
XML JSON Java
常用工具类---JSONUtil
这段内容提供了Java中将不同数据结构转换为JSON的代码示例。包括使用`JSONArray`将一维和二维数组、对象、Map及List转换为JSON字符串,并展示了如何从JSON字符串转换回Object、List以及XML到JSON的转换。
|
数据挖掘 数据安全/隐私保护
抖音运营:解锁流量增长密码
在短视频盛行的时代,抖音成为流量蓝海,众多创作者和品牌竞相涌入。要在激烈竞争中脱颖而出,除了创作优质内容和巧妙运营外,数据分析至关重要。精准定位目标受众,挖掘创意与热门趋势,优化视频制作、剪辑节奏及发布时间,积极互动并分析关键数据指标(如播放量、点赞数、完播率等),不断优化运营策略,才能实现流量快速增长和账号的长期发展。
1411 11
|
设计模式 算法 数据库连接
后端开发中的设计模式应用与实践
在软件开发的广袤天地中,设计模式如同夜空中最亮的星辰,引领着开发者们穿越复杂系统的迷雾。本文旨在通过深入浅出的方式,不仅探讨设计模式的理论精髓,揭示它们在后端架构中的重要性,还将以生动的实践案例,展示如何在实际项目中巧妙运用这些模式。我们邀请您一同踏上这场编程之旅,探索如何借助设计模式的力量,让后端系统更加健壮、灵活且易于维护,共同揭开后端技术神秘面纱的一角。
|
存储 Java 流计算
Flink 分布式快照,神秘机制背后究竟隐藏着怎样的惊人奥秘?快来一探究竟!
【8月更文挑战第26天】Flink是一款开源框架,支持有状态流处理与批处理任务。其核心功能之一为分布式快照,通过“检查点(Checkpoint)”机制确保系统能在故障发生时从最近的一致性状态恢复,实现可靠容错。Flink通过JobManager触发检查点,各节点暂停接收新数据并保存当前状态至稳定存储(如HDFS)。采用“异步屏障快照(Asynchronous Barrier Snapshotting)”技术,插入特殊标记“屏障(Barrier)”随数据流传播,在不影响整体流程的同时高效完成状态保存。例如可在Flink中设置每1000毫秒进行一次检查点并指定存储位置。
407 0
|
存储 监控 数据可视化
【日志系统】Loki日志监控 - 入门初体验
由于需求对日志进行监控,但是日志又很大,不能直接通过流的方式直接将text读取出来,可以使用grafana+loki+promtail搭建一个轻量级的日志系统,部署也简单方便。grafana提供可视化展示日志,然而loki是存储日志和处理查询,Promtail相当于loki的代理,收集日志发给loki。
1489 0
【日志系统】Loki日志监控 - 入门初体验