微软刷新CoQA对话问答挑战赛纪录,模型性能达到人类同等水平

简介: 某些分数甚至超越了人类

雷锋网(公众号:雷锋网) AI 科技评论按,来自微软亚洲研究院(MSRA)自然语言处理(NLP)小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答(COQA)挑战中处于领先位置。在这一挑战中,衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集,由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集(SQuAD)在单轮问答上达到了人类同等水平,这是一个新的里程碑。与 SQuAD 相比,CoQA 中的问题更具对话性,为了确保答案看起来自然,它可以是自由格式的文本。

CoQA 中的问题非常简短,可以模仿人类的对话。此外,第一个问题之后的每个问题都是基于前面的问题的,这使得机器更难解析简短的问题。例如,假设你问一个系统,「谁是微软的创始人?」,当你继续问第二个问题「他什么时候出生的?」时,你需要理解你仍然在谈论和之前相同的话题。

TB1eLDbVNYaK1RjSZFnXXa80pXa.png

来自 CoQA 数据集的对话。CoQA 论文:https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力,CoQA 从收集了七个不同领域的数据:儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集,后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分;域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略,即利用从几个相关任务中获得的信息来改进目标机器阅读理解(MRC)任务。在多阶段、多任务、微调方法中,研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息,然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用,以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性,其在 CoQA 挑战中的强大性能也证明了这一点。

TB1RwmxoDZmx1VjSZFGXXax2XXa.png

多级多任务微调模型概述

根据 CoQA 排行榜,微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4,分别作为其领域内、领域外和整体 F1 分数。而在面对同一组会话问题和答案,人的表现得分为 89.4/87.4/88.8。

这一成就标志着搜索引擎(如 Bing)和智能助手(如 Cortana)在与人互动和以更自然的方式提供信息方面取得了重大进展,就像人们相互交流一样。然而,一般的机器阅读理解和问答仍然是自然语言处理中未解决的问题。为了进一步扩大机器理解和生成自然语言的能力边界,团队将继续致力于生成更强大的预训练模型。

via:https://www.microsoft.com/en-us/research/blog/machine-reading-systems-are-becoming-more-conversational/

雷锋网雷锋网

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
机器学习/深度学习 运维 Linux
KVM详解(二)——KVM安装部署
KVM详解(二)——KVM安装部署
742 3
|
消息中间件 数据采集 监控
高级应用:利用DataHub构建实时数据流处理系统
【10月更文挑战第23天】在大数据时代,实时数据处理的需求日益增长。无论是金融交易、物联网设备监控,还是社交媒体分析,实时数据流处理系统都扮演着至关重要的角色。作为阿里云提供的实时数据同步服务,DataHub为开发者提供了一种高效、可靠的方式来构建实时数据流处理系统。本文将从个人的角度出发,探讨如何利用DataHub构建实时数据流处理系统,包括配置实时数据采集、与流处理引擎集成、实施数据流的实时分析和处理,以及确保系统的高可用性和扩展性。
636 5
|
JavaScript API C++
Vue项目中的文件/文件夹命名规范
文件或文件夹的命名遵循以下原则: index.js 或者 index.vue,统一使用小写字母开头的(kebab-case)命名规范 属于组件或类的,统一使用大写字母开头的(PascalCase)命名规范 其他非组件或类的,统一使用小写字母开头的(kebab-case)命名规范 1.
18503 0
|
10月前
|
缓存 安全 Android开发
Python实战:搭建短信转发器,实现验证码自动接收与处理
在移动互联网时代,短信验证码是重要的安全手段,但手动输入效率低且易出错。本文介绍如何用Python搭建短信转发器,实现验证码自动接收、识别与转发。通过ADB工具监听短信、正则表达式或ddddocr库提取验证码,并利用Flask框架转发数据。系统支持多设备运行,具备安全性与性能优化功能,适合自动化需求场景。未来可扩展更多功能,提升智能化水平。
1489 1
|
10月前
|
JavaScript 应用服务中间件 nginx
Vue项目部署:如何打包并上传至服务器进行部署?
以上就是Vue项目打包及部署的方法,希望对你有所帮助。描述中可能会有一些小疏漏,但基本流程应该没有问题。记住要根据你的实际情况调整对应的目录路径和服务器IP地址等信息。此外,实际操作时可能会遇到各种问题,解决问题的能力是每一位开发者必备的技能。祝你部署顺利!
2230 17
|
数据可视化 vr&ar
【Eviews实战】——ARIMA模型建模
【Eviews实战】——ARIMA模型建模
|
弹性计算 监控 前端开发
[新]源代码生成服务-用户指南
本文以Springboot源代码仓库为例,介绍如何快速将GitHub仓库转化为计算巢服务并进行测试。计算巢服务是云资源与软件的编排集合,服务商可将其发布的服务供用户创建实例并使用。文中详细描述了从创建服务、配置参数到实例化和使用的全流程,并提供了高级配置的说明。
|
存储 分布式计算 Java
大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化 在搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面  1、 HDFS方面: 1> 存储格式的选择 对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。
5053 0
|
SQL 分布式计算 Java
Spark常见错误剖析与应对策略
Spark常见错误剖析与应对策略
1117 1
|
存储 关系型数据库 数据库
数据库原理与应用系列_04函数依赖
在关系数据库系统中,关系模型包括一组关系模式,并且关系之间不是完全孤立的(主外键)。 设计一个合适的关系型数据库系统,关键是设计关系型数据库的模式。
数据库原理与应用系列_04函数依赖

热门文章

最新文章