【重磅】机器阅读理解终于超越人类水平!权威竞赛排名中国霸榜,阿里、MSRA、腾讯前二

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 2018年1月3日,微软亚洲研究院的r-net率先第一个在SQuAD machine reading comprehension challenge 上达到82.650,这意味着在ExactMatch (精准匹配)指标上首次超越人类在2016年创下的82.304。

2018年1月3日,微软亚洲研究院的r-net率先在SQuAD machine reading comprehension challenge 上达到82.650,这意味着在ExactMatch (精准匹配)指标上首次超越人类在2016年创下的82.304。

a526e8297f7b3021993826d0e2ed37da5f713c35

值得注意的是,其中阿里巴巴数据科学与技术研究院IDST在1月5日刷新了F1分数至88.607。腾讯NLP团队在一个月前的数据也紧随其后,可喜可贺。

1ddd5cb95533ff87bd07b5b8f458899df8298878

在前10名单中,我们看到了中国团队的“霸榜”:

  • 并列第1:阿里巴巴 iDST NLP、微软亚洲研究院
  • 并列第2:微软亚洲研究院、腾讯DPDAC NLP
  • 并列第4:阿里巴巴 iDST NLP、微软亚洲研究院
  • 第5:科大讯飞与哈工大联合实验室
  • 第9:阿里巴巴 iDST NLP
  • 第10:浙江大学

包括阿里巴巴、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡内基·梅隆大学)、斯坦福大学等在内的全球自然语言处理领域的研究人员,共同推动着自然语言理解的进步。

微软亚洲研究院副院长周明在朋友圈评论:祝贺中国的自然语言理解研究已经走在世界前列!高兴的同时也更加意识到自然语言理解长路漫漫,更需继续努力。

4ddbfdd5ab7622815a641148bc03c6c22f09a86e

SQuAD:机器阅读理解界的ImageNet

做机器阅读理解研究的学者,想必对由斯坦福大学自然语言计算组发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛并不陌生。

它也被誉为“机器阅读理解界的ImageNet”。诸多来自全球学术界和产业界的研究团队都积极地参与其中。

SQUAD是斯坦福大学2016年推出的一个阅读理解数据集,由众多维基百科文章众包工作者提出的问题组成,其中每个问题的答案都是相应阅读段落的一段文字,需要算法找到答案。

在配套的500多篇文章中,有超过10万个问题,SQuAD显着大于以前的阅读理解数据集。

那么,SQuAD机器阅读理解挑战赛是怎样进行的呢?SQuAD通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题)。

即将一篇几百(平均100,最多800)词左右的短文给标注者阅读,随后让标注人员提出最多5个基于文章内容的问题并提供正确答案。

SQuAD向参赛者提供训练集用于模型训练,以及一个规模较小的数据集作为开发集,用于模型的测试和调优。

与此同时,他们提供了一个开放平台供参赛者提交自己的算法,并利用测试集对其进行评分,评分结果将实时地在SQuAD官网上进行更新。

R-NET:基于自匹配网络的机器阅读理解

为了研究机器阅读理解问题,微软亚洲研究院NLP团队试图去建模人做阅读理解的过程。

他们提出一个名为R-NET的端到端神经网络模型,该模型的目的是回答针对给定文本段落的问题。

在R-NET的技术报告中,他们首先将问题和文本与门控注意力循环网络(gated attention-based recurrent networks)相匹配,以获得question-aware的文本表示。

然后,他们提出一个self-matching的注意力机制,通过将文本自身进行匹配来优化表示,从而有效地对整个段落中的信息进行编码。

最后,研究人员使用提示网络( pointer network)来定位文本中答案的位置。这个模型在SQuAD和MS-MARCO数据集上进行了广泛的实验,在两个数据集上都取得了很好的结果。

人在做阅读理解的过程中,一个常见的顺序是这样的:首先阅读整篇文章,对文章有一个初步理解之后再去审题,从而对问题也有了一定认知。

第二步,可能就需要将问题和文中的部分段落和内容做一些关联。例如题干中出现的某些关键已知信息(或证据)的,找出一些候选答案,举例来说:如果问题问的信息是时间,那么文中出现的与时间相关的信息就可能是候选答案。

第三步,当我们将候选答案与问题进行对应之后,我们还需要综合全文去看待这些问题,进行证据的融合来辅证答案的正确性。

最后一步,就是针对自己挑出的答案候选进行精筛,最终写下最正确的答案。

R-NET 模型也分为类似这样的四层。

最下面的一层做表示学习,就是给问题和文本中的每一个词做一个表示,即深度学习里的向量。这里研究组使用的是多层的双向循环神经网络。

第二步,就是将问题中的向量和文本中的向量做一个比对,这样就能找出那些问题和哪些文字部分比较接近。

接下来,将这些结果放在全局中进行比对。这些都是通过注意力机制达到的。

最后一步,针对挑出的答案候选区中的每一个词汇进行预测,哪一个词是答案的开始,到哪个词是答案的结束。

这样,系统会挑出可能性最高的一段文本,最后将答案输出出来。整个过程就是一个基于以上四个层面的神经网络的端到端系统。

559c328b405c166258f0e76f26ac3ad0a1adbe77

图:微软亚洲研究院提出的 R-NET 算法的网络结构图。

其中最为独特的部分是第三层文章的自匹配网络(Self-Matching Networks),更多细节参考技术报告。

R-NET:一个用于阅读理解和问题回答的端到端神经网络模型,由以下四部分组成:

1)循环神经网络编码器,用于为问题和文本建立表示

2)门控匹配层(gated matching layer),用于匹配问题和文本

3)自匹配层(self-matching layer),用于整合整个段落的信息

4)基于答案边界预测层的提示网络(pointer-network)

这项工作在SQuAD数据集取得了优异的结果。最新的r-net+集成模型(ensemble)取得了EM(完全匹配)82.650分和F1 88.493分,排名第一的成绩,r-net(集成模型)、r-net+(单模型)和r-net(单模型)也分别取得第2、第4和第14名的成绩。


原文发布时间为:2018-01-13

本文作者:刘小芹 弗朗西斯

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【重磅】机器阅读理解终于超越人类水平!权威竞赛排名中国霸榜,MSRA、阿里、腾讯前二

相关文章
|
7月前
|
人工智能 自然语言处理 搜索推荐
【创意坊】未来之巅:国内ChatGPT对标,双千亿级大模型引爆科幻革命!
【创意坊】未来之巅:国内ChatGPT对标,双千亿级大模型引爆科幻革命!
102 0
|
机器学习/深度学习 编解码 人工智能
淘宝再夺顶级技术比赛CVPRNTIRE冠军,背后是这些提升用户体验的内容技术
不知不觉间,内容电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。优质的货品、实惠的价格、精致的场景布置、有趣的内容输出都是非常关键的影响因素,这些也必须基于两个前提:画质要高清、播放要流畅。曾经,有不少商家和主播因为直播间画质较差的问题而苦恼,不了解如何实现高画质开播。
171 0
淘宝再夺顶级技术比赛CVPRNTIRE冠军,背后是这些提升用户体验的内容技术
|
机器学习/深度学习 编解码 人工智能
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
|
机器学习/深度学习 人工智能 自动驾驶
全日程公布!你关心的大模型时代AI热点,我们请了多位AI大咖在这场WAIC论坛解答
全日程公布!你关心的大模型时代AI热点,我们请了多位AI大咖在这场WAIC论坛解答
163 0
|
机器学习/深度学习 编解码 人工智能
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(2)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
240 0
|
机器学习/深度学习 编解码 监控
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(1)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
101 0
|
机器学习/深度学习 传感器 人工智能
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
205 0
|
机器学习/深度学习 人工智能 算法
在AI消灭宫颈癌这件事情上,腾讯天衍实验室做了一些重磅研究
值得关注的是,对于超过3.5亿的适龄妇女人群,即使以3-5年进行一次筛查的标准来衡量,我国目前的宫颈癌筛查覆盖地区和人群数量仍然远远不足。来自腾讯天衍实验室的AI电子阴道镜辅诊系统有望为「两癌筛查」提供助力,辅助宫颈癌筛查全面落地应用和推广,最大化释放医疗普惠价值,助推我国医疗资源均衡化发展。
231 0
在AI消灭宫颈癌这件事情上,腾讯天衍实验室做了一些重磅研究
|
算法 机器人 开发工具
机器人真·涨姿势了:比肩人类抓取能力,上海交大、非夕科技联合提出全新方法AnyGrasp
在近日召开的 ICRA (国际机器人与自动化会议)大会上,上海交大-非夕科技联合实验室展示了最新研究成果「AnyGrasp」(https://graspnet.net/anygrasp.html),第一次实现机器人对于任意场景的任意物体的通用高速抓取,在机械臂硬件构型、相机不作限制的情况下,让机器人拥有比肩人类抓取能力的可能。
821 0
机器人真·涨姿势了:比肩人类抓取能力,上海交大、非夕科技联合提出全新方法AnyGrasp
|
机器学习/深度学习 数据采集 人工智能
微信智言夺冠全球对话系统挑战赛,冠军解决方案全解析
如何利用端到端的对话系统基于 Fact 和对话历史生成靠谱的回答,微信智言团队有话说。
354 0
微信智言夺冠全球对话系统挑战赛,冠军解决方案全解析