让机器更好地理解数字,微信AI登顶数字离散推理榜单

简介: 近日,微信团队的一项工作刷新了艾伦 AI 实验室的 DROP 榜单。这是一个主要考察机器阅读理解中的因果推理,特别是数字信息推理能力的榜单。这项工作在本周刷新了该榜单,超越第二名谷歌的模型一个点以上。因此,机器之心采访了微信团队,请团队介绍该工作背后的技术信息。

机器阅读理解一直是自然语言处理中的重要任务。近来很多研究都在致力于解决这一问题,包括采用专家规则、机器学习和神经网络,以及最近较为火热的预训练语言模型等。尽管目前已有很多预训练语言模型在 SQuAD 等榜单上超过人类水平,但对于因果推理,特别是数字方面的推理仍有很大不足。例如,当文本中出现几组数字,向机器提出问题,如「排名第二大的值是多少?」,则机器可能无法很好地回答。


为了解决这一问题,帮助模型在数字离散推理方面更进一步,腾讯微信团队近日提出了专门针对这一任务的模型—NumNet+。该模型基于 NumNet 架构进行了改进,在 DROP 阅读理解榜单上取得了第一名的成绩,F1 和 EM 分数均超过之前效果最优的谷歌集成模型 BERT-Calculator 一个点以上。目前这项工作已开源,机器之心近日采访了微信团队,请研究人员介绍这项新 SOTA 工作。


微信图片_20211202021546.png

DROP 榜单的最新排名(2019 年 10 月 16 日)。



登顶 DROP 榜单


数字离散推理是机器阅读理解下的一个重要任务,目的是考察机器是否能够根据文本中的一处或多处信息,结合问题处理这些信息,通过数字运算等方式,较好地回答给定的问题。考察这一能力的便是 DROP 排行榜。DROP(Discrete Reasoning Over the content of Paragraphs)是艾伦 AI 实验室等提出的一个数据集。相比 SQuAD 数据集,DROP 对模型的数字推理能力要求更高。在训练过程中,模型无法显式地通过抽取或文字匹配的方式直接获得信息,而是需要从文本的多个地方获取数字信息,然后进行运算(包括但不限于:相加、计数或排序)。


DROP 数据集有将近 8 万的训练集问题、近 1 万个开发集问题和同样数量的隐藏测试集问题。这些问题是通过众包形式创建出来的。此外,只有训练集和开发集公开,而测试集不会开放。目前人类在该数据集上的表现(F1 分数)目前为 96%,而在数据集刚刚提出的时候,基线模型的 F1 分数仅仅为 32%。


微信图片_20211202021552.jpg

DROP 数据集中的一些文本、问题和对应的答案。可以看出,模型需要进行对数值进行加减、按年代排序、或进行因果推理。


DROP 榜单是艾伦 AI 实验室设立的一个类似于 GLUE 榜单的排名,参与者需要按照要求的格式将模型打包为 Docker 镜像后上传,由网站自己将测试集放到模型中进行测试,以此保证公平性。同时,DROP 严格限制参与者每周仅能上传一次,以防刷榜。


那么,模型具体的架构是什么样的?机器之心采访了微信团队,为读者朋友们介绍模型背后的技术原理。


NumNet+:能进行数字运算的模型


刷新本次榜单的是 NumNet+模型,由微信团队的 Ronqin Yang、Qiu Ran、Yankai Lin、Peng Li、Jie Zhou 研究者完成的。


微信图片_20211202021556.png


据介绍,本次刷新榜单的是 NumNet+是基于 NumNet 模型构建的,采用了编码层+推理层+预测层的架构。具体而言,NumNe+t 的编码层使用了最新的 RoBERTA 预训练模型,用于编码输入的文本和问题,并利用预训练语言模型学习文本中的语义、语法等先验信息。推理层使用了图神经网络,用于处理编码好的文本和问题信息,而预测层则和 NAQANet 类似,将问题分为四种,并计算潜在答案的概率。


从流程上来说,首先使用预训练语言模型编码文本和问题信息,通过编码方式获取语义结构化的先验知识。随后,将编码的信息输入推理层中,这是 NumNet+的核心层,用于进行数字感知。模型可以学习到用哪些数字进行比较,以及比较这些数字的方法。


图神经网络这样处理数字信息:给定一个问题和一段文本,模型会先把文本和问题中的数字都抽取出来,每个数字是图上的一个节点。同时,对于任意两个数字,假设为 A 和 B。如果 A 大于 B,则在 A 和 B 之间添加一条有向边,表示数字 A 和 B 之间有着 A 大于 B 的关系。如果 A 小于等于 B,则加入另一指向的有向边。通过这样的操作,用图的拓谱结构把数字相对大小知识注入模型。下一步则结合文本信息,让模型进行更复杂的数学推理。通过二者的结合,最终实现数字方面的之所以使用图神经网络,是因为图网络在符号推理上具有更好的优势,可以很好地建模数字之间的大小关系。


微信图片_20211202021559.jpg

NumNet+的整体架构


在获得了数字之间的关系信息后,信息被传入最终的预测层中。在预测时,由模型给定答案属于的类别的条件概率,主要分为以下四种:


  • 文本:答案来自文本;
  • 问题:答案来自问题;
  • 计数:答案需要模型计数回答;
  • 算术表达:通过数学运算获得答案。


最终由预测层提供预测回答。


从模型效果来看,在 DROP 榜单上取得的效果是非常惊艳的。在测试集上,完全匹配(Exact Match:EM)分数达到了 79.36%。而 F1 分数更达到了将近 83%,高出第二名一个点以上。


同时,据微信团队介绍,他们的 OCN 模型在 RACE 榜单——一个由中国初高中英语阅读选择题组成的数据集上,性能已经超过了众包的人类水平,说明了这一模型优秀的性能。


当然,微信团队也表示,目前尽管 NumNet+刷新了 DROP 排行榜,但仍有一些不足。首先,NumNet+目前支持的运算还太少,需要进一步学会更多的数字表达式。此外,从长期来看,NumNet+模型还需要在多种不同的文本上进行测试,如在文字描述简单,但需要的数字推理更为复杂的文本(如数学应用题)上提升推理表现。最终,构建出一个既能够处理文本复杂但运算简单,也能在文本简单但运算复杂的文本上进行推理的高性能模型,是团队接下来会探索研究的方向。


打破机器推理的障壁


微信团队表示,本次研究提出 NumNet+,主要是为了解决现有模型在数字离散推理方面存在的问题。诚然,预训练语言模型,如 BERT 等,已经在机器阅读理解数据集(SQuAD 等)上取得了很大的成功。但是,即使是目前最先进的预训练语言模型也无法超越人类的推理能力。因此,本次实验的目的是为了进一步探索机器推理领域。此外,考虑到传统的神经网络在符号运算上存在的天生短板,学界目前依然缺乏一种通用、成熟的建模方式,NumNet+无疑提出了一种「预训练语言模型+图神经网络」的处理方法。此外,NumNet+的成功再一次证明了预训练语言模型在语言建模和编码上的强大优势,机器阅读理解模型也可以通过构建合适的预训练微调方法实现超越复杂专业模型的表现。


谈到机器阅读理解目前的发展和趋势,微信团队表示,将来的机器阅读理解会更注重几个方面的研究。首先是开放式问答,由机器自行从库中搜索并收集信息进行问答。其次是数字离散推理,即本次研究探索的方向。此外,还有通过对文本进行多步推理,从多条文本中获取答案的研究。最后是常识推理,即让模型像人类一样具有常识,并利用常识知识进行推理和问答。


从应用上来说,NumNet+这项工作可以为诸如人机对话场景提供很多技术支持,使得对话更为智能,帮助客服机器人、语音助手等更好完成人类的指令。同时,在金融大数据方面,本研究可以帮助机器智能地阅读财务报表等涉及数字的文本内容,使得信息抽取和挖掘工作变得更容易。


目前,NumNet+代码已开源,微信团队对开源持开放态度,希望能够推动社区发展和技术交流。


参考链接:

NumNet 论文地址:https://arxiv.org/abs/1910.06701

DROP 数据集:https://allennlp.org/drop



机器之心「SOTA模型」22大领域、127个任务,机器学习 SOTA 研究一网打尽。


微信图片_20211202021602.jpg


www.jiqizhixin.com/sota

PC 访问,体验更佳

相关文章
|
10天前
|
存储 人工智能 API
打造企业微信AI助手
简介:本文档详细介绍如何在企业微信中集成AI助手。首先,通过百炼平台创建大模型问答应用并获取API凭证;接着,在企业微信中创建应用并配置相关参数;随后,利用阿里云AppFlow服务无代码关联企业微信与百炼RAG应用;最后,配置知识库以增强AI回答能力。整个过程简单快捷,帮助您快速搭建专属AI客服系统。
43 1
|
22天前
|
人工智能 数据可视化 API
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
61 2
|
2月前
|
人工智能 自然语言处理 API
手把手教你搭建微信公众号AI助手
【8月更文挑战第6天】手把手教你搭建微信公众号AI助手
202 2
手把手教你搭建微信公众号AI助手
|
2月前
|
人工智能
10 分钟构建 AI 客服并应用到网站、钉钉或微信中简说
10 分钟构建 AI 客服并应用到网站、钉钉或微信
|
2月前
|
人工智能 数据管理 API
手把手教你搭建企业微信AI助手
全程图文,一步一步带你搭建基于云百炼的RAG应用,并配置知识库,让AI助手更专业、更智能。
206 1
|
20天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
221 73
|
17天前
|
人工智能 运维 负载均衡
10 分钟构建 AI 客服并应用到网站、钉钉或微信中
《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案通过详尽的文档和示例代码,使具有一定编程基础的用户能够快速上手,顺利完成AI客服集成。方案涵盖高可用性、负载均衡及定制化选项,满足生产环境需求。然而,若文档不清晰或存在信息缺失,则可能导致部署障碍。实际部署中可能遇到网络、权限等问题,需逐一排查。云产品的功能、性能及操作配置便捷性直接影响解决方案效果,详尽的产品手册有助于快速解决问题。总体而言,该方案在各方面表现出色,值得推荐。
|
10天前
|
人工智能 自然语言处理 安全
搭建微信公众号AI助手
将微信公众号(订阅号)变为AI智能客服仅需四步:创建大模型问答应用、搭建微信公众号连接流、引入AI智能客服及增加私有知识。首先在百炼平台创建应用并获取API密钥;其次利用阿里云AppFlow服务无代码连接微信公众号与大模型应用;接着配置公众号引入AI客服;最后上传企业知识文档提升客服精准度。通过这些步骤,轻松实现智能化客户服务。
26 2
|
2月前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9932 10
|
26天前
|
人工智能 自然语言处理 自动驾驶
【通义】AI视界|马斯克亲自辟谣:xAI不可能在特斯拉的推理计算机上运行
本文精选了24小时内的重要科技新闻,包括马斯克辟谣xAI不会运行在特斯拉计算机上、谷歌发布AlphaProteo AI模型、百度贴吧“弱智吧”成为AI训练佳选、荣耀推出跨应用智能体以及苹果即将在iOS 18.2中加入图像生成功能。更多内容请访问通义官网体验。

热门文章

最新文章

下一篇
无影云桌面