微软刷新CoQA对话问答挑战赛纪录,模型性能达到人类同等水平

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 某些分数甚至超越了人类

雷锋网(公众号:雷锋网) AI 科技评论按,来自微软亚洲研究院(MSRA)自然语言处理(NLP)小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答(COQA)挑战中处于领先位置。在这一挑战中,衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集,由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集(SQuAD)在单轮问答上达到了人类同等水平,这是一个新的里程碑。与 SQuAD 相比,CoQA 中的问题更具对话性,为了确保答案看起来自然,它可以是自由格式的文本。

CoQA 中的问题非常简短,可以模仿人类的对话。此外,第一个问题之后的每个问题都是基于前面的问题的,这使得机器更难解析简短的问题。例如,假设你问一个系统,「谁是微软的创始人?」,当你继续问第二个问题「他什么时候出生的?」时,你需要理解你仍然在谈论和之前相同的话题。

TB1eLDbVNYaK1RjSZFnXXa80pXa.png

来自 CoQA 数据集的对话。CoQA 论文:https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力,CoQA 从收集了七个不同领域的数据:儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集,后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分;域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略,即利用从几个相关任务中获得的信息来改进目标机器阅读理解(MRC)任务。在多阶段、多任务、微调方法中,研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息,然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用,以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性,其在 CoQA 挑战中的强大性能也证明了这一点。

TB1RwmxoDZmx1VjSZFGXXax2XXa.png

多级多任务微调模型概述

根据 CoQA 排行榜,微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4,分别作为其领域内、领域外和整体 F1 分数。而在面对同一组会话问题和答案,人的表现得分为 89.4/87.4/88.8。

这一成就标志着搜索引擎(如 Bing)和智能助手(如 Cortana)在与人互动和以更自然的方式提供信息方面取得了重大进展,就像人们相互交流一样。然而,一般的机器阅读理解和问答仍然是自然语言处理中未解决的问题。为了进一步扩大机器理解和生成自然语言的能力边界,团队将继续致力于生成更强大的预训练模型。

via:https://www.microsoft.com/en-us/research/blog/machine-reading-systems-are-becoming-more-conversational/

雷锋网雷锋网

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
24天前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
32 6
|
2月前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
44 1
|
3月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
70 2
|
5月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
7月前
|
人工智能 算法 搜索推荐
“AI黏土人”现象下的图像生成应用:长期留住用户的策略
近年来,随着科技的快速发展和社交媒体的普及,以及人工智能技术的快速发展,图像生成类应用成为了市场的新宠,图像生成类应用如“AI黏土人”等近期在各大平台上崭露头角,其独特的“丑萌”风格迅速赢得了广大用户的喜爱,吸引了大量用户的关注,这一现象不仅体现了技术创新的魅力,也展示了市场需求与资本聚焦的强大驱动力。但是在这个信息爆炸的时代,如何保持这种热度并避免昙花一现,如何在爆火之后长期留住用户,确保图像生成类应用的持续繁荣,成为了图像生成类应用面临的重要问题。那么本文就来简单聊一下,欢迎评论区留言交流。
74 2
“AI黏土人”现象下的图像生成应用:长期留住用户的策略
|
7月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
86 2
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
133 0
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
217 0
|
机器学习/深度学习 人工智能 自然语言处理
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
132 0
|
机器学习/深度学习 人工智能 安全
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
113 0