达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。


这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,论文和数据代码已公开:


论文:https://arxiv.org/pdf/2306.05179.pdf

数据 & 代码:https://github.com/DAMO-NLP-SG/M3Exam


背景
传统的 NLP 任务已经越来越难充分测试大语言模型的真正效果,在这样的背景下,利用人类考题来检验模型已经逐渐成为了测试大模型的一个常见做法。例如 MMLU 数据集涵盖了多个学科,被广泛用来测试各种模型,GPT-4 也将其作为一个重要的测试基准。类似地,最近一个月我们也看到了中文上的类似尝试例如 C-Eval 和 GAOKAO,将各类 / 高考的中文试题汇总起来用以测试中文大模型。
然而目前的测试基准都仅有英文或者加上中文问题,尽管许多模型涌现 / 宣称有多语言的效果,模型的多语言能力无法得到充分测试。此外,多模态类问题,也即涉及图片的考题也往往在构建过程中被忽略。这导致了多语言 / 多模态大模型的效果无法被准确衡量。为了弥补这一空白,我们构建了 M3Exam - 一个利用人类考题构建的多语言、多模态、多级别的测试基准,共涵盖 12317 道题目。


正如名字所示,M3Exam 有三个特征:

Multilingual 多语言:我们综合考虑语言特点、资源高低、文化背景等多个因素,挑选了 9 个国家对应的语言,涵盖英文、中文、意大利语、葡萄牙语、越南语、南非荷兰语、斯瓦希里语、泰语、爪哇语,所有问题均来自于对应国家的官方试题。

Multimodal 多模态:我们同时考虑纯文字以及带图片的题目,并且认真处理了所有图片从而方便模型进行处理。

Multilevel 多阶段:我们考虑三个重要的教育阶段:小升初、初升高、高中毕业,并且从对应阶段的官方考试取得题目,使得可以比较不同阶段对应的不同智力要求下,模型的表现差异。


多语言测试
我们选取了多种开源、闭源模型来测试它们的多语言能力,结果如图所示:

可以看到虽然许多模型的英文效果不错(比如 Claude 和 ChatGPT 都可以达到 75% 左右),但平均而言效果均不佳。GPT-4 是唯一一个可以超过 60% 准确率的模型,而 ChatGPT 也只能达到 57% 的准确率。从语言的角度看,在低资源或者非拉丁字符语言比如泰语、爪哇语上,即使是 GPT-4 也只能达到 50+% 的准确率。这显示目前大部分模型的能力仍然是集中体现在英文上,多语言能力仍然有待提高。

我们同样可以看到,来自于各个国家本土的问题更加充分地测试出了模型的多语言能力。例如 GPT-4 的 report 里将 MMLU 翻译成了多个语言,在不同语言的翻译试题上取得了较好的结果。但是如果用真实场景下的问题,这迫使模型必须学习到每个语言,甚至是其背后对应的文化背景知识,才能解答。例如上图中给的例子,斯瓦希里语涉及到一个谚语的填空;泰语则涉及到泰国本地常见的自然景观特点:


可以看到,即使是根据准确的翻译(上图的英文翻译由泰语母语者提供),但没有对应的语言、文化常识也无法作答,体现出对模型多语言能力的充分测试。

多模态测试
我们也选取了多个多模态大模型并对其进行测试,包括 Fromage, OpenFlamingo, BLIP-2, InstructBLIP,结果如下图所示:


可以看到,大部分模型表现都很糟糕,甚至没有模型可以超过 50% 的准确率。即使跟相近参数量的 Flan-T5 模型相比(Flan-T5 并没有拿图片当作输入),多模态模型基本没有体现出优势。
进一步检查我们发现,可能是因为现有的多模态测试数据都比较简单,例如 VQA 中往往只是对图片的某一方面进行简单提问。而人类考题往往涉及到对图片更复杂的理解,例如数理类考试中需要注意到图片的数字细节。下图给了一个具体问题以及各个模型的输出:

可以看到所有模型均回答错误。为了进一步检验模型对图片理解的程度,我们额外构造了一个 prompt 让模型对图片的各种细节进行描述(上图右边),可以看到所有模型都无法准确描述出图片里标注的角度 65 度,所以自然无法解答出图中的反射角是多少度。

多层级测试
在数据构造过程中,我们选取了三个重要的考试阶段,即小升初、初升高、高中升大学。值得注意的是我们发现即使各个国家的教育体系各有差异,但基本都有相应的教育阶段。不同的教育阶段往往对应着在不同国家,大家对相应年龄段人群所期待的智力水平。这样的划分给我们提供了用不同教育阶段的问题来观察模型效果的角度。结果汇总如下图所示:

可以看到出人意料的是,从较低的教育阶段到更高阶段,模型效果并没有呈现显著下降。奇怪的是基本所有模型都在中等阶段的问题上表现最好。然而对于人类来说,例如在中国,如果能在高考中得到 70% 左右的正确率,解决小学考题应该是轻而易举的事情,然而对模型来说似乎并不如此。
这个观察给我们带来的启发是,不断用更困难的数据去测试模型不一定能最大限度衡量出模型的差异。如果想要可靠地在实际生活中使用模型,例如用于 AI 教育,研究为什么模型会在基础问题上犯错可能更有价值。

结语
这篇文章介绍了我们新创建的测试基准 M3Exam,目标是可以为多语言 / 多模态大模型的评价提供一个可靠的基准。从目前的测试结果我们可以看出,虽然不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果,但在多语言情况下绝大部分模型的效果都差强人意。多模态模型的效果则更难令人满意,显示目前的多模态模型还只能对图片的简单特征进行捕捉,而无法捕捉更精确的细节。我们期待 M3Exam 未来可以帮助相关模型的开发迭代,从而将大模型的便利带给所有语言的使用者以及更丰富的使用场景。

相关文章
|
2月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
40 1
|
10天前
|
人工智能 自然语言处理 算法
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。 - **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。 - 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。 - 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。
47 8
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。
61 2
|
4天前
|
自然语言处理 测试技术 Docker
BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准
• 多语言性: 目前,BigCodeBench 仅支持 Python,无法轻松扩展到其他编程语言。由于函数调用大多是特定于语言的,在 Python 以外的语言中找到具有相同功能的包或库是一个挑战。 • 严格性: 虽然我们在 BigCodeBench 的地面真值解决方案中实现了高测试覆盖率,但这并不能保证 LLM 生成的所有代码解决方案都能正确评估现有的测试用例。以前的工作如 EvalPlus 尝试通过 LLM 和基于突变的策略扩展有限的测试用例。然而,将EvalPlus 适应于 BigCodeBench 的测试框架是一个挑战。尽管 EvalPlus 强调输入输出断言,BigCodeBench
9 0
|
2月前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
29 1
|
2月前
|
算法 计算机视觉 异构计算
基于肤色模型的人脸识别FPGA实现,包含tb测试文件和MATLAB辅助验证
这是一个关于肤色检测算法的摘要:使用MATLAB 2022a和Vivado 2019.2进行测试和仿真,涉及图像预处理、RGB到YCbCr转换、肤色模型(基于阈值或概率)以及人脸检测。核心程序展示了如何读取图像数据并输入到FPGA处理,通过`tops`模块进行中值滤波、颜色空间转换及人脸检测,最终结果输出到"face.txt"。
|
2月前
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
109 1
|
2月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
47 4
|
1月前
|
测试技术
软件测试之【合理的利用GPT来辅助软件测试一】
软件测试之【合理的利用GPT来辅助软件测试一】
22 0
|
1月前
|
测试技术 程序员 开发者
软件测试项目式学习一(认识软件生命周期与开发模型及软件质量)
软件测试项目式学习一(认识软件生命周期与开发模型及软件质量)
22 0