Qwen开源多语言基准数据集P-MMEval

简介: Qwen开源多语言基准数据集P-MMEval

由通义千问Qwen团队研发的多语言基准测试集 P-MMEval,近期已正式开源。


多语言能力横跨翻译、代码生成、推理等诸多大模型任务,有别于以往局限于对自然语言处理或特定能力及任务的评估,P-MMEval 提供一个大规模的多语言多任务基准测试,全面覆盖主流的基础及专项能力数据集。



P-MMEval 可确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,支持来自8个不同语族的10种语言(英、中、阿、西、日、韩、泰、法、葡、越)。开发者可基于 P-MMEval 全面评估模型的多语言能力,并进行跨语言迁移能力的比较分析。


目前,P-MMEval 率先接入司南 OpenCompass 的评测体系及 EvalScope 评测框架中,用户可以利用相关开源工具来完成评测任务。同时,开发者可在魔搭社区及 HuggingFace 等下载体验 P-MMEval。


01 如何评估多语言能力?


在开发和迭代大语言模型 (LLM) 时,提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上,例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准,统一了多个有代表性的的独立基准任务,如 XTREME、XTREME-R、XGLUE、MEGA 和 BUFFET。


然而,这些大规模基准测试集 ——

1) 主要针对基础自然语言处理任务

2) 所选择的数据集覆盖的多语言种类不一致。


Qwen团队目标提出一个全面的多语言多任务基准测试开发框架,为此:

1.提出了一种基于显著性检验来挑选可用且合理的基准测试集的方法。

2.在上一步的基础上,提出了一个大规模多语言基准测试集,包括基础任务和专项能力任务。该基准集不仅确保选择的各种数据集有一致的多语言覆盖,并提供跨多种语言的平行样本。

3.对各种 LLM 的多语言能力进行了全面分析,不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性,并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。


02 一种选择数据集的新方法


语言模型的评估任务种类繁多,每种类别都积累了大量的多语言数据集。因此,选择有效的数据集至关重要,因为它可以减少冗余测试并提高评估效率。

为此,Qwen 团队提出了一种基于大量配对样本 T 检验的方法来优化选择过程,过滤掉不能够有效区分不同模型系列和大小之间性能的数据集。我们认为,如果这些基准测试集在模型尺寸差距较大时仍无法保持显著的性能差异,则其评估结果可以被视为无效。


  • P-MMEval

基于设计的数据集选择方法,Qwen 团队提出了 P-MMEval。它整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。

对于任务多样性,涵盖了两个关键的基础 NLP 任务(生成和理解)以及当前 LLM 的五种核心能力。对于语言多样性,P-MMEval统一了涵盖八个语系的十种不同语言,包括英语 (en)、中文 (zh)、阿拉伯语 (ar)、西班牙语 (es)、日语 (ja)、韩语 (ko)、泰语 (th)、法语 (fr)、葡萄牙语 (pt) 和越南语 (vi)。


  • 基础自然语言处理数据集整理

鉴于基础 NLP 数据集的多样性,P-MMEval精心选择了11 个使用比较广泛的数据集,涵盖了理解和生成两个大类。接下来,在每个数据集上,我们使用配对样本 T 检验来识别挑选的成对模型性能的显著差异。

显著性水平被设为 0.01。如果所有选定的模型对都显示出显著的性能差异,则保留该数据集。根据这一标准,XNLI、MHellaSwag 和 Flores-200 被保留用于进一步处理和扩展。



  • 专项能力数据集整理

进一步,我们对每个专项能力选择了一个代表性的数据集。对于每个专项能力,通常没有太多选择(大多只有一个基准测试集可用)。因此,代码生成,数学推理,知识理解,逻辑推理,指令跟随分别选择了HumanEval-XL,MGSM,MMMLU,LogiQA 和 IFEval。


  • 多语言测试数据扩展

为了补充每个数据集中缺失的多语言部分,我们采用了一种机器翻译结合专业人工校验的策略。每个数据集被机器翻译到目标语言后,再被专业翻译人员后检验的具体比例如下:



03 主流模型的多语言能力究竟如何?


我们评估了几种代表性的指令调优模型的性能:

(i) 闭源模型 GPT-4o、Claude-3.5;

(ii) 开源模型 LLaMA3.1、LLaMA3.2、Qwen2.5、Mistral-Nemo、Mistral-Large 和 Gemma2 系列。、每个数据集的得分为每种语言得分的 Macro 平均值。我们分别计算理解、生成和专项能力任务的平均得分。


  • 主要结果

首先,除了 LLaMA3.2 系列外,所有模型的多语言能力随着模型规模的增加而提高。主要原因是 LLaMA3.2-1B 和 LLaMA3.2-3B 表现出较差的指令跟随能力,导致答案提取的失败率较高。

此外,Qwen2.5 在理解和专项能力任务上表现出强大的多语言性能,而 Gemma2 在生成任务上表现出色。闭源模型总体上优于开源模型。



  • 英语与非英语基准测试的表现

在五个数据集上,测试模型的非英语表现似乎都受到其英语表现的限制。然而,在代码生成任务HumanEval-XL的三个主要编程语言上(python、javascript和java),模型在英语和非英语测试集上的表现相当。




04 如何快速上手体验?


目前,PMMEval数据集已经集成到OpenCompass和EvalScope评测框架中。

使用下面两个框架,均可以执行评测任务。

OpenCompass:

https://github.com/open-compass/opencompass

EvalScope:https://github.com/modelscope/evalscope


1.使用原生的OpenCompass框架执行PMMEval评测任务


环境安装:

pip install git+https://github.com/open-compass/opencompass.git
pip install vllm
pip install modelscope[framework]

执行命令:

opencompass --models vllm_qwen2_5_1_5b_instruct --datasets pmmeval_gen --accelerator vllm

执行结果示例:


备注:HumanEval-XL子数据集,因为涉及到代码执行沙箱环境,需要依赖Docker镜像环境,具体可参考文档:https://opencompass.readthedocs.io/en/latest/advanced_guides/code_eval_service.html


2.使用EvalScope框架执行PMMEval评测任务


EvalScope支持选择不同的eval_backend来实现特定领域的评测任务,如OpenCompass、VLMEval、RAGEval等。这里我们使用vLLM拉起模型服务,通过OpenAI格式的接口实现评测任务调用流程。

环境安装:

pip install evalscope[opencompass] -U
pip install vllm

使用vLLM拉起模型服务:

python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2-0.5B-Instruct --port 8000

评测脚本:

from evalscope.run import run_task
from evalscope.summarizer import Summarizer

task_cfg_dict = dict(
    eval_backend='OpenCompass',
    eval_config={
'datasets': ['PMMEval'],
'models': [
           {'path': 'Qwen/Qwen2-0.5B-Instruct', 
'openai_api_base': 'http://127.0.0.1:8000/v1/chat/completions', 
'is_chat': True,'batch_size': 16},
       ],
'work_dir': 'outputs/qwen2_eval_result',
'limit': 5,    # 限制每个子数据集最大样本量为5
        },
     )        
     
def run_eval():

    run_task(task_cfg=task_cfg_dict)
    
    print('>> Start to get the report with summarizer ...')
    report_list = Summarizer.get_report_from_cfg(task_cfg_dict)
    print(f'\n>> The report list: {report_list}')
    
run_eval()


05 One More Thing...


开发者可在arXiv查看P-MMEval论文全文:https://arxiv.org/pdf/2411.09116


开发者也可在魔搭社区和HuggingFace上下载体验P-MMEval:

魔搭社区:https://www.modelscope.cn/datasets/modelscope/P-MMEval

HuggingFace:https://huggingface.co/datasets/Qwen/P-MMEval

相关文章
|
18天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
115 2
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
238 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
336 2
|
29天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1830 89
|
2月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
356 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
838 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
459 0
|
2月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
362 0
|
2月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
578 29
|
1月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
394 21

热门文章

最新文章