千问开源P-MMEval数据集,面向大模型的多语言平行评测集

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自8个不同语族的10种语言(英、中、阿、西、日、韩、泰、法、葡、越)。因此,P-MMEval 有助于全面评估多语言能力,并进行跨语言迁移能力的比较分析。

image.png

司南评测体系OpenCompass面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。P-MMEval也在第一时间接入了OpenCompass的评测体系,可使用司南OpenCompass开源工具完成评测任务。

数据集链接:

https://www.modelscope.cn/datasets/modelscope/P-MMEval

01.引言

在开发和迭代大语言模型 (LLM) 时,提供准确且并行的评估结果对于识别其多语言能力和量化性能至关重要。早期的工作主要集中在单一任务的评估上,例如 MHellaSwag、XLSum、HumanEval-XL 和 MGSM。近期的研究提出了一些大规模多语言多任务评估基准,统一了多个有代表性的的独立基准任务,如 XTREME、XTREME-R、XGLUE、MEGA 和 BUFFET。然而,这些大规模基准测试集 1) 主要针对基础自然语言处理任务,2) 所选择的数据集覆盖的多语言种类不一致。



本文的目标是提出一个全面的多语言多任务基准测试开发框架,为此:

  1. 提出了一种基于显著性检验来挑选可用且合理的基准测试集的方法。
  2. 在上一步的基础上,提出了一个大规模多语言基准测试集,包括基础任务和专项能力任务。该基准集不仅确保选择的各种数据集有一致的多语言覆盖,并提供跨多种语言的平行样本。
  3. 对各种 LLM 的多语言能力进行了全面分析,不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性,并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。


02.数据集选择流程

语言模型的评估任务种类繁多,每种类别都积累了大量的多语言数据集。因此,选择有效的数据集至关重要,因为它可以减少冗余测试并提高评估效率。为此,研究团队提出了一种基于大量配对样本 T 检验的方法来优化选择过程,过滤掉不能够有效区分不同模型系列和大小之间性能的数据集。研究团队认为,如果这些基准测试集在模型尺寸差距较大时仍无法保持显著的性能差异,则其评估结果可以被视为无效。

P-MMEval

基于设计的数据集选择方法,研究团队提出了 P-MMEval。它整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。

对于任务多样性,涵盖了两个关键的基础 NLP 任务(生成和理解)以及当前 LLM 的五种核心能力。对于语言多样性,P-MMEval统一了涵盖八个语系的十种不同语言,包括英语 (en)、中文 (zh)、阿拉伯语 (ar)、西班牙语 (es)、日语 (ja)、韩语 (ko)、泰语 (th)、法语 (fr)、葡萄牙语 (pt) 和越南语 (vi)。

基础自然语言处理数据集整理

鉴于基础 NLP 数据集的多样性,P-MMEval精心选择了11 个使用比较广泛的数据集,涵盖了理解和生成两个大类。接下来,在每个数据集上,我们使用配对样本 T 检验来识别挑选的成对模型性能的显著差异。显著性水平被设为 0.01。如果所有选定的模型对都显示出显著的性能差异,则保留该数据集。根据这一标准,XNLI、MHellaSwag 和 Flores-200 被保留用于进一步处理和扩展。

image.png

专项能力数据集整理

进一步,研究团队对每个专项能力选择了一个代表性的数据集。对于每个专项能力,通常没有太多选择(大多只有一个基准测试集可用)。因此,代码生成,数学推理,知识理解,逻辑推理,指令跟随分别选择了HumanEval-XL,MGSM,MMMLU,LogiQA 和 IFEval。

多语言测试数据扩展

为了补充每个数据集中缺失的多语言部分,我们采用了一种机器翻译结合专业人工校验的策略。每个数据集被机器翻译到目标语言后,再被专业翻译人员后检验的具体比例如下:

image.png

03.实验

设置

研究人员评估了几种代表性的指令调优模型的性能:(i) 闭源模型 GPT-4o、Claude-3.5;(ii) 开源模型 LLaMA3.1、LLaMA3.2、Qwen2.5、Mistral-Nemo、Mistral-Large 和 Gemma2 系列。每个数据集的得分为每种语言得分的 Macro 平均值。我们分别计算理解、生成和专项能力任务的平均得分。

主要结果

首先,除了 LLaMA3.2 系列外,所有模型的多语言能力随着模型规模的增加而提高。主要原因是 LLaMA3.2-1B 和 LLaMA3.2-3B 表现出较差的指令跟随能力,导致答案提取的失败率较高。此外,Qwen2.5 在理解和专项能力任务上表现出强大的多语言性能,而 Gemma2 在生成任务上表现出色。闭源模型总体上优于开源模型。

image.png

英语与非英语基准测试的表现

在五个数据集上,测试模型的非英语表现似乎都受到其英语表现的限制。然而,在代码生成任务HumanEval-XL的三个主要编程语言上(python、javascript和java),模型在英语和非英语测试集上的表现相当。

image.png


04.最佳实践

PMMEval数据集已经集成到OpenCompass和EvalScope评测框架中。使用下面两个框架,均可以执行评测任务。

   OpenCompass:https://github.com/open-compass/opencompass

   EvalScope:https://github.com/modelscope/evalscope

  1. 使用原生的OpenCompass框架执行PMMEval评测任务

环境安装:

pip install git+https://github.com/open-compass/opencompass.git
pip install vllm
pip install modelscope[framework]

执行命令:

opencompass --models vllm_qwen2_5_1_5b_instruct --datasets pmmeval_gen --accelerator vllm

执行结果示例:

image.png

备注:HumanEval-XL子数据集,因为涉及到代码执行沙箱环境,需要依赖Docker镜像环境,具体可参考文档:https://opencompass.readthedocs.io/en/latest/advanced_guides/code_eval_service.html


  1. 使用EvalScope框架执行PMMEval评测任务

EvalScope支持选择不同的eval_backend来实现特定领域的评测任务,如OpenCompass、VLMEval、RAGEval等。这里我们使用vLLM拉起模型服务,通过OpenAI格式的接口实现评测任务调用流程。


环境安装:

pip install evalscope[opencompass] -U
pip install vllm

使用vLLM拉起模型服务:

python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2-0.5B-Instruct --port 8000

评测脚本:

from evalscope.run import run_task
from evalscope.summarizer import Summarizer
task_cfg_dict = dict(
    eval_backend='OpenCompass',
    eval_config={
'datasets': ['PMMEval'],
'models': [
            {'path': 'Qwen/Qwen2-0.5B-Instruct', 
'openai_api_base': 'http://127.0.0.1:8000/v1/chat/completions', 
'is_chat': True,
'batch_size': 16},
        ],
'work_dir': 'outputs/qwen2_eval_result',
'limit': 5,    # 限制每个子数据集最大样本量为5
        },
    )
def run_eval():
    run_task(task_cfg=task_cfg_dict)
    print('>> Start to get the report with summarizer ...')
    report_list = Summarizer.get_report_from_cfg(task_cfg_dict)
    print(f'\n>> The report list: {report_list}')
run_eval()

点击阅读原文,直达数据集

https://www.modelscope.cn/datasets/modelscope/P-MMEval



相关文章
|
16天前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
4月前
|
人工智能 自动驾驶 云栖大会
大模型赋能智能座舱,NVIDIA 深度适配通义千问大模型
9月20日杭州云栖大会上, NVIDIA DRIVE Orin系统级芯片实现了与阿里云通义千问多模态大模型Qwen2-VL的深度适配。阿里云、斑马智行联合NVIDIA英伟达推出舱驾融合大模型解决方案,基于通义大模型开发“能听会看”的智能座舱助理,让车内人员通过语音交流就能操作座舱内的各类应用,享受极致丰富的交互体验。
298 14
|
6天前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
88 21
|
25天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
25天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
4月前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
1月前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
300 8
|
2月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
70 11
|
2月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
3月前
|
自然语言处理 Java API
Spring Boot 接入大模型实战:通义千问赋能智能应用快速构建
【10月更文挑战第23天】在人工智能(AI)技术飞速发展的今天,大模型如通义千问(阿里云推出的生成式对话引擎)等已成为推动智能应用创新的重要力量。然而,对于许多开发者而言,如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。
469 6

热门文章

最新文章