阿里云PAI大模型评测最佳实践

简介: 在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。

作者:施晨、之用、南茵、求伯、一耘、临在

在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。

背景信息

内容简介

在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速AI创新和应用落地。因此,建立一套平台化的大模型评测最佳实践愈发重要。

本文为PAI大模型评测最佳实践,旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践,您可以轻松构建出既能反映模型真实性能,又能满足行业特定需求的评测过程,助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容:

  • 如何准备和选择评测数据集
  • 如何选择适合业务的开源或微调后模型
  • 如何创建评测任务并选择合适的评价指标
  • 如何在单任务或多任务场景下解读评测结果

平台亮点

PAI大模型评测平台,适合您针对不同的大模型评测场景,进行模型效果对比。例如:

  • 不同基础模型对比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
  • 同一模型不同微调版本对比:Qwen2-7B-Instruct 在私有领域数据下训练不同 epoch 版本效果对比
  • 同一模型不同量化版本对比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考虑到不同开发群体的特定需求,我们将以企业开发者算法研究人员两个典型群体为例,探讨如何结合常用的公开数据集(如MMLU、C-Eval等)与企业的自定义数据集,实现更全面准确并具有针对性的模型评测,查找适合您业务需求的大模型。最佳实践的亮点如下:

  • 端到端完整评测链路,无需代码开发,支持主流开源大模型,与大模型微调后的一键评测;
  • 支持用户自定义数据集上传,内置10+通用NLP评测指标,一览式结果展示,无需再开发评测脚本;
  • 支持多个领域的常用公开数据集评测,完整还原官方评测方法,雷达图全景展示,省去逐个下载评测集和熟悉评测流程的繁杂;
  • 支持多模型多任务同时评测,评测结果图表式对比展示,辅以单条评测结果详情,方便全方位比较分析;
  • 评测过程公开透明,结果可复现。评测代码开源在与ModelScope共建的开源代码库eval-scope中,方便细节查看与复现:https://github.com/modelscope/eval-scope

计费说明

  • PAI大模型评测依托于PAI-快速开始产品。快速开始本身不收费,但使用快速开始进行模型评测时,可能产生DLC评测任务费用,计费详情请参见分布式训练(DLC)计费说明
  • 如果选择自定义数据集评测,使用OSS存储时会产生相关费用,计费详情请参见OSS计费概述

场景一:面向企业开发者的自定义数据集评测

企业通常会积累丰富的私有领域数据。如何充分利用好这部分数据,是企业使用大模型进行算法优化的关键。因此,企业开发者在评测开源微调后的大模型时,往往会基于私有领域下积累的自定义数据集,以便于更好地了解大模型在私有领域的效果。

对于自定义数据集评测,我们使用NLP领域标准的文本匹配方式,计算模型输出结果和真实结果的匹配度,值越大,模型越好。使用该评测方式,基于自己场景的独特数据,可以评测所选模型是否适合自己的场景。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测产品文档

1. 准备自定义评测集

  1. 基于自定义数据集进行评测,需要提供JSONL格式的评测集文件
[{"question": "中国发明了造纸术,是否正确?", "answer": "正确"}]
[{"question": "中国发明了火药,是否正确?", "answer": "正确"}]
  1. 上传符合格式的评测集文件至OSS,详情请参见上传文件至OSS
  2. 根据OSS中评测集文件创建评测集。详情请参见创建数据集:从阿里云云产品

2. 选择适合业务的模型

2.1. 使用开源模型

  1. PAI控制台左侧导航栏快速开始页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。
  1. 当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

image.png

2.2. 使用微调后的模型

  1. PAI控制台左侧导航栏快速开始页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。对可评测的模型进行微调训练,然后在快速开始 > 任务管理 > 训练任务页面中单击已训练成功的任务,右上角会显示评测按钮。
  1. 当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

image.png

3. 创建并运行评测任务

  1. 在模型详情页右上角单击评测,创建评测任务
  2. 新建评测任务页面,配置以下关键参数。

参数

描述

数据集

选择上文所创建的自定义数据集。

结果输出路径

指定最终评测结果保存的OSS路径。

资源组类型

根据实际情况,选择公共资源组或通用计算资源。

任务资源

如果资源组类型为公共资源组时,默认会根据您的模型规格推荐相应资源。

  1. 单击提交,任务开始运行。
  2. 运行完成后,任务状态显示为已成功。

4. 查看评测结果

4.1. 单任务结果

  1. 快速开始 > 任务管理 > 模型评测页面中评测任务的状态列显示已成功时,单击操作列的查看报告,在自定义数据集评测结果页面查看模型在ROUGE和BLEU系列指标上的得分。此外还会展示评测文件每条数据的评测详情。

评测结果解析:

自定义数据集的默认评测指标包括:rouge-1-f,rouge-1-p,rouge-1-r,rouge-2-f,rouge-2-p,rouge-2-r,rouge-l-f,rouge-l-p,rouge-l-r,bleu-1,bleu-2,bleu-3,bleu-4。

  • rouge-n类指标计算N-gram(连续的N个词)的重叠度,其中rouge-1和rouge-2是最常用的,分别对应unigram和bigram,rouge-l 指标基于最长公共子序列(LCS)。
  • bleu (Bilingual Evaluation Understudy) 是另一种流行的评估机器翻译质量的指标,它通过测量机器翻译输出与一组参考翻译之间的N-gram重叠度来评分。其中bleu-n指标计算n-gram的匹配度。

image.png

  1. 最终评测结果会保存到之前设置的结果输出路径中。

4.2. 多任务对比

  1. 快速开始 > 任务管理 > 模型评测页面中选中要对比的模型评测任务,右上角单击对比,在自定义数据集评测结果页面查看对比结果。

image.png

场景二:面向算法研究人员的公开数据集评测

算法研究通常建立在公开数据集上。研究人员在选择开源模型,或对模型进行微调后,都会参考其在权威公开数据集上的评测效果。然而,大模型时代的公开数据集种类繁多,研究人员需要花费大量时间调研选择适合自己领域的公开数据集,并熟悉每个数据集的评测流程。为方便算法研究人员,PAI接入了多个领域的公开数据集,并完整还原了各个数据集官方指定的评测metrics,以便获取最准确的评测效果反馈,助力更高效的大模型研究。

在公开数据集评测中,我们通过对开源的评测数据集按领域分类,对大模型进行综合能力评估,例如数学能力、知识能力、推理能力等,值越大,模型越好,这种评测方式也是大模型领域最常见的评测方式。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测产品文档

1. 支持的公开数据集

  1. 目前PAI维护的公开数据集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公开数据集陆续接入中。

数据集

大小

数据量

领域

MMLU

166MB

14042

知识

TriviaQA

14.3MB

17944

知识

C-Eval

1.55MB

12342

中文

CMMLU

1.08MB

11582

中文

GSM8K

4.17MB

1319

数学

HellaSwag

47.5MB

10042

推理

TruthfulQA

0.284MB

816

安全性

2. 选择适合的模型

2.1. 查找开源模型

  1. PAI控制台左侧导航栏快速开始页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。
  1. 当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

image.png

2.2. 使用微调后的模型

  1. PAI控制台左侧导航栏快速开始页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。对可评测的模型进行微调训练,然后在快速开始 > 任务管理 > 训练任务页面中单击已训练成功的任务,右上角会显示评测按钮。
  1. 当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

image.png

3. 创建评测任务

  1. 在模型详情页右上角单击评测,创建评测任务
  2. 新建评测任务页面,配置以下关键参数。本文以MMLU数据集为例。

参数

描述

数据集

选择公开数据集。

结果输出路径

指定最终评测结果保存的OSS路径。

资源组类型

根据实际情况,选择公共资源组或通用计算资源。

任务资源

如果资源组类型为公共资源组时,默认会根据您的模型规格推荐相应资源。

  1. 单击提交,任务开始运行。
  2. 运行完成后,任务状态显示为已成功。

4. 查看评测结果

4.1. 单任务结果

  1. 快速开始 > 任务管理 > 模型评测页面中评测任务的状态列显示已成功时,单击操作列的查看报告,在公开数据集评测结果页面查看模型在各领域及数据集上的得分。

评测结果解析:

  • 左侧图片展示了模型在不同领域的得分情况。每个领域可能会有多个与之相关的数据集,对属于同一领域的数据集,我们会把模型在这些数据集上的评测得分取均值,作为领域得分。
  • 右侧图片展示模型在各个公开数据集的得分情况。每个公开数据集的评测范围详见该数据集官方介绍。

image.png

  1. 最终评测结果会保存到之前设置的结果输出路径中。

4.2. 多任务对比

  1. 快速开始 > 任务管理 > 模型评测页面中选中要对比的模型评测任务,右上角单击对比,在公开数据集评测结果页面查看对比结果。

image.png

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1327 109
|
9月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
546 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
10月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
9月前
|
人工智能 文字识别 安全
大模型能力评测方式很多?
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。
700 0
|
10月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
7月前
|
人工智能 自然语言处理 监控
58_大模型评估与评测:构建科学的多维度评测体系
在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。
1992 0
|
8月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
2143 3
|
10月前
|
机器学习/深度学习 算法 安全
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
本文探讨在敏感数据上应用差分隐私(DP)进行机器学习的挑战与实践。通过模拟DP-SGD算法,在模型训练中注入噪声以保护个人隐私。实验表明,该方法在保持71%准确率和0.79 AUC的同时,具备良好泛化能力,但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量,而非事后补救,并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。
694 3
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
|
9月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
10月前
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (4):模型微调SFT、DPO、GRPO
阿里云人工智能平台 PAI 提供了完整的模型微调产品能力,支持 监督微调(SFT)、偏好对齐(DPO)、强化学习微调(GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级,分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI