阿里云PAI大模型评测最佳实践-阿里云开发者社区

阿里云PAI大模型评测最佳实践

2024-06-19 41862

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 在大模型时代，模型评测是衡量性能、精选和优化模型的关键环节，对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景，如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型，如何实现更全面准确且具有针对性的模型评测，从而在AI领域可以更好地取得成就。

作者：施晨、之用、南茵、求伯、一耘、临在

在大模型时代，模型评测是衡量性能、精选和优化模型的关键环节，对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景，如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型，如何实现更全面准确且具有针对性的模型评测，从而在AI领域可以更好地取得成就。

背景信息

内容简介

在大模型时代，随着模型效果的显著提升，模型评测的重要性日益凸显。科学、高效的模型评测，不仅能帮助开发者有效地衡量和对比不同模型的性能，更能指导他们进行精准地模型选择和优化，加速AI创新和应用落地。因此，建立一套平台化的大模型评测最佳实践愈发重要。

本文为PAI大模型评测最佳实践，旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践，您可以轻松构建出既能反映模型真实性能，又能满足行业特定需求的评测过程，助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容：

如何准备和选择评测数据集
如何选择适合业务的开源或微调后模型
如何创建评测任务并选择合适的评价指标
如何在单任务或多任务场景下解读评测结果

平台亮点

PAI大模型评测平台，适合您针对不同的大模型评测场景，进行模型效果对比。例如：

不同基础模型对比：Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微调版本对比：Qwen2-7B-Instruct 在私有领域数据下训练不同 epoch 版本效果对比
同一模型不同量化版本对比：Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考虑到不同开发群体的特定需求，我们将以企业开发者与算法研究人员两个典型群体为例，探讨如何结合常用的公开数据集（如MMLU、C-Eval等）与企业的自定义数据集，实现更全面准确并具有针对性的模型评测，查找适合您业务需求的大模型。最佳实践的亮点如下：

端到端完整评测链路，无需代码开发，支持主流开源大模型，与大模型微调后的一键评测；
支持用户自定义数据集上传，内置10+通用NLP评测指标，一览式结果展示，无需再开发评测脚本；
支持多个领域的常用公开数据集评测，完整还原官方评测方法，雷达图全景展示，省去逐个下载评测集和熟悉评测流程的繁杂；
支持多模型多任务同时评测，评测结果图表式对比展示，辅以单条评测结果详情，方便全方位比较分析；
评测过程公开透明，结果可复现。评测代码开源在与ModelScope共建的开源代码库eval-scope中，方便细节查看与复现：https://github.com/modelscope/eval-scope

计费说明

PAI大模型评测依托于PAI-快速开始产品。快速开始本身不收费，但使用快速开始进行模型评测时，可能产生DLC评测任务费用，计费详情请参见分布式训练（DLC）计费说明。
如果选择自定义数据集评测，使用OSS存储时会产生相关费用，计费详情请参见OSS计费概述。

场景一：面向企业开发者的自定义数据集评测

企业通常会积累丰富的私有领域数据。如何充分利用好这部分数据，是企业使用大模型进行算法优化的关键。因此，企业开发者在评测开源或微调后的大模型时，往往会基于私有领域下积累的自定义数据集，以便于更好地了解大模型在私有领域的效果。

对于自定义数据集评测，我们使用NLP领域标准的文本匹配方式，计算模型输出结果和真实结果的匹配度，值越大，模型越好。使用该评测方式，基于自己场景的独特数据，可以评测所选模型是否适合自己的场景。

以下将重点展示使用过程中的一些关键点，更详细的操作细节，请参见模型评测产品文档。

1. 准备自定义评测集

基于自定义数据集进行评测，需要提供JSONL格式的评测集文件

文件格式：使用question标识问题列，answer标识答案列。
文件示例：📎llmuses_general_qa_test.jsonl

[{"question": "中国发明了造纸术，是否正确？", "answer": "正确"}]
[{"question": "中国发明了火药，是否正确？", "answer": "正确"}]

上传符合格式的评测集文件至OSS，详情请参见上传文件至OSS。
根据OSS中评测集文件创建评测集。详情请参见创建数据集：从阿里云云产品。

2. 选择适合业务的模型

2.1. 使用开源模型

在PAI控制台左侧导航栏快速开始页面中，鼠标悬浮在模型卡片上，对于可评测的模型，会显示评测按钮。

当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

2.2. 使用微调后的模型

在PAI控制台左侧导航栏快速开始页面中，鼠标悬浮在模型卡片上，对于可评测的模型，会显示评测按钮。对可评测的模型进行微调训练，然后在快速开始 > 任务管理 > 训练任务页面中单击已训练成功的任务，右上角会显示评测按钮。

当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

3. 创建并运行评测任务

在模型详情页右上角单击评测，创建评测任务
在新建评测任务页面，配置以下关键参数。

参数	描述
数据集	选择上文所创建的自定义数据集。
结果输出路径	指定最终评测结果保存的OSS路径。
资源组类型	根据实际情况，选择公共资源组或通用计算资源。
任务资源	如果资源组类型为公共资源组时，默认会根据您的模型规格推荐相应资源。

单击提交，任务开始运行。
运行完成后，任务状态显示为已成功。

4. 查看评测结果

4.1. 单任务结果

当快速开始 > 任务管理 > 模型评测页面中评测任务的状态列显示已成功时，单击操作列的查看报告，在自定义数据集评测结果页面查看模型在ROUGE和BLEU系列指标上的得分。此外还会展示评测文件每条数据的评测详情。

评测结果解析：

自定义数据集的默认评测指标包括：rouge-1-f，rouge-1-p，rouge-1-r，rouge-2-f，rouge-2-p，rouge-2-r，rouge-l-f，rouge-l-p，rouge-l-r，bleu-1，bleu-2，bleu-3，bleu-4。

rouge-n类指标计算N-gram（连续的N个词）的重叠度，其中rouge-1和rouge-2是最常用的，分别对应unigram和bigram，rouge-l 指标基于最长公共子序列（LCS）。
bleu (Bilingual Evaluation Understudy) 是另一种流行的评估机器翻译质量的指标，它通过测量机器翻译输出与一组参考翻译之间的N-gram重叠度来评分。其中bleu-n指标计算n-gram的匹配度。

最终评测结果会保存到之前设置的结果输出路径中。

4.2. 多任务对比

在快速开始 > 任务管理 > 模型评测页面中选中要对比的模型评测任务，右上角单击对比，在自定义数据集评测结果页面查看对比结果。

场景二：面向算法研究人员的公开数据集评测

算法研究通常建立在公开数据集上。研究人员在选择开源模型，或对模型进行微调后，都会参考其在权威公开数据集上的评测效果。然而，大模型时代的公开数据集种类繁多，研究人员需要花费大量时间调研选择适合自己领域的公开数据集，并熟悉每个数据集的评测流程。为方便算法研究人员，PAI接入了多个领域的公开数据集，并完整还原了各个数据集官方指定的评测metrics，以便获取最准确的评测效果反馈，助力更高效的大模型研究。

在公开数据集评测中，我们通过对开源的评测数据集按领域分类，对大模型进行综合能力评估，例如数学能力、知识能力、推理能力等，值越大，模型越好，这种评测方式也是大模型领域最常见的评测方式。

以下将重点展示使用过程中的一些关键点，更详细的操作细节，请参见模型评测产品文档。

1. 支持的公开数据集

目前PAI维护的公开数据集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA，其他公开数据集陆续接入中。

数据集	大小	数据量	领域
MMLU	166MB	14042	知识
TriviaQA	14.3MB	17944	知识
C-Eval	1.55MB	12342	中文
CMMLU	1.08MB	11582	中文
GSM8K	4.17MB	1319	数学
HellaSwag	47.5MB	10042	推理
TruthfulQA	0.284MB	816	安全性