PAI 大语言模型评测平台现已支持裁判员模型评测

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。

在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。为了有效评价大语言模型(LLM),业界提供了多种基准测试,例如 MMLU、CMMLU,GSM8K 等。但是,这些基准测试更多是针对确定性问题及确定性表述,评测 LLM 在开放场景下的能力(例如聊天助手)仍然是个挑战性问题。
为此,业界提出使用能力更强的 LLM 作为裁判来评估其他 LLM 在开放性问题上的表现,用来弥补各种基准测试以及基于规则的测试的不足,同时也可作为一种接近人类偏好的评价指标。阿里云 PAI 模型评测平台也提供了裁判员模型评测的能力,该能力由审明师(Themis)裁判员提供。Themis 基于 Qwen 系列模型并结合大规模评测数据集微调训练得到,在开源的 Alighbench 等数据集上表现与 GPT-4 持平,部分场景优于 GPT-4 的评测效果。本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。

PAI 大语言模型评测平台简介

科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速 AI 创新和应用落地。为此,PAI 上线了大语言模型评测平台,建立一套平台化的大模型评测最佳实践。
PAI 模型评测功能支持从两个维度对大语言模型进行评测:基于自定义数据集和公开数据集评测。

  • 基于自定义数据集的评测包括:
    • 基于规则的评测,用 ROUGE 和 BLEU 系列指标计算模型预测结果和真实结果之间的差距;
    • 基于裁判员模型的评测,基于 PAI 提供的裁判员模型,对问答对【问题-模型输出】逐条打分,并统计得分情况,用于评价模型性能;
  • 基于公开数据集的评测是通过在多种公开数据集上加载并执行模型预测,根据每个数据集特定的评价框架,为您提供行业标准的评估参考。

Themis 模型简介

image.png

Themis 是一款专为提升大语言模型评估效率和准确性而设计的智能大模型解决方案,主要针对主观性问答对进行评测。用户调用服务后,首先将用户输入的问题进行场景划分,通过模型生成该问题的场景、场景描述和场景维度,例如:(场景)回答开放性问题。然后根据用户输入的问答和对应的场景通过 Prompt Engineering 生成完整的评估描述,然后请求裁判员模型获得对问答的评测结果。

在真实的较大规模数据集上,Themis 与直接使用 ChatGPT-4 做裁判员模型进行对比:从不同的场景上分析,在回答开放性问题、阅读理解与信息提取、创意文体写作、信息与专业写作、角色扮演上,效果和 ChatGPT-4 持平;在翻译、代码生成修改与分析、回答确定性问题、文本改写、回答数学类问题的效果评测上,Themis 仍有改进的空间。这部分场景在引入参考答案后,裁判员模型的评估精度也显著提升。

开发实战

1. 数据准备

  • 裁判员模型评测需要提供 JSONL 格式的评测集文件。

    • 文件格式:每行是一个列表字典,使用 question 标识问题列,answer 标识参考答案列,也可以在评测页面选择指定列。answer 列选填。
      [{"question": "在守望先锋中,碰到外挂该怎么办?", "answer": "如果在游戏中遇到使用作弊工具或外挂的玩家,你可以使用内置的举报系统来报告可疑行为。这一般通过在游戏结束后的玩家列表中点击嫌疑人的名字,然后选择适当的举报选项来完成"}]
      [{"question": "你觉得幸福是什么?", "answer": "幸福是一种主观的感觉,它通常与快乐、满足和生活中的意义感相关。对不同的人来说,幸福可能意味着不同的事情。对有些人来说,幸福可能与物质财富、社会地位和成就感息息相关,而对其他人来说,幸福可能更多地与人际关系的密切程度、心灵的平和与健康或个人的精神满足感有关>"}]
      
  • 【可选】上传符合格式的评测集文件至 OSS ,并创建评测数据集。
    详情请参见:上传文件到 oss创建数据集

  • 也可直接在评测任务页面上传评测集文件并使用

d8ece13b5a16f18e7c37c8adceebd4de.png

image.png

2. 提交裁判员模型评测任务

开发者可通过两个入口进入模型评测页面:

  • PAI 控制台的 Model Gallary->LLM 模型卡片->评测按钮
  • 微调任务详情页->评测按钮
    image.png
    image.png

进入模型评测页面后,左上角切换到专家模式:
image.png

按照页面介绍填写任务信息后提交任务:

  • 填写任务基本配置;
  • 自定义数据集配置选项中选中裁判员模型评测选项,并同意开通裁判员模型服务【限时免费】,此时会自动获取对应的裁判员模型服务 token;
    image.png

  • 选择或上传自定义数据集;

  • 选择任务资源,如果资源组类型为公共资源组时,默认会根据您的模型规格推荐相应资源;
  • 配置推理超参数;
    image.png

3. 评测结果分析

单任务结果查看
任务完成后查看评测结果。评测指标如下图所示:
image.png

  • Mean,表示裁判员大模型对模型生成结果打分的平均值(不含无效打分),最低值1,最大值5,越大表示模型回答越好。
  • Median,表示裁判员大模型对模型生成结果打分的中位数(不含无效打分),最低值1,最大值5,越大表示模型回答越好。
  • StandardDeviation,表示裁判员大模型对模型生成结果打分的标准差(不含无效打分),在均值和中位数相同情况下,标准差越小,模型越好。
  • Skewness,表示裁判员大模型打分结果的分布偏度(不含无效打分),正偏度表示分布右侧(高分段)有较长尾部;负偏度则表示左侧(低分段)有较长尾部。

此外还会在页面底部展示评测文件每条数据的评测详情,包含了完整的评分理由。

多任务对比
在 Model Gallary -> 任务管理 -> 模型评测页面中选中要对比的模型评测任务,右上角单击对比,可以查看对比结果:
image.png

模型评测平台支持面向企业开发者的自定义数据集评测和面向算法研究人员的公开数据集评测。完整介绍详见:模型评测产品文档。

4. Themis 模型 API 调用

可通过魔搭在线体验 Themis
Themis 模型也支持直接通过 HTTP 调用,调用示例如下:

$ curl -X POST http://ai-service.ce8cc13b6421545749e7b4605f3d02607.cn-hangzhou.alicontainer.com/v1/chat/completions \
  -H "Authorization: Bearer ${THEMIS_TOKEN}" -H "Content-Type: application/json" \
  -d '{"model":"themis-turbo","messages":[{"role":"user","content":[{"mode":"single","type":"json","json":{"question":"9.9和9.11哪个大?","answer":"首先,我们需要比较两个数字9.9和9.11。9.9的整数部分是9。9.11的整数部分也是9。由于整数部分相同,我们需要比较小数部分。9.9的小数部分是0.9。9.11的小数部分是0.11。比较小数部分,0.9大于0.11。因此,9.11比9.9大。"}}]}],"temperature":0.2}'

返回结果:

当前回复的优点:
1. 文本连贯性:回复在结构上是连贯的,逐步比较了两个数字的整数部分和小数部分,使得解释过程易于理解。[[3]]

当前回复的不足:
1. 准确性:回复的结论是错误的。正确的比较应该是9.9比9.11大,这是因为9.9和9.11的整数部分都相同,小数部分9.9的0.9大于9.11的0.11。这是一个重大的准确性问题。[[1]]
2. 相关性:虽然回复试图通过比较数字的整数部分和小数部分来解决问题,但由于结论错误,这导致回复的相关性受到影响。[[1]]
3. 指令遵守度:回复没有正确遵循指令要求,给出了错误的比较结果。[[1]]
4. 用户体验:由于回复的错误,可能会导致用户混淆或误解,影响用户体验。[[1]]
5. 上下文理解:回复显示出对数字比较的基本理解,但由于结论错误,表明对复杂上下文的理解不足。[[1]]
6. 简洁性:尽管回复在表达上相对简洁,但由于结论错误,这一点无法弥补其他缺陷。[[2]]
7. 创造性:此项不完全适用于当前任务,因为任务主要关注于比较两个数字的大小,而不是创造性输出。[[N/A]]


综上所述,虽然回复在文本连贯性方面做得还可以,但由于准确性问题非常严重,导致其他方面的评价也受到了影响。因此,
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 JSON
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
|
2月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
3月前
|
人工智能 运维 API
PAI-Model Gallery云上一键部署阶跃星辰新模型Step1X-Edit
4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。Step1X-Edit模型总参数量为19B,实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持文字替换、风格迁移等11 类高频图像编辑任务类型。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemin。PAI-ModelGallery 支持Step1X-Edit一键部署方案。
|
3月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
19天前
|
缓存 人工智能 负载均衡
PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长
阿里云人工智能平台PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B冷启动时间从953秒降至82秒(降幅91.4%),扩容时间缩短98.2%。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
【新模型速递】PAI-Model Gallery云上一键部署MiniMax-M1模型
MiniMax公司6月17日推出4560亿参数大模型M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云PAI-ModelGallery现已接入该模型,提供一键部署、API调用等企业级解决方案,简化AI开发流程。
|
26天前
|
机器学习/深度学习 人工智能 JSON
DistilQwen-ThoughtX 蒸馏模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
通过 PAI-ModelGallery,可一站式零代码完成 DistilQwen-ThoughtX 系列模型的训练、评测、压缩和部署。
|
2月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
348 12
|
4月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI