如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。

一、背景为什么需要一个「裁判员大语言模型」?

随着大模型(LLM)技术的爆发式应用,如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的 LLM,目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成 LLM 进行效果评估,尤其在知识问答、客服对话、内容合规、RAG(检索增强生成)等场景中,目前主流的评测方式仍存在一定的局限性:


  1. 人工标注:成本高昂、效率低下;
  2. 传统的自动化评估工具:往往局限于单一指标(如BLEU、ROUGE),缺乏一个全面且多维度的评估体系;同时,对于一些没有明确答案的生成式问题,该方法局限性较大;
  3. 综合性大模型:虽然具备广泛的通用能力,但在特定垂类任务(如评估回复质量)上的表现可能不够精细。同时,使用综合性大模型评估 LLM 回复,可能存在有潜在法务风险、价格昂贵、时间成本高、使用门槛高等问题;


针对以上 LLM 评测过程中遇到的问题与局限性,阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义评分标准、评分流程、生成温度等参数,实现了准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。


二、核心优势

效果概览

截止2025年3月,基于 Qwen 大模型 finetune 的裁判员模型 PAI-Judge 系列,在真实业务场景数据集上,与直接使用高阶通用大模型(如 QwenMax、GPT-4o、Deepseek-v3)做裁判员模型相比,在中文场景中,综合效果明显优于 GPT-4o 与 Deepseek-v3,与效果最好的 QwenMax表 现几乎相当。尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。


应用场景与用户反馈

自 PAI-Judge 上线以来,主要涉及:信息抽取、情感辨别、语音助手回复、私域知识问答(包含 RAG)、内容合规审核等真实场景的打分与评测。同时,裁判员模型支持自然语言与 json 两种输出格式,且支持中英文两种任务语言。用户反馈 PAI-Judge 的评测效果可以与行业内的多个头部大模型比肩。


成本与请求效率

PAI-Judge 是专门针对评测场景设计的大语言模型,与业内一流大模型相比,PAI-Judge 的参数量更小、评测效率更高,具有明显的价格优势。目前限时推广,每个阿里云账号开通即可赠送100万免费 Token!


快速试用通道

登录 PAI 控制台

单击立即开通,然后按照控制台操作指引,开通模型服务;

image.png

评测示例

image.png

评测结果如下:

image.png

如果对试用结果满意,想直接使用 PAI-Judge 进行评测,可参考文章最后的裁判员模型 API 使用教程。


三、评测效果分析

评估集


AlignBench数据集

pairwise数据集

数据集描述

在线聊天服务的真实问题与具有挑战性的问题,通过4-5个不同的大模型回复,得到的问答对,再由多人人工标注而得到。

现实生活中的真实问题与回答,包括语音助手的多轮对话、代码类问题的回复对比、通用知识问答等,数据标签由多人人工标注得到。

评估模式

单模型评测模式(single)

双模型竞技模式(pairwise)

数据量

3393

1939

场景分类

PAI-Judge 的场景共分成10类,基本可覆盖 LLM 领域涉及的全部问题场景。同时,用户也可以在使用时自行定义更加符合自身业务需要的场景与场景描述。

场景名

场景描述

回答数学类问题

解答一个涉及数学、计算、推理等方面的问题,该问题有标准/参考答案

回答确定性问题

解答一个可能涉及专业知识或现实世界查询的确定性问题,如历史事实或科学定律,该问题有标准/参考答案

回答开放性问题

开放交流类指令,通常为询问一个开放领域问题,回复也是开放式的,如闲聊、咨询建议、寻求推荐等

文本改写

包含文本简化、语言优化、按照指令重写文本、文本纠错、文本摘要和扩展等

创意文体写作

以表达个性化想象和情感为主的写作,注重文学性和原创性,如创作散文、诗歌、歌词、剧本、故事、演讲材料、社交媒体帖子、博客、广告营销素材、头脑风暴等

信息与专业写作

旨在传递关键信息和专业知识的写作,重在内容的准确性、可靠性和权威性,涵盖从实用的电子邮件、求职申请、产品描述、用户手册等到深入的学术论文、医学研究、法律意见书等,以及工程设计、行业分析、经济预测等复杂文件等

翻译

将给定文本在不改变原意的基础上翻译成另一种语言

阅读理解与信息提取

阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等

角色扮演

假装成一个特定的人、角色、职业或身份,并在此基础上完成指令中的任务

代码生成修改与分析

与计算机代码相关的任务,包括根据需求实现代码、代码修改优化、编程语言转换、分析代码并回复相关问题、软件开发辅助、教育与学习等


评测效果


▶  指标定义

单模型评测模式

  • MAE(mean absolute error):模型评分与人工标注的绝对差异平均 ⬇️
  • Agr(2,2):模型评分与人工标注2阶2次一致率,评分相同权重为1,相差1权重为0.25,分母为样本数量 ⬆️

双模型竞技模式

  • MAE (mean absolute error):模型评分与人工标注的绝对差异平均 ⬇️
  • Acc(accuracy):模型评分与人工标注的重合概率⬆️


▶  整体效果对比


pairwise

alignbench


MAE⬇️

Acc⬆️

MAE⬇️

Agr(2,2)⬆️

Pai-Judge-Plus

0.32

0.73

0.69

0.59

QwenMax

0.36

0.70

0.68

0.59

GPT-4o

0.63

0.51

0.74

0.55

Deepseek_V3

0.63

0.47

0.68

0.56

  • 在双模型竞技的 pairwise 数据集中,PAI-Judge 的表现非常优异;
  • 在单模型评测的 alignbench 数据集中,PAI-Judge 的表现与效果最好的大模型不相上下;


四、场景实践

截至2025年3月,PAI-Judge 已在多个领域实现规模化应用,涵盖信息抽取、情感分析、语音助手回复优化、私域知识问答(含 RAG 架构)以及内容合规审核等场景。为更直观地展示裁判员模型的评测能力,并深入挖掘其应用价值,我们精选了以下典型场景进行详细解析。

检索增强生成(RAG)

该RAG场景为针对某智能手机的客服机器人回复,主要涉及手机本身的问题回答,涉及多国语言,包括小语种。

问答对示例

question

换电池要拆手机吗?

answer

是的,更换电池通常需要拆开手机。例如,在【某智能手机系列】的维修指导中提到,为了更换电池,首先需要将手机关机并取下SIM卡托,然后将手机放在加热平台上加热5分钟,之后使用专门的工具来拆开电池盖[5]。这表明更换电池的过程确实涉及到拆卸手机的操作。因此,如果需要更换电池,一般情况下是需要拆开手机的。

评测prompt建议

params

suggestion

scene

RAG,即检索增强型生成

scene_desc

利用检索技术从外部信息源获取参考文本,然后通过生成模型整合这些信息,以生成高质量和相关性强的答案。该方法适用于需要大量信息整合和动态更新的查询场景,如复杂分析和最新知识整合

metric

真实性(faithfulness):对比答案、参考文本,判断答案是否可以从参考文本中得到(不要使用自己的知识库)。

正确性(correctness):对比问题、答案、参考文本,基于参考文本判断所给的答案是否正确回答了问题。

相关性(relevancy):对比问题、参考文本,判断参考文本里的内容足够回答问题。

ref_answer

在此输入参考答案。若无参考答案,则需要在自定义prompt中手动增加“参考文档”一项,并输出retrieval文档块

max_score

2

score_desc

1 不符合标准或背离标准

2 基本符合或完全符合标准

注:以上参数的使用与自定义prompt的使用方式请参考文章最后的裁判员模型API使用教程


信息提取

该场景为根据一段新闻内容,输出新闻分类,或根据广告内容,输出广告营销策略名,并涉及规范化输出判别。

问答对示例

question

【任务描述】

请判断以下新闻属于软文广告新闻、财经新闻、其他新闻中的哪一类。请按照以下json格式输出结果:

{"新闻分类": ""}

【待分析内容】

... 02月21日在投资者关系平台上答复了投资者关心的问题。投资者:公司是否应该跟大股东...(省略新闻内容)...

请根据【任务描述】针对【待分析内容】进行分析,给出结果

answer

```json

{"新闻分类": "财经新闻"}

```

评测prompt建议

params

suggestion

scene

阅读理解与信息提取

scene_desc

阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等

metric

正确性:回答应与给定上下文中的信息严格对应,正确无误地响应问题,并且与参考答案表达的信息相同

ref_answer

在此输入参考答案。

max_score

2

score_desc

1 回复存在明显缺陷,未能达到预期标准或基本要求,不应被采纳

2 回复符合要求,达到了预期标准,可以被采纳

steps

1. 回忆相关的智能助手回复标准,并仔细阅读、理解参考答案与待评估回复

2. 严格按给定标准评估,不要增加任何标准

注:以上参数的使用方式请参考文章最后的裁判员模型API使用教程


五、未来规划

未来我们将会对PAI-Judge的功能与模型进行优化与迭代,主要包括以下几个方向:

  1. 参考Deepseek-R1,引入强化学习与R1模型,提升PAI-Judge在完全自定义模板上的指令遵循度(正在进行内部测试);
  2. 重点提升模型在私域知识库与专业领域场景下的评测精度。


六、使用教程

请参考

裁判员模型概述

裁判员模型API使用说明

人工智能平台PAI

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
打赏
0
8
8
0
3585
分享
相关文章
DeepSeek服务器繁忙?拒绝稍后再试!基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程无需编写代码,极大简化了模型应用的门槛。
227 7
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
164 8
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
93 6
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
67 1
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
207 3
【机器学习】大模型驱动下的医疗诊断应用
多模态大模型活动 | 使用 PAI×LLaMA Factory 搭建文旅问答机器人
LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架,GitHub 星标超过3万。本次活动通过 PAI×LLaMA Factory 微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人,期待看到您与 AI 导游的创意对话!
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
253 1
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
142 1
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
1108 1

热门文章

最新文章

相关产品

  • 人工智能平台 PAI
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等