如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

简介: 阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。

一、背景为什么需要一个「裁判员大语言模型」?

随着大模型(LLM)技术的爆发式应用,如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的 LLM,目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成 LLM 进行效果评估,尤其在知识问答、客服对话、内容合规、RAG(检索增强生成)等场景中,目前主流的评测方式仍存在一定的局限性:


  1. 人工标注:成本高昂、效率低下;
  2. 传统的自动化评估工具:往往局限于单一指标(如BLEU、ROUGE),缺乏一个全面且多维度的评估体系;同时,对于一些没有明确答案的生成式问题,该方法局限性较大;
  3. 综合性大模型:虽然具备广泛的通用能力,但在特定垂类任务(如评估回复质量)上的表现可能不够精细。同时,使用综合性大模型评估 LLM 回复,可能存在有潜在法务风险、价格昂贵、时间成本高、使用门槛高等问题;


针对以上 LLM 评测过程中遇到的问题与局限性,阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义评分标准、评分流程、生成温度等参数,实现了准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。


二、核心优势

效果概览

截止2025年3月,基于 Qwen 大模型 finetune 的裁判员模型 PAI-Judge 系列,在真实业务场景数据集上,与直接使用高阶通用大模型(如 QwenMax、GPT-4o、Deepseek-v3)做裁判员模型相比,在中文场景中,综合效果明显优于 GPT-4o 与 Deepseek-v3,与效果最好的 QwenMax表 现几乎相当。尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。


应用场景与用户反馈

自 PAI-Judge 上线以来,主要涉及:信息抽取、情感辨别、语音助手回复、私域知识问答(包含 RAG)、内容合规审核等真实场景的打分与评测。同时,裁判员模型支持自然语言与 json 两种输出格式,且支持中英文两种任务语言。用户反馈 PAI-Judge 的评测效果可以与行业内的多个头部大模型比肩。


成本与请求效率

PAI-Judge 是专门针对评测场景设计的大语言模型,与业内一流大模型相比,PAI-Judge 的参数量更小、评测效率更高,具有明显的价格优势。目前限时推广,每个阿里云账号开通即可赠送100万免费 Token!


快速试用通道

登录 PAI 控制台

单击立即开通,然后按照控制台操作指引,开通模型服务;

image.png

评测示例

image.png

评测结果如下:

image.png

如果对试用结果满意,想直接使用 PAI-Judge 进行评测,可参考文章最后的裁判员模型 API 使用教程。


三、评测效果分析

评估集


AlignBench数据集

pairwise数据集

数据集描述

在线聊天服务的真实问题与具有挑战性的问题,通过4-5个不同的大模型回复,得到的问答对,再由多人人工标注而得到。

现实生活中的真实问题与回答,包括语音助手的多轮对话、代码类问题的回复对比、通用知识问答等,数据标签由多人人工标注得到。

评估模式

单模型评测模式(single)

双模型竞技模式(pairwise)

数据量

3393

1939

场景分类

PAI-Judge 的场景共分成10类,基本可覆盖 LLM 领域涉及的全部问题场景。同时,用户也可以在使用时自行定义更加符合自身业务需要的场景与场景描述。

场景名

场景描述

回答数学类问题

解答一个涉及数学、计算、推理等方面的问题,该问题有标准/参考答案

回答确定性问题

解答一个可能涉及专业知识或现实世界查询的确定性问题,如历史事实或科学定律,该问题有标准/参考答案

回答开放性问题

开放交流类指令,通常为询问一个开放领域问题,回复也是开放式的,如闲聊、咨询建议、寻求推荐等

文本改写

包含文本简化、语言优化、按照指令重写文本、文本纠错、文本摘要和扩展等

创意文体写作

以表达个性化想象和情感为主的写作,注重文学性和原创性,如创作散文、诗歌、歌词、剧本、故事、演讲材料、社交媒体帖子、博客、广告营销素材、头脑风暴等

信息与专业写作

旨在传递关键信息和专业知识的写作,重在内容的准确性、可靠性和权威性,涵盖从实用的电子邮件、求职申请、产品描述、用户手册等到深入的学术论文、医学研究、法律意见书等,以及工程设计、行业分析、经济预测等复杂文件等

翻译

将给定文本在不改变原意的基础上翻译成另一种语言

阅读理解与信息提取

阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等

角色扮演

假装成一个特定的人、角色、职业或身份,并在此基础上完成指令中的任务

代码生成修改与分析

与计算机代码相关的任务,包括根据需求实现代码、代码修改优化、编程语言转换、分析代码并回复相关问题、软件开发辅助、教育与学习等


评测效果


▶  指标定义

单模型评测模式

  • MAE(mean absolute error):模型评分与人工标注的绝对差异平均 ⬇️
  • Agr(2,2):模型评分与人工标注2阶2次一致率,评分相同权重为1,相差1权重为0.25,分母为样本数量 ⬆️

双模型竞技模式

  • MAE (mean absolute error):模型评分与人工标注的绝对差异平均 ⬇️
  • Acc(accuracy):模型评分与人工标注的重合概率⬆️


▶  整体效果对比


pairwise

alignbench


MAE⬇️

Acc⬆️

MAE⬇️

Agr(2,2)⬆️

Pai-Judge-Plus

0.32

0.73

0.69

0.59

QwenMax

0.36

0.70

0.68

0.59

GPT-4o

0.63

0.51

0.74

0.55

Deepseek_V3

0.63

0.47

0.68

0.56

  • 在双模型竞技的 pairwise 数据集中,PAI-Judge 的表现非常优异;
  • 在单模型评测的 alignbench 数据集中,PAI-Judge 的表现与效果最好的大模型不相上下;


四、场景实践

截至2025年3月,PAI-Judge 已在多个领域实现规模化应用,涵盖信息抽取、情感分析、语音助手回复优化、私域知识问答(含 RAG 架构)以及内容合规审核等场景。为更直观地展示裁判员模型的评测能力,并深入挖掘其应用价值,我们精选了以下典型场景进行详细解析。

检索增强生成(RAG)

该RAG场景为针对某智能手机的客服机器人回复,主要涉及手机本身的问题回答,涉及多国语言,包括小语种。

问答对示例

question

换电池要拆手机吗?

answer

是的,更换电池通常需要拆开手机。例如,在【某智能手机系列】的维修指导中提到,为了更换电池,首先需要将手机关机并取下SIM卡托,然后将手机放在加热平台上加热5分钟,之后使用专门的工具来拆开电池盖[5]。这表明更换电池的过程确实涉及到拆卸手机的操作。因此,如果需要更换电池,一般情况下是需要拆开手机的。

评测prompt建议

params

suggestion

scene

RAG,即检索增强型生成

scene_desc

利用检索技术从外部信息源获取参考文本,然后通过生成模型整合这些信息,以生成高质量和相关性强的答案。该方法适用于需要大量信息整合和动态更新的查询场景,如复杂分析和最新知识整合

metric

真实性(faithfulness):对比答案、参考文本,判断答案是否可以从参考文本中得到(不要使用自己的知识库)。

正确性(correctness):对比问题、答案、参考文本,基于参考文本判断所给的答案是否正确回答了问题。

相关性(relevancy):对比问题、参考文本,判断参考文本里的内容足够回答问题。

ref_answer

在此输入参考答案。若无参考答案,则需要在自定义prompt中手动增加“参考文档”一项,并输出retrieval文档块

max_score

2

score_desc

1 不符合标准或背离标准

2 基本符合或完全符合标准

注:以上参数的使用与自定义prompt的使用方式请参考文章最后的裁判员模型API使用教程


信息提取

该场景为根据一段新闻内容,输出新闻分类,或根据广告内容,输出广告营销策略名,并涉及规范化输出判别。

问答对示例

question

【任务描述】

请判断以下新闻属于软文广告新闻、财经新闻、其他新闻中的哪一类。请按照以下json格式输出结果:

{"新闻分类": ""}

【待分析内容】

... 02月21日在投资者关系平台上答复了投资者关心的问题。投资者:公司是否应该跟大股东...(省略新闻内容)...

请根据【任务描述】针对【待分析内容】进行分析,给出结果

answer

```json

{"新闻分类": "财经新闻"}

```

评测prompt建议

params

suggestion

scene

阅读理解与信息提取

scene_desc

阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等

metric

正确性:回答应与给定上下文中的信息严格对应,正确无误地响应问题,并且与参考答案表达的信息相同

ref_answer

在此输入参考答案。

max_score

2

score_desc

1 回复存在明显缺陷,未能达到预期标准或基本要求,不应被采纳

2 回复符合要求,达到了预期标准,可以被采纳

steps

1. 回忆相关的智能助手回复标准,并仔细阅读、理解参考答案与待评估回复

2. 严格按给定标准评估,不要增加任何标准

注:以上参数的使用方式请参考文章最后的裁判员模型API使用教程


五、未来规划

未来我们将会对PAI-Judge的功能与模型进行优化与迭代,主要包括以下几个方向:

  1. 参考Deepseek-R1,引入强化学习与R1模型,提升PAI-Judge在完全自定义模板上的指令遵循度(正在进行内部测试);
  2. 重点提升模型在私域知识库与专业领域场景下的评测精度。


六、使用教程

请参考

裁判员模型概述

裁判员模型API使用说明

人工智能平台PAI

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
6月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
3月前
|
人工智能 自然语言处理 监控
58_大模型评估与评测:构建科学的多维度评测体系
在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。
|
9月前
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
898 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
6月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
|
7月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
7月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
250 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。

相关产品

  • 人工智能平台 PAI