EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: EvalPlanner是一种创新的大语言模型(LLM)评估算法,采用计划-执行双阶段范式,生成无约束的评估计划并执行,从而提升评估的系统性和可靠性。该系统包含评估计划、计划执行模块和最终判决三个核心组件,通过自训练循环优化计划和执行过程。EvalPlanner在多个基准测试中表现出色,特别是在数据效率和泛化能力方面,为构建高效、稳健的LLM评估模型提供了新方向。

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。

为应对这些挑战,研究团队提出了EvalPlanner[1],这是一种创新的LLM评估算法。该算法采用计划-执行的双阶段范式,首先生成无约束的评估计划,随后执行该计划并做出最终判断。这种方法显著提升了评估过程的系统性和可靠性。

核心方法论

系统架构

EvalPlanner的架构包含三个核心组件,如下图所示:

具体来说,系统包含以下关键要素:

a) 评估计划(z)

  • 基于输入指令x,系统制定具体的响应评估策略
  • 计划设计注重灵活性和通用性

b) 计划执行模块

  • 依序执行评估计划的各个步骤
  • 分析目标响应a和b,生成详细的评估结果

c) 最终判决(y)

  • 在评判LLM(参数θ)的框架下,将计划z和执行e作为潜变量
  • 判决生成过程可表述为:

工作流程

系统的整体工作流程如下图所示:

主要步骤包括:

  1. 从分布P中采样多个评估计划z
  2. 对每个计划,从分布E中采样多个执行路径e
  3. 通过自训练循环优化计划和执行过程
  4. 在测试阶段,模型生成结构化的CoT输出:ỹ = (z̃, ẽ, ỹ)

训练数据生成方法

提示词选择与响应对生成

系统采用两类核心任务领域:

  • 通用指令执行任务- 通过对原始指令引入噪声生成对比样本- 原始指令响应作为正例,噪声指令响应作为负例
  • 数学推理任务- 采样多个候选响应- 正确解答作为正例,错误解答作为负例

评估计划生成

系统采用通用且无约束的计划生成提示模板,该模板仅基于输入指令查询经过指令调优的LLM以获取初始计划。提示模板的核心内容如下:

 We want to evaluate the quality of the responses provided by AI assistants to
 the user question displayed below. For that, your task is to help us build an 
 evaluation plan that can then be executed to assess the response quality. 
 Whenever appropriate, you can choose to also include a step-by-step reference 
 answer as part of the evaluation plan. Enclose your evaluation plan between 
 the tags “[Start of Evaluation Plan]” and “[End of Evaluation Plan]”.

 [User Question]
 {instruction}

计划执行生成

计划执行阶段采用种子模型,结合指令和响应对,基于生成的计划进行推理并产生判决。

 Please act as an impartial judge and evaluate the quality of the responses 
 provided by two AI assistants to the user question displayed below. You 
 should choose the assistant that follows the user’s instructions and answers
 the user’s question better. Your evaluation should consider factors such as 
 the helpfulness, relevance, accuracy,depth, creativity, and level of detail 
 of their responses. Begin your evaluation by comparing the two responses and 
 provide a short explanation. Avoid any position biases and ensure that the 
 order in which the responses were presented does not influence your decision. 
 Do not allow the length of the responses to influence your evaluation. Do not 
 favor certain names of the assistants. Be as objective as possible. After 
 providing your explanation, output your final verdict by strictly following 
 this format: “[[A]]” if assistant A is better, “[[B]]” if assistant B is better.

 [[User Question]]
 {instruction}

 [The Start of Assistant A’s Answer]
 {response A}
 [The End of Assistant A’s Answer]

 [The Start of Assistant B’s Answer]
 {response B}
 [The End of Assistant B’s Answer]

这种分离式架构具有两个主要优势:

确保执行过程严格遵循预定计划

通过对同一计划采样多个执行路径,增加评估数据的多样性

构建计划-执行偏好对

对于每个输入指令:

  • 采样|P|个计划
  • 每个计划采样|E|个执行路径
  • 考虑响应对的两种顺序(a,b)和(b,a),总共生成2×|P|×|E|个CoT序列


计划与执行的优化策略

系统采用自训练循环进行优化,主要包含以下步骤:

初始监督微调(SFT)

  • 从种子模型M₀开始
  • 在正确思维子集D₁ᶜ上进行微调
  • 得到模型M₁ˢᶠᵀ

第一轮直接偏好优化(DPO)

  • 以M₁ˢᶠᵀ为基础
  • 在包含正确与错误思维的数据集D₁上执行DPO
  • 得到模型M₁ᴰᴾᴼ

第二轮直接偏好优化(DPO)

  • 以M₁ᴰᴾᴼ为基础
  • 在新的指令和响应对子集D₂上执行DPO
  • 得到最终模型M₂ᴰᴾᴼ

实验设置与评估

训练数据构建

  • WildChat数据集:使用自学习评估器生成综合响应
  • MATH数据集:通过Mixtral 22Bx8 Instruct模型生成多个候选解答

实验配置

训练数据规模:

  • WildChat: 17,588个独特三元组
  • MATH: 4,141个独特三元组

采样参数:

  • 每次迭代5个计划
  • 每个计划8个执行路径(每种顺序4个)
  • 温度参数0.8,top_p值0.95

基准比较

模型性能与多个基准系统进行对比:

  • 零样本评估的开源和闭源LLM
  • 具有评论功能的奖励模型
  • RewardBench排行榜上的领先模型

实验结果与分析

性能优势

EvalPlanner展现出显著的性能优势:

  • 在较少训练数据的情况下超越所有基准系统
  • 为生成式奖励模型创造新的性能记录
  • 在多个种子模型上展示方法的普适性

数据效率

系统表现出优异的数据效率:

  • 仅使用5K偏好对即达到92.3的性能分数
  • 通过迭代DPO进一步提升至93.9
  • 相比单次DPO迭代(92.5)取得明显进步

泛化能力

在多个评估基准上验证了系统的泛化能力:

  • FollowBenchEval:在多层次约束评估中超越基准13%
  • RM-Bench:展示出对内容变化的强大鲁棒性
  • JudgeBench:在多类别挑战性问题上保持竞争力



总结

EvalPlanner通过创新的计划-执行范式,成功解决了LLM评估模型面临的核心挑战。系统在多个基准测试中的出色表现,证实了该方法在构建高效、稳健的评估模型方面的有效性。特别是在数据效率和泛化能力方面的优势,为未来LLM评估系统的发展提供了新的研究方向。

论文:
https://avoid.overfit.cn/post/f7ce0fc3e984451b97da82075bfb0b27

作者:SACHIN KUMAR

目录
相关文章
|
数据采集 机器学习/深度学习 编解码
MMdetection框架速成系列 第02部分:整体算法流程+模型搭建流程+detection训练与测试核心组件+训练部分与测试部分的核心算法
众所周知,目标检测算法比较复杂,细节比较多,难以复现,而我们推出的 MMDetection 开源框架则希望解决上述问题。目前 MMdetection 已经复现了大部分主流和前沿模型,例如 Faster R-CNN 系列、Mask R-CNN 系列、YOLO 系列和比较新的 DETR 等等,模型库非常丰富,star 接近 13k,在学术研究和工业落地中应用非常广泛。
1843 0
|
6月前
|
机器学习/深度学习 存储 人工智能
让模型评估模型:构建双代理RAG评估系统的步骤解析
在当前大语言模型(LLM)应用开发中,评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG(检索增强生成)评估系统,使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程,并展示了基于四种提示工程技术(ReAct、思维链、自一致性和角色提示)的不同结果。实验结果显示,ReAct和思维链技术表现相似,自一致性技术则呈现相反结果,角色提示技术最为不稳定。研究强调了多角度评估的重要性,并提供了系统实现的详细代码。
100 10
让模型评估模型:构建双代理RAG评估系统的步骤解析
|
6月前
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
MAGICORE是一种多代理迭代框架,旨在改进大语言模型(LLM)的推理能力。该框架通过将问题分类为简单或困难,并分别为其应用粗粒度聚合或细粒度精炼,有效避免了过度精炼、错误定位及精炼不足等问题。MAGICORE包含Solver、Reviewer和Refiner三个角色,结合结果和过程奖励模型,实现有针对性的反馈和迭代精炼。实验结果显示,MAGICORE在多个数据集和模型上显著优于现有的聚合和精炼方法,提升了推理准确性和样本效率。
224 3
MAGICORE:基于多代理迭代的粗到细精炼框架,提升大语言模型推理质量
|
5月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
278 1
|
5月前
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
378 0
|
7月前
|
SQL 自然语言处理 知识图谱
评估数据集CGoDial问题之TKK框架在知识获取阶段进行训练的问题如何解决
评估数据集CGoDial问题之TKK框架在知识获取阶段进行训练的问题如何解决
|
8月前
|
自然语言处理
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
|
7月前
评估数据集CGoDial问题之构建一个新的OpenIE评测范式的问题如何解决
评估数据集CGoDial问题之构建一个新的OpenIE评测范式的问题如何解决
|
7月前
|
SQL 自然语言处理
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务
【7月更文挑战第15天】TextGrad框架利用GPT-4o自动优化AI系统,通过文本反馈调整组件性能,提升问答、编程任务和分子设计等领域的效果。在Proof QA中提升准确率至55%,LeetCode难题解决效率提高20%。虽依赖LLM质量且易用性有限,但展示了强大的潜力,尚处于研究阶段。[arXiv:2406.07496](https://arxiv.org/abs/2406.07496)**
137 1