新年第一弹!全新的过程奖励模型PRM开源

简介: 新年第一弹!全新的过程奖励模型PRM开源

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。


因此,自动识别推理过程中的错误,对于模型可扩展监督变得越来越重要。


过程奖励模型(Process Reward Models, PRMs)作为数学推理过程监督中的一种有前途的方法出现,旨在识别和减轻推理过程中的中间错误。


今天,我们开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,共72B及7B尺寸两个版本,两个模型性能均超越同类开源过程奖励模型。特别是在识别推理错误步骤能力上,Qwen2.5-Math-PRM 以7B的小尺寸就超越了 GPT-4o。


同时,我们还开源了首个步骤级的评估标准 ProcessBench,为大模型推理过程错误评估提供新的标准参考。




01 Process Reward Model 开源

基于PRM的理念,我们提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与模型评判(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。


我们发布了两个 PRMs,即 Qwen2.5-Math-PRM-7B 和 Qwen2.5-Math-PRM-72B,它们分别在 Qwen2.5-Math-7B-Instruct 和 Qwen2.5-Math-72B-Instruct 上进行微调得来,两个 PRM 模型的数据利用率和评测性能表现均显著提高。


这两个模型均已在魔搭社区和HuggingFace等平台开源:

https://modelscope.cn/models/Qwen/Qwen2.5-Math-PRM-7B

https://modelscope.cn/models/Qwen/Qwen2.5-Math-PRM-72B

https://huggingface.co/Qwen/Qwen2.5-Math-PRM-7B

https://huggingface.co/Qwen/Qwen2.5-Math-PRM-72B


02 Best-of-N 评测结果


在评估方面,以往的研究主要依赖于响应级别的 Best-of-N(BoN)评估,即根据PRM从N个候选答案中选择得分最高的响应。


按照Qwen2.5-Math的方法,我们从多个数学基准测试中用 Qwen2.5-Math-7B-Instruct 采样了八个回答(即N=8),包括 GSM8K、MATH、Minerva Math、GaoKao 2023 En、OlympiadBench、College Math和MMLU STEM。每个候选回答的得分是该回答中每个步骤的分数乘积。我们将八次采样中的多数投票结果(maj@8)作为基线,将pass@8(即在八次采样中有任意一个采样得出正确最终答案的测试样本比例)作为上限。


如下表所示,Qwen2.5-Math-PRM-7B 相比其他同等规模的PRMs表现出更优的性能。值得注意的是,它在所有7项任务中均优于maj@8,平均提高了1.4%。此外,Qwen2.5-Math-PRM-72B 的整体性能略优于 Outcome Reward Model (ORM) Qwen2.5-Math-RM-72B,特别是在 Minerva Math 和 MMLU STEM 任务中表现显著。



03 全新ProcessBench评估标准开源


为更好衡量模型识别数学推理中错误步骤的能力,我们提出了全新的评估标准ProcessBench。


ProcessBench 由3,400个测试案例组成,主要集中在竞赛和奥林匹克级别的数学问题上。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。模型需要识别出第一个错误的步骤,或者得出所有步骤都正确的结论。


ProcessBench 可以用于评估两种类型的模型:PRMs和批评模型,后者通过提示通用语言模型来逐步检查回答中的步骤。



在 ProcessBench 上,我们评估了最新的 PRMs,以测量其识别错误步骤的能力。


与 LLM-as-judge 相比,Qwen2.5-Math-PRM-7B 以较小规模在所有开源LLM 中表现出色;对于闭源模型,Qwen2.5-Math-PRM-7B 超越了 GPT-4o-0806,但在性能上仍与 o1-mini 存在差距。


此外,与现有的PRMs相比,Qwen2.5-Math-PRM-7B 和Qwen2.5-Math-PRM-72B 都显示出显著的优势。一个有趣的观察是,ORM Qwen2.5-Math-RM-72B 在识别步骤错误方面也表现出不错的能力,甚至超过了某些开源PRMs。


04 探索模型推理前沿


ProcessBench 展示了现有PRMs面临的挑战,并填补了 PRMs 步骤级别评估的空白。除了开源 PRMs 以外,我们还在论文中通过广泛的实证研究识别了当前PRMs数据构建方法的局限性,并揭示了仅使用响应级别 BoN 评估 PRMs 的潜在偏差。


我们希望 ProcessBench、我们开发 PRM 的最佳实践能够促进未来对推理过程监督的研究和开发。


更多细节请查看我们下面的论文:

The Lessons of Developing Process Reward Models in Mathematical Reasoning

https://arxiv.org/pdf/2501.07301

相关文章
|
API
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
2355 0
|
存储 缓存 异构计算
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。
5319 0
|
设计模式 算法 安全
【设计模式】RBAC 模型详解
随着软件系统的复杂性和规模的不断增长,权限管理成为了一个至关重要的问题。在大型多人协作的系统中,如何有效地管理不同用户的访问权限,确保系统的安全性和稳定性,是每一个开发者都需要面对的挑战。为了解决这一问题,业界提出了一种被广泛应用的权限管理模型——基于角色的访问控制(Role-Based Access Control,简称RBAC)。希望通过本篇博客的学习,您能够深入了解RBAC模型的核心思想和实现原理,掌握如何在实际项目中应用RBAC模型来提高系统的安全性和可维护性。
1825 1
|
数据安全/隐私保护
vscode访问和编辑远程服务器文件
vscode访问和编辑远程服务器文件
354 0
vscode访问和编辑远程服务器文件
|
4月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
422 35
|
7月前
|
机器学习/深度学习 人工智能
NeurIPS 2024:收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架
在NeurIPS 2024会议上,华中科技大学团队发布了MoE Jetpack框架,旨在解决专家混合(MoE)模型训练中的挑战。该框架通过检查点回收和超球面自适应MoE(SpheroMoE)层两项技术,利用预训练密集模型加速收敛并提高准确性。实验表明,MoE Jetpack在视觉任务上显著提升收敛速度(最高8倍)和准确性(超过30%),为MoE模型的实际应用提供了新动力。尽管存在一些限制,如初始权重依赖密集模型及计算资源需求,但该框架大幅降低了MoE模型的训练成本,提升了其可行性。论文地址:https://arxiv.org/abs/2406.04801。
220 45
|
6月前
|
人工智能 运维 数据处理
单机部署DeepSeek满血版(BF16精度)和Qwen,阿里云百炼专属版AI训推一体机重磅发布!
单机部署DeepSeek满血版(BF16精度)和Qwen,阿里云百炼专属版AI训推一体机重磅发布!
|
7月前
|
测试技术 API 开发者
通义千问Qwen2.5-Max登上大模型盲测榜单全球前十,数学及编程能力夺冠
通义千问Qwen2.5-Max登上大模型盲测榜单全球前十,数学及编程能力夺冠
|
11月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1050 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!

热门文章

最新文章