建模世界偏好:偏好建模中的Scaling Laws

简介: 本文探讨了人类偏好建模的可扩展性,揭示其遵循Scaling Law。通过大规模训练(1.5B-72B参数)Qwen 2.5模型,使用1500万对论坛偏好数据,发现测试损失随规模指数增长而线性下降。研究提出WorldPM(Modeling World Preference),作为统一的人类偏好表征方法,在客观与主观评估中展现优势。实验表明,WorldPM可显著提升样本效率和多维度性能,成为高效的人类偏好微调基座。同时,文章反思主观评估复杂性,建议放弃简单预设,让模型自主发现人类偏好的深层规律,推动AI对齐新方向。论文与代码已开源。

Scaling Law最早在语言建模当中被发现,在下一个词预测任务当中,研究者们发现测试损失随着训练规模和模型规模的指数增长而线性下降。这一发现迄今促成了一系列强大的语言模型,他们对人类语言和知识展现出深刻的洞察,同时也引领着未来语言模型的发展方向。

在语言建模阶段,模型还只是学习语言的本质规律,基于人类反馈的强化学习则进一步将语言模型转化为符合人类偏好和能够为人类所用的助手,其中人类反馈一般由模型学习如何与人类偏好选择保持一致。

强化学习的潜力已经被近期基于规则验证的强化学习所验证,并且在代码、数学等任务上取得了超越性的成就。整个语言模型的主要算法模块只剩下人类反馈建模(偏好建模)的扩展性仍然未被验证。

人类反馈由于其信号稀疏(仅有01标签表示是否偏好)、监督噪音(偏好复杂多样、人类可能错误标注)似乎难以扩展,许多研究给予更丰富的监督信号(文本反馈、制定偏好标注原则等)、或者从偏好数据集中去噪等方式来增强偏好建模。

然而,这些人类的先验知识和对人类偏好的某种主观假设,是否只是重复如Rich Sutton说的 苦涩的教训

我们首次揭示人类偏好建模遵循Scaling Law。通过从论坛收集1500W规模的人类偏好对,在不同规模(1.5B-72B)的Qwen 2.5模型上进行大规模训练,我们发现模型在识别回复缺陷和判断客观正确性任务上,测试损失随着训练规模指数增长而线性下降。

这种扩展趋势暗示着人类偏好建模可能存在统一表征,那些表面的差异将在统一建模中被扬弃,各种似乎互相矛盾的人类偏好能够得到统一的理解。为此,我们提出建模世界偏好(Modeling World Preference,简称WorldPM),其中世界偏好意指人类偏好的统一表征。

我们在《WorldPM: Scaling Human Preference Modeling》中详细讨论了这种扩展趋势,进一步实验表明训练得到的模型是一个很好的偏好微调起点,在广泛的任务上有显著提升。论文和模型都已经开源。


640 (28).png


论文和代码已开源:

📄论文

⭐️GitHub

🤗模型已上线 Hugging Face


人类偏好建模的Scaling Law

在一般论坛上,同一个帖子下常常有多个回答,而这些回答获得的点赞数不同。这种差异恰好反映了人们的自然偏好。为了让AI学习人类的偏好,我们从同一个帖子下抽取两个点赞数不同的回答,要求模型给出与人类偏好一致的判断(我们的训练损失仍然是BT Loss)。

为了全面评估模型效果,我们使用了三类测试:

  1. 对抗性测试:通过构造"貌似合理但实际有缺陷"的回答来考验模型。比如,在正确答案中故意加入错误信息,或者给出看似专业但实际离题的回答。这能测试模型识别细微缺陷的能力。
  2. 客观性测试:在有标准答案的问题中,同时给出正确和错误的回答,考察模型是否能分辨出更好的答案。
  3. 主观性测试:使用人类或AI标注的主观偏好数据,检验模型与人类判断的一致程度。


640 (29).png


我们发现,随着模型规模和训练数据量的增加,模型在识别细微错误方面的能力持续提升。特别有趣的是,在客观评估中出现了"涌现"现象 —— 只有更大规模的模型如(72B)才能持续扩展,而小模型则较难突破瓶颈。

然而在主观评估上却没有观察到扩展的趋势,我们对这一意外现象进行深入研究发现,主观评估在某些评价维度上与WorldPM所学习到的偏好存在冲突。


为什么偏好建模是可扩展的

“偏好建模是可扩展的” 这个结论初看令人难以置信。我们在得出这个结论之前也曾面临两大质疑:

  1. 任务形式过于简单,偏好建模只有0和1两种监督信号(表示哪个回答更好),而预测下一个词(next-token prediction)任务有数百万倍的监督信号密度。这样简单的任务,模型真能学到深层特征吗?
  2. 数据质量似乎不够理想,论坛的偏好数据充满噪音,这种嘈杂的数据如何支持模型的持续进步?相比之下,可验证奖励的强化学习虽然奖励信号稀疏,但至少是准确的。

但深入思考后,我们提出了新的见解:

首先,让我们思考为什么预测下一个词能帮助模型理解语言?正如Ilya Sutskeve所说,要准确预测下一个词,模型必须理解语言产生背后的深层规律。同理,要在偏好预测上达到高准确率(比如90%),模型就必须找到一种能够统一解释绝大多数人类偏好的深层模式。

其次,什么是"噪音"?从技术角度看,它指的是那些看似无规律的标签或监督信号。但所谓的"噪音"可能只是源于人类视角的局限。就像我们每天使用语言却未必理解语言产生的规律一样,人类在表达偏好时也未必清楚自己为什么会做出这样的选择。而模型恰恰可能发现在这些噪音当中隐藏的,人类个体难以理解的深层规律。

这些想法促使我们产生一个大胆的推测:人工智能的可扩展性既不依赖密集的监督信号(next token prediction),也不取决于信号的准确性(RLVR)。真正重要的是这个信号是否合理(与人类目标相关)且具有挑战性(避免过快收敛)。尽管高质量的监督信号确实能加速这个过程。


主观评估的复杂性:当AI开始超越表面特征

当我们放弃对人类偏好的某种主观假设,并且反思主观评估究竟在评估什么的时候,我们或许能够对于主观评估为何不能扩展提出一个可能的猜想。

主观评估涉及多个维度 —— 例如有用性、相关性、表达风格等,这些维度往往很难有统一的标准,这与有标准答案的客观评估有着本质区别。而正如前文所说,主观评估的标注者们往往对人类偏好做了预先规定,即在某个维度上"人类应该偏好什么"。当这些预设与模型实际学习到的偏好不一致时,就会出现有趣的现象:模型可能在某些维度上与主观评估一致,在其他维度上却相反,最终导致评估分数呈现出平衡状态甚至变差。


640 (30).png


我们特别关注了风格这一维度:普通用户和AI评估者往往会偏好特定的回答风格,比如更长的答案或更多的格式标记。但随着训练规模增加,模型逐渐摆脱了这种表面特征的依赖,转而关注更本质的内容。这种"进步"反而导致模型在带有风格偏好的评估中得分降低。

我们揭示了模型如何超越表面特征:它先是快速掌握简单的规律(比如"更长的回答更好"),这让他能够在最短的时间内很好地预测符合这一偏好的数据。但在继续学习更多数据时,模型发现这个规律并不总是成立。为了统一解释这些看似矛盾的现象,模型被迫深入挖掘,最终发现了更本质的人类偏好模式。

我们需要重新思考人类主观评估——这一评估领域很大程度上延续了客观评估的思路,计算二元标注的正确率、使用LLM充当评估者等。然而这两个领域截然不同,客观评估具有公认的答案,而主观评估并非如此,包含噪音、错误以及混合了非常丰富维度的偏好数据可能适合于训练(让模型发现内在的规律),但作为评估来说,将让结果变得混乱。


640 (31).png


这些发现揭示了一个深刻的问题:当AI真正开始"理解"人类偏好时,它可能会与我们既有的评估标准产生冲突。这提醒我们需要重新思考:如何更准确地评估AI对人类偏好的理解?


WorldPM:打造高效的人类偏好微调基座

进一步研究表明,WorldPM不仅在预训练阶段表现出色,更是一个理想的人类偏好微调起点。

我们通过在多个数据规模(从7K到800K样本)的人类偏好数据集上进行实验,在7个benchmark的20个评估维度上,WorldPM展现出显著优势:

客观评估维度:许多关键子项的性能提升超过5%。

主观评估指标:稳定且明显的提升,说明了WorldPM学习到了有效的主观表征。

样本效率大幅提高:减少人工标注成本。


640 (32).png


这一发现具有重要的实践意义:人类偏好数据的标注往往需要大量人力投入,而有了WorldPM这个强大的预训练基座,我们可以用更少的标注数据达到更好的效果。这不仅节省了资源,更为AI模型的对齐开辟了新的可能。


未来展望


传统的偏好建模往往"预设"了人类的偏好——比如认为人们喜欢"有用的"或"诚实的"回答。但这种规定似乎始终无法完全描述清楚人类偏好,有时,一个不那么"有用"但充满趣味的回答可能更受欢迎,一个善意的"美化"可能比赤裸裸的真相更让人暖心。

人类的精神世界或许远比我们想象的更加丰富多彩。我们其实并不理解人类偏好是什么,正如我们也并不理解语言是什么。然而这并不妨碍我们使用语言或者表达偏好,也并不妨碍强大的语言模型比我们更理解语言或者偏好。

回想苦涩的教训揭示的第二个观点:思维的实际内容实际上是极其复杂,不可理解的。我们应该放弃寻找思考人类偏好的简单方法,例如思考人类偏好包含若干原则、或者把偏好多样性看作是噪音并加以去除。反之,我们应该相信人类偏好的复杂性,专注于能够发现和捕捉偏好复杂性的元方法,让模型而不是我们去发现广泛人群的普遍偏好。将我们对人类偏好的思考内置于模型最终只会偏离人类偏好。

相关文章
|
4天前
|
人工智能 自然语言处理 IDE
通义灵码 × Qwen3:编程智能体上线
通义灵码现已全面支持Qwen3,正式上线编程智能体。升级后的工具不再只是代码生成器,而是能理解任务的智能搭档,依托Qwen3能力结合MCP服务,自动感知项目结构、分析需求并调用多种工具完成编码任务。通过自然语言输入,开发者可在10分钟内完成原本需1~2天的App开发工作。此外,通义灵码支持工程级变更、自动上下文感知、工具自主使用及终端命令执行,深度集成3000+ MCP服务,覆盖DevOps全流程。目前插件下载量超1500万,累计生成代码超30亿行。体验只需将插件升级至2.5.0版本以上并在VS Code或JetBrains IDE中启用。
64 24
|
5天前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
208 28
|
1月前
|
程序员 定位技术 开发者
试了试阿里云的通义灵码 2.5 版
通义灵码 2.5 版是个特别实用的工具,无论是个人开发者还是企业团队,都能从中受益。如果你也在找能提升开发效率的工具,通义灵码绝对值得一试!
101 33
试了试阿里云的通义灵码 2.5 版
|
1月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
197 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
2月前
|
人工智能 自然语言处理 运维
Bolt.diy 一键部署,“一句话”实现全栈开发
Bolt.diy 是 Bolt.new 的开源版本,提供更高灵活性与可定制性。通过自然语言交互简化开发流程,支持全栈开发及二次开发,使零基础开发者也能实现从创意到云端部署的完整链路。本方案基于阿里云函数计算 FC 搭建,集成百炼模型服务,快速完成云端部署。用户可通过对话开启首个项目,两步完成部署并获300社区积分。方案优势包括多模型适配、高度定制化、全栈开发支持及智能化辅助工具,助力高效开发与创新。
540 102
|
3天前
|
监控 Java 物联网
Java 开发中基于 Spring Boot 框架实现 MQTT 消息推送与订阅功能详解
本文介绍基于Spring Boot集成MQTT协议实现消息推送与订阅的技术方案。涵盖MQTT协议概述、核心概念(Broker、Client、Topic、QoS)及应用场景,详细说明在Spring Boot中通过配置依赖、连接信息、客户端工厂及消息通道实现消息发布与订阅服务。提供物联网设备监控系统的应用实例,包括设备状态上报、服务器指令下发和实时数据处理。同时,探讨单元测试方法、生产环境部署注意事项(安全配置、性能优化、高可用性)以及总结MQTT在高效可靠消息通信系统中的应用价值。资源链接:[点击查看](https://pan.quark.cn/s/14fcf913bae6)。
138 34
|
10天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
10天前
|
人工智能 开发者
阿里云百炼xWaytoAGI共学课程直播视频汇总
阿里云百炼xWaytoAGI共学课系列涵盖企业级AI应用开发、文本知识库应用及多模态交互案例,帮助开发者快速掌握AI技术。抓紧来学习吧~~
|
16天前
|
XML 前端开发 Android开发
一篇文章带你走近Android自定义view
这是一篇关于Android自定义View的全面教程,涵盖从基础到进阶的知识点。文章首先讲解了自定义View的必要性及简单实现(如通过三个构造函数解决焦点问题),接着深入探讨Canvas绘图、自定义属性设置、动画实现等内容。还提供了具体案例,如跑马灯、折线图、太极图等。此外,文章详细解析了View绘制流程(measure、layout、draw)和事件分发机制。最后延伸至SurfaceView、GLSurfaceView、SVG动画等高级主题,并附带GitHub案例供实践。适合希望深入理解Android自定义View的开发者学习参考。
365 84
|
16天前
|
SQL JSON API
什么!我把SQL编辑器装进了大模型?
本文旨在通过约束解码技术,赋予大型语言模型在生成SQL等结构化内容时更高的准确性、可控性与可解释性,从而满足企业级场景对“精准生成”的严苛要求。
362 125
什么!我把SQL编辑器装进了大模型?