SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/mCHayCRFwtK6UyLxi-5WaA


🚀 快速阅读

  1. 框架功能:SPAR 通过生成者和完善者的自我博弈,提升大型语言模型的指令遵循能力。
  2. 技术原理:基于树搜索算法,SPAR 精细化模型响应,排除干扰因素,专注于指令关键要求。
  3. 应用场景:SPAR 可应用于智能助手、客户服务、教育技术、医疗咨询和智能家居控制等领域。

正文(附运行示例)

SPAR 是什么

公众号: 蚝油菜花 - SPaR

SPAR 是智谱团队推出的自我博弈训练框架,旨在增强大型语言模型在遵循指令方面的能力。该框架基于生成者和完善者两个角色的互动,生成者负责执行指令并生成回复,完善者则对回复进行分析和改进。

通过树搜索技术,SPAR 能够精细化和优化回复,排除与指令无关的干扰因素,从而突出对指令遵循至关重要的关键差异。这一过程不仅提升了模型执行指令的准确性,还增强了模型的自我完善能力。实验结果显示,SPAR 框架显著提高了模型在 IFEval 等评估基准上的性能,证明了其在提升大型语言模型指令遵循能力方面的有效性。

SPAR 的主要功能

  • 提升指令遵循能力:提高大型语言模型准确理解和执行指令的能力。
  • 构造有效偏好对:基于自我博弈和树搜索策略,构造出有效且可比较的偏好对,帮助模型学习关键差异。
  • 自我博弈迭代改进:模型通过扮演生成者和完善者两个角色,进行自我博弈,不断改进指令遵循能力。
  • 树搜索策略:使用树搜索算法精细化模型的响应,确保生成的回复更准确地遵循指令。
  • 模型性能优化:通过优化生成者和完善者模型,提高整体的指令遵循性能。
  • 可扩展性和可转移性:展示了对不同大小模型的可扩展性和可转移性,能提升各种规模模型的指令遵循能力。

SPAR 的技术原理

  • 自我博弈框架:SPAR 框架中,大型语言模型扮演生成者和完善者两个角色,生成者生成回复,完善者对回复进行评估和改进。
  • 树搜索算法:基于树搜索算法(包括广度优先搜索 BFS 和深度优先搜索 DFS)探索可能的回复路径,并找到最佳回复。
  • 去除干扰因素:通过精细化回复对,排除与指令遵循无关的干扰因素,让模型专注于学习指令的关键要求。
  • 迭代训练:通过迭代训练的方式,不断优化生成者和完善者模型,每轮迭代都基于前一轮的结果进行改进。
  • 数据构建:构建高质量的数据集,包含复杂指令遵循提示和相应的监督式微调(SFT)数据,用于初始化和训练生成者和完善者模型。
  • 模型优化:通过树搜索策略生成的精细化回复对,SPAR 基于直接偏好优化(DPO)和拒绝重采样微调(RFT)训练生成者和完善者模型,实现持续的自我提升。

如何运行 SPAR

数据构建

要构建迭代训练数据,可以运行以下命令:

cd src

bash infer.sh

python process_data.py

bash judge.py

python process_data.py

vllm serve <your-model-path>

python tree_search.py

python process_data.py

模型训练

如果你想训练自己的模型,可以运行以下命令:

cd src

# dpo
llamafactory-cli train configs/dpo.yaml

# sft
llamafactory-cli train configs/sft.yaml

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
25 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
1天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
21 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
9天前
|
人工智能 Linux API
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。
78 8
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
|
5天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
85 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
13天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
30 6
|
12天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架之争
本文介绍了AI框架在数学上对自动微分的表达和处理,以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程,从萌芽阶段到深化阶段,探讨了不同阶段的关键技术和代表性框架。同时,文章展望了AI框架的未来趋势,包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。
37 0
|
机器学习/深度学习 人工智能 开发工具
打造AI训练基础平台!Unity推出Machine Learning Agents
但在未来,人工智能游戏选手或许将会面临新的对手:另一个人工智能。今天,全球最大的3D游戏引擎Unity宣布发布Unity Machine Learning Agents,通过将其游戏引擎与TensorFlow等机器学习框架相连接
1683 0
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
83 10
|
4天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
128 97
|
9天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

热门文章

最新文章