SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/mCHayCRFwtK6UyLxi-5WaA


🚀 快速阅读

  1. 框架功能:SPAR 通过生成者和完善者的自我博弈,提升大型语言模型的指令遵循能力。
  2. 技术原理:基于树搜索算法,SPAR 精细化模型响应,排除干扰因素,专注于指令关键要求。
  3. 应用场景:SPAR 可应用于智能助手、客户服务、教育技术、医疗咨询和智能家居控制等领域。

正文(附运行示例)

SPAR 是什么

公众号: 蚝油菜花 - SPaR

SPAR 是智谱团队推出的自我博弈训练框架,旨在增强大型语言模型在遵循指令方面的能力。该框架基于生成者和完善者两个角色的互动,生成者负责执行指令并生成回复,完善者则对回复进行分析和改进。

通过树搜索技术,SPAR 能够精细化和优化回复,排除与指令无关的干扰因素,从而突出对指令遵循至关重要的关键差异。这一过程不仅提升了模型执行指令的准确性,还增强了模型的自我完善能力。实验结果显示,SPAR 框架显著提高了模型在 IFEval 等评估基准上的性能,证明了其在提升大型语言模型指令遵循能力方面的有效性。

SPAR 的主要功能

  • 提升指令遵循能力:提高大型语言模型准确理解和执行指令的能力。
  • 构造有效偏好对:基于自我博弈和树搜索策略,构造出有效且可比较的偏好对,帮助模型学习关键差异。
  • 自我博弈迭代改进:模型通过扮演生成者和完善者两个角色,进行自我博弈,不断改进指令遵循能力。
  • 树搜索策略:使用树搜索算法精细化模型的响应,确保生成的回复更准确地遵循指令。
  • 模型性能优化:通过优化生成者和完善者模型,提高整体的指令遵循性能。
  • 可扩展性和可转移性:展示了对不同大小模型的可扩展性和可转移性,能提升各种规模模型的指令遵循能力。

SPAR 的技术原理

  • 自我博弈框架:SPAR 框架中,大型语言模型扮演生成者和完善者两个角色,生成者生成回复,完善者对回复进行评估和改进。
  • 树搜索算法:基于树搜索算法(包括广度优先搜索 BFS 和深度优先搜索 DFS)探索可能的回复路径,并找到最佳回复。
  • 去除干扰因素:通过精细化回复对,排除与指令遵循无关的干扰因素,让模型专注于学习指令的关键要求。
  • 迭代训练:通过迭代训练的方式,不断优化生成者和完善者模型,每轮迭代都基于前一轮的结果进行改进。
  • 数据构建:构建高质量的数据集,包含复杂指令遵循提示和相应的监督式微调(SFT)数据,用于初始化和训练生成者和完善者模型。
  • 模型优化:通过树搜索策略生成的精细化回复对,SPAR 基于直接偏好优化(DPO)和拒绝重采样微调(RFT)训练生成者和完善者模型,实现持续的自我提升。

如何运行 SPAR

数据构建

要构建迭代训练数据,可以运行以下命令:

cd src

bash infer.sh

python process_data.py

bash judge.py

python process_data.py

vllm serve <your-model-path>

python tree_search.py

python process_data.py

模型训练

如果你想训练自己的模型,可以运行以下命令:

cd src

# dpo
llamafactory-cli train configs/dpo.yaml

# sft
llamafactory-cli train configs/sft.yaml

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
11天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
181 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
10天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
98 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
10天前
|
人工智能 自然语言处理 搜索推荐
浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界
随着大模型(LLMs)的发展,AI 写作取得了较大进展。然而,现有的方法大多依赖检索知识增强生成(RAG)和角色扮演等技术,其在信息的深度挖掘方面仍存在不足,较难突破已有知识边界,导致生成的内容缺乏深度和原创性。
|
6天前
|
人工智能 开发框架 机器人
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。
1504 13
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
|
7天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
685 13
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
4天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
115 27
|
24天前
|
存储 人工智能 自然语言处理
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
156 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
|
1天前
|
人工智能 编解码 vr&ar
Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率
Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。
52 4
|
19天前
|
人工智能 开发者 Python
Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用
Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。
116 9
|
27天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
189 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备

热门文章

最新文章