Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

简介: Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

功能:优化多智能体系统中的通信效率和任务性能。
技术:基于迭代训练范式和强化学习算法。
应用:适用于信息不对称问答、复杂推理任务和多智能体游戏等场景。

正文(附运行示例)

Optima 是什么

公众号: 蚝油菜花 - Optima

Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。该框架通过一个迭代的生成、排名、选择和训练范式,显著提高了通信效率和任务效果。Optima不仅平衡了任务性能、令牌效率和通信可读性,还探索了多种强化学习算法,并集成了蒙特卡洛树搜索技术生成高质量的训练数据。

在多智能体任务中,Optima展示了超越单智能体基线和传统MAS的性能,实现了高达2.8倍的性能提升,并减少了令牌使用。Optima的效率提升为更有效的推理计算和改进的推理时间扩展法则提供了新的可能性。

Optima 的主要功能

  • 通信效率提升:优化多智能体系统(MAS)中的智能体间通信,减少完成任务所需的令牌数量,提高通信效率。
  • 任务性能增强:基于迭代训练和奖励函数的平衡,提升智能体在复杂任务中的表现,包括信息不对称问答和复杂推理任务。
  • 可扩展性:支持MAS在处理更大规模和更复杂的任务时保持有效性,提高系统的可扩展性。
  • 推理时间扩展法则改进:减少令牌使用,为改进推理时间扩展法则提供可能性,有助于在更低的计算成本下实现更好的性能。

Optima 的技术原理

  • 迭代训练范式:基于迭代的生成(generate)、排名(rank)、选择(select)和训练(train)范式,逐步优化智能体的行为。
  • 奖励函数:设计奖励函数,平衡任务性能、令牌效率和通信可读性,引导智能体在保持通信效率的同时完成任务。
  • 强化学习算法:探索包括监督式微调(SFT)、直接偏好优化(DPO)及混合方法在内的多种强化学习算法,优化智能体的行为。
  • 蒙特卡洛树搜索(MCTS):集成MCTS启发式技术,将对话轮次视为树节点,探索多样化的交互路径,生成高质量的DPO训练数据。
  • 多目标优化:基于奖励函数同时考虑多个目标,在提升任务性能的同时,注重通信效率和输出的可解释性。

如何运行 Optima

Optima的运行需要两个conda环境:一个用于vLLM部署,另一个用于训练,两者都使用Python 3.11。以下是设置环境的步骤:

vLLM 环境

conda create -n optima-vllm python=3.11
conda activate optima-vllm
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install vllm==0.5.3

训练环境

conda create -n optima-train python=3.11
conda activate optima-train
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
cd alignment-handbook
pip install -e .
cd ../
pip install -r requirements.txt

运行示例

以下是如何在ARC-C数据集上运行iSFT、iDPO和iSFT-DPO设置的示例:

iSFT 设置

MKL_THREADING_LAYER=GNU python sft_script.py \
    --train_config_path train/sft_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iDPO 设置

MKL_THREADING_LAYER=GNU python dpo_script.py \
    --train_config_path train/dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iSFT-DPO 设置

MKL_THREADING_LAYER=GNU python sft_dpo_script.py \
    --train_config_path train/sft_dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
人工智能 缓存 API
LLM API Gateway:LLM API 架构、大模型 API 聚合与 AI API 成本优化全解(2026 深度指南)
从 OpenAI 引发的 AI API Gateway 经济变革,到企业级多模型聚合架构 n1n.ai 的最佳实践。本文将深入剖析 LLM API 的技术细节(协议、鉴权、参数调优),探讨“自建网关”与“聚合服务”的优劣权衡,并提供 Python 实战代码演示如何构建高可用的多模型 Agent。
1790 7
|
缓存 自然语言处理 物联网
LLama Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory 是一个高效的大语言模型训练和推理框架,它通过提供一站式的 Web UI 界面和集成多种训练方法,简化了大模型的微调过程,并能够适配多种开源模型。
|
1月前
|
人工智能 自然语言处理 NoSQL
大模型应用成本管控:基于 Token Plan 的多模型路由网关设计实践
本文介绍一种LLM应用成本管控方案:通过网关层实现“模型路由+订阅配额管理”,根据任务复杂度(如关键词、长度)动态调度至轻量/旗舰模型,并用Redis实现月度Token额度控制与自动降级。实践后成本降低约60%,保障预算确定性与服务稳定性。(239字)
|
3月前
|
人工智能 运维 监控
OpenClaw是什么?有什么用?怎么部署?一文详解!
2026年初爆火的开源AI智能体OpenClaw(小龙虾AI),是能“听懂人话、替你干活”的本地化执行引擎。支持多模型、700+技能、50+IM接入,具备持久记忆与隐私优先架构。本文详解其原理、场景及云端/本地保姆级部署方案。
1624 1
|
3月前
|
人工智能 安全 测试技术
零基础OpenClaw全功能落地指南:阿里云、本地部署+多渠道集成+多Agent协作实战教程
2026年3月,OpenClaw正式发布3.24版本,带来兼容性升级、多渠道深度集成与技能系统优化三大核心突破。作为开源本地优先AI代理平台,其“模型无关+多端协同+安全可控”的特性愈发成熟,已从个人工具进化为企业级智能协作中枢。本文基于最新版本,系统拆解OpenClaw 3.24核心特性、多Agent协作架构、全平台部署流程、阿里云大模型配置及行业落地案例,所有代码可直接复制执行,助力用户从零基础到熟练落地,充分释放AI自动化价值。
740 0
|
6月前
|
人工智能 自然语言处理 安全
AI 十大论文精讲(六):拆解 LLM 智能体的 “通用密码”
本文解读复旦NLP团队2023年重磅综述《The Rise and Potential of Large Language Model Based Agents》,系统剖析LLM智能体“大脑-感知-行动”三大核心模块,涵盖单智能体、多智能体、人机协作与智能体社群四大应用场景,提炼工具SKMA体系、安全护栏、结果检查三大落地要点,并提出AGI路径、虚拟到物理迁移等开放问题,为构建通用智能体提供统一范式,被誉为该领域“入门圣经”。
1029 4
|
11月前
|
JSON 资源调度 监控
拼多多API实时价格监控,抢占低价流量红利!
在电商竞争激烈的当下,实时监控商品价格成为抢占低价机会的关键。本文详解如何利用拼多多API实现自动化价格监控,捕捉价格波动,制定科学策略,助力商家与消费者抢占流量红利,提升竞争力。
2258 0
|
资源调度 JavaScript 前端开发
创建vue3项目步骤以及安装第三方插件步骤【保姆级教程】
这是一篇关于创建Vue项目的详细指南,涵盖从环境搭建到项目部署的全过程。
1175 1
|
存储 Linux 网络安全
linux应急响应检查脚本
通过这个脚本,可以快速收集系统的关键信息,有助于在发生问题时进行及时的应急响应和分析。
560 34
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
803 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等

热门文章

最新文章