Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

功能:优化多智能体系统中的通信效率和任务性能。
技术:基于迭代训练范式和强化学习算法。
应用:适用于信息不对称问答、复杂推理任务和多智能体游戏等场景。

正文(附运行示例)

Optima 是什么

公众号: 蚝油菜花 - Optima

Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。该框架通过一个迭代的生成、排名、选择和训练范式,显著提高了通信效率和任务效果。Optima不仅平衡了任务性能、令牌效率和通信可读性,还探索了多种强化学习算法,并集成了蒙特卡洛树搜索技术生成高质量的训练数据。

在多智能体任务中,Optima展示了超越单智能体基线和传统MAS的性能,实现了高达2.8倍的性能提升,并减少了令牌使用。Optima的效率提升为更有效的推理计算和改进的推理时间扩展法则提供了新的可能性。

Optima 的主要功能

  • 通信效率提升:优化多智能体系统(MAS)中的智能体间通信,减少完成任务所需的令牌数量,提高通信效率。
  • 任务性能增强:基于迭代训练和奖励函数的平衡,提升智能体在复杂任务中的表现,包括信息不对称问答和复杂推理任务。
  • 可扩展性:支持MAS在处理更大规模和更复杂的任务时保持有效性,提高系统的可扩展性。
  • 推理时间扩展法则改进:减少令牌使用,为改进推理时间扩展法则提供可能性,有助于在更低的计算成本下实现更好的性能。

Optima 的技术原理

  • 迭代训练范式:基于迭代的生成(generate)、排名(rank)、选择(select)和训练(train)范式,逐步优化智能体的行为。
  • 奖励函数:设计奖励函数,平衡任务性能、令牌效率和通信可读性,引导智能体在保持通信效率的同时完成任务。
  • 强化学习算法:探索包括监督式微调(SFT)、直接偏好优化(DPO)及混合方法在内的多种强化学习算法,优化智能体的行为。
  • 蒙特卡洛树搜索(MCTS):集成MCTS启发式技术,将对话轮次视为树节点,探索多样化的交互路径,生成高质量的DPO训练数据。
  • 多目标优化:基于奖励函数同时考虑多个目标,在提升任务性能的同时,注重通信效率和输出的可解释性。

如何运行 Optima

Optima的运行需要两个conda环境:一个用于vLLM部署,另一个用于训练,两者都使用Python 3.11。以下是设置环境的步骤:

vLLM 环境

conda create -n optima-vllm python=3.11
conda activate optima-vllm
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install vllm==0.5.3

训练环境

conda create -n optima-train python=3.11
conda activate optima-train
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
cd alignment-handbook
pip install -e .
cd ../
pip install -r requirements.txt

运行示例

以下是如何在ARC-C数据集上运行iSFT、iDPO和iSFT-DPO设置的示例:

iSFT 设置

MKL_THREADING_LAYER=GNU python sft_script.py \
    --train_config_path train/sft_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iDPO 设置

MKL_THREADING_LAYER=GNU python dpo_script.py \
    --train_config_path train/dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iSFT-DPO 设置

MKL_THREADING_LAYER=GNU python sft_dpo_script.py \
    --train_config_path train/sft_dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 Devops
破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推
随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生之初,被视为天然具备的能力,但随着相关研究的深入,现实远非如此。传统的 Transformer 架构在训练长度之外无一例外表现出糟糕的推理性能。
105 0
|
7月前
|
机器学习/深度学习 人工智能 算法
谷歌发布全新时间感知框架,对抗概念飘逸难题
【2月更文挑战第13天】谷歌发布全新时间感知框架,对抗概念飘逸难题
72 3
谷歌发布全新时间感知框架,对抗概念飘逸难题
|
7月前
|
人工智能 自然语言处理 自动驾驶
大模型领域急需建立可解释AI理论
【1月更文挑战第21天】大模型领域急需建立可解释AI理论
56 2
大模型领域急需建立可解释AI理论
|
7月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
7月前
|
机器学习/深度学习 编解码 自动驾驶
速度快4倍 | MIT&交大&清华联合提出FlatFormer,一个非常高效的Transformer方法
速度快4倍 | MIT&交大&清华联合提出FlatFormer,一个非常高效的Transformer方法
145 0
|
7月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
296 0
|
存储 SQL Cloud Native
LlamaIndex 联合创始人下场揭秘:如何使用私有数据提升 LLM 的能力?
如何使用私有数据最大化发挥 LLM 的能力?LlamaIndex 可以解决这一问题。LlamaIndex 是一个简单、灵活、集中的接口,可用于连接外部数据和 LLMs。
482 0
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
254 0
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
300 0
|
机器学习/深度学习 存储 人工智能
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
330 0

热门文章

最新文章

下一篇
无影云桌面