小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%

简介: NVIDIA联合港大提出ToolOrchestra,用小模型动态编排工具链,通过强化学习优化推理路径,在保证智能水平的同时提升2.5倍效率、降低70%成本,实现“以小控大”的高效AI新范式。

小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%

论文标题:ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

作者团队:英伟达、香港大学

发布时间:2025年11月27日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

⭐论文简介

大语言模型在解决深度复杂问题时面临计算成本高、推理能力不足的挑战;现有工具代理多依赖单一强大模型,缺乏对“工具编排”的系统性优化,导致效率与成本难以平衡。

这篇论文解决的是,训练一个小型语言模型(Orchestrator) 作为编排器,动态协调多种工具(基础工具、专业LLMs、通用LLMs),通过强化学习优化任务完成效果。

⭐核心创新

论文核心是训练一个小型语言模型作为“编排器”,通过强化学习让小模型学会 “何时调用、调用什么、如何组合” 工具,实现 “以小控大、降本增效”。

该方法将多工具任务建模为马尔可夫决策过程,编排器通过“多轮滚动”交替执行“推理”和“工具调用”,逐步完成任务。

奖励设计包含三重目标:结果正确性(任务是否解决)、效率(成本与延迟)、用户偏好(工具选择倾向),引导模型平衡性能与成本,适配用户需求。

为支持训练,论文还提出了ToolScale数据集,通过模拟工具环境与生成多样化任务,解决端到端RL训练的数据稀缺问题。

⭐论文的贡献

  • 提出“编排范式”,用小型模型协调工具实现“性能 - 成本”最优;
  • 发布ToolScale数据集,推动工具代理研究;
  • 证明小型编排模型在复杂任务上可超越大模型,为低成本、可扩展的AI系统提供新思路。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
金融行业用好大模型,只有“垂直”一个解
在金融这一高合规、高复杂度的行业中,通用大模型难堪重任,垂直化成为刚需。通义点金通过“数据飞轮+行业Know-how”内化能力,打造涵盖合成、训练、评测、应用的一站式金融大模型工场,推动AI从工具迈向自主智能体(Agentic Model),实现精准、可解释、可持续迭代的业务赋能,引领金融AI进入深度垂直新阶段。
628 0
金融行业用好大模型,只有“垂直”一个解
MacBook终端安装tree命令(保证好使)
MacBook终端安装tree命令(保证好使)
|
5月前
|
机器学习/深度学习 人工智能 缓存
CALM自编码器:用连续向量替代离散token,生成效率提升4倍
近年来语言模型效率优化多聚焦参数规模与注意力机制,却忽视了自回归生成本身的高成本。CALM提出新思路:在token之上构建潜在空间,通过变分自编码器将多个token压缩为一个连续向量,实现“一次前向传播生成多个token”。该方法大幅减少计算次数,提升推理速度与吞吐量,同时引入无似然训练与BrierLM评估体系,突破传统语言建模范式,为高效大模型提供新路径。
331 7
CALM自编码器:用连续向量替代离散token,生成效率提升4倍
|
5月前
|
JSON 自然语言处理 数据处理
集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型
MIT、英伟达等联合推出FoundationMotion,首创全自动视频运动标注 pipeline,生成50万“视频-描述-QA”数据,覆盖7维运动语义与5类推理问题。模型微调后在MotionBench、AV-Car等评测中显著超越闭源大模型,推动视频理解迈向高精度自动标注新阶段。
207 0
 集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型
|
5月前
|
并行计算 安全 测试技术
H100 真的被封印了吗?我用 vLLM+FP8 把吞吐拉爆了
H100未被封印!通过vLLM+FP8量化,实现Llama-3-8B推理吞吐提升60%,并发能力飙升5倍。利用PagedAttention与FP8 KV Cache,显存效率跃升,单卡承载达千级请求,实测60 QPS为稳定服务红线,为大模型生产部署提供高性能、低成本新范式。
699 0
H100 真的被封印了吗?我用 vLLM+FP8 把吞吐拉爆了
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
构建可观察的 AI 应用:从日志到推理链追踪
本文将探讨如何为 AI 应用构建可观测性(Observability)体系,让每一次推理都可追溯、可分析、可优化。
|
8月前
|
算法 数据可视化 异构计算
SparseGPT:大规模语言模型的一次性精确剪枝——论文解读
SparseGPT提出首个可高效剪枝百亿参数大模型的一次性精确方法,通过稀疏回归与近似求解器实现高稀疏度下仍保持精度,支持半结构化稀疏与量化联合压缩,显著降低推理成本。
777 3
SparseGPT:大规模语言模型的一次性精确剪枝——论文解读
|
8月前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
503 43