华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一

简介:  【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。

大型语言模型(LLM)的功能调用能力在近年来受到了广泛关注。通过功能调用,LLM的应用边界得到了显著扩展。然而,高质量、多样化的训练数据对于LLM功能调用能力的培养至关重要。现实中,功能调用数据的收集和标注非常具有挑战性,而现有流水线生成的合成数据往往覆盖不全、准确性不足。

为了解决上述问题,华为诺亚方舟实验室联合中国科学技术大学等机构,提出了一种名为ToolACE的自动智能流水线。该流水线旨在生成准确、复杂、多样化的工具学习数据,以提升LLM的功能调用能力。

ToolACE的特点

1.自进化合成过程:ToolACE利用一种新颖的自进化合成过程,构建了一个包含26,507个多样化API的全面API池。这一过程使得生成的数据更加准确、复杂和多样化。

2.多智能体交互:在生成对话时,ToolACE通过多个智能体之间的交互来进行,这些交互由一个形式化的思维过程所引导。这种方式能够生成更加真实、自然的对话数据。

3.双重验证系统:为了确保数据的准确性,ToolACE实现了一个结合规则基和模型基检查的双重验证系统。这一系统能够有效地减少数据中的错误和噪声。

研究人员使用ToolACE生成的数据对LLM进行了训练,并在伯克利功能调用排行榜上进行了评估。实验结果表明,即使使用仅80亿参数的模型,在ToolACE数据上训练的模型也能够达到最先进的性能,与最新的GPT-4模型相当。

正面评价

1.创新性:ToolACE的自进化合成过程和多智能体交互机制是其最大的创新点,这些创新使得生成的数据更加准确、复杂和多样化。

2.实用性:ToolACE生成的数据在实际应用中表现出了良好的性能,能够与最新的GPT-4模型相媲美。这表明ToolACE在提升LLM功能调用能力方面具有实际应用价值。

3.可扩展性:ToolACE的API池包含了大量的多样化API,这使得其在不同的领域和任务中都具有广泛的应用潜力。

反面评价

1.数据质量的局限性:尽管ToolACE在数据生成方面做出了很多努力,但其生成的数据仍然可能存在一定的局限性。例如,某些特定领域的API可能没有被充分覆盖,或者生成的对话可能不够自然。

2.计算资源的需求:ToolACE的自进化合成过程和多智能体交互机制可能需要大量的计算资源,这可能会限制其在资源受限环境下的应用。

3.透明度和可解释性:ToolACE的自进化合成过程和多智能体交互机制可能缺乏一定的透明度和可解释性,这可能会影响其在实际应用中的可信度和可接受度。

论文链接:https://arxiv.org/abs/2409.00920

目录
相关文章
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
521 17
|
8月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
10月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
10月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
681 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
12月前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
9599 10
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
910 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
编解码 开发者
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
401 3