华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一-阿里云开发者社区

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

2024-10-19 133 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE，一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据，显著提升大型语言模型（LLM）的功能调用能力。实验结果显示，使用ToolACE数据训练的80亿参数模型性能媲美GPT-4，在伯克利功能调用排行榜上获得开源第一。

大型语言模型（LLM）的功能调用能力在近年来受到了广泛关注。通过功能调用，LLM的应用边界得到了显著扩展。然而，高质量、多样化的训练数据对于LLM功能调用能力的培养至关重要。现实中，功能调用数据的收集和标注非常具有挑战性，而现有流水线生成的合成数据往往覆盖不全、准确性不足。

为了解决上述问题，华为诺亚方舟实验室联合中国科学技术大学等机构，提出了一种名为ToolACE的自动智能流水线。该流水线旨在生成准确、复杂、多样化的工具学习数据，以提升LLM的功能调用能力。

ToolACE的特点

1.自进化合成过程：ToolACE利用一种新颖的自进化合成过程，构建了一个包含26,507个多样化API的全面API池。这一过程使得生成的数据更加准确、复杂和多样化。

2.多智能体交互：在生成对话时，ToolACE通过多个智能体之间的交互来进行，这些交互由一个形式化的思维过程所引导。这种方式能够生成更加真实、自然的对话数据。

3.双重验证系统：为了确保数据的准确性，ToolACE实现了一个结合规则基和模型基检查的双重验证系统。这一系统能够有效地减少数据中的错误和噪声。

研究人员使用ToolACE生成的数据对LLM进行了训练，并在伯克利功能调用排行榜上进行了评估。实验结果表明，即使使用仅80亿参数的模型，在ToolACE数据上训练的模型也能够达到最先进的性能，与最新的GPT-4模型相当。

正面评价

1.创新性：ToolACE的自进化合成过程和多智能体交互机制是其最大的创新点，这些创新使得生成的数据更加准确、复杂和多样化。

2.实用性：ToolACE生成的数据在实际应用中表现出了良好的性能，能够与最新的GPT-4模型相媲美。这表明ToolACE在提升LLM功能调用能力方面具有实际应用价值。

3.可扩展性：ToolACE的API池包含了大量的多样化API，这使得其在不同的领域和任务中都具有广泛的应用潜力。

反面评价

1.数据质量的局限性：尽管ToolACE在数据生成方面做出了很多努力，但其生成的数据仍然可能存在一定的局限性。例如，某些特定领域的API可能没有被充分覆盖，或者生成的对话可能不够自然。

2.计算资源的需求：ToolACE的自进化合成过程和多智能体交互机制可能需要大量的计算资源，这可能会限制其在资源受限环境下的应用。

3.透明度和可解释性：ToolACE的自进化合成过程和多智能体交互机制可能缺乏一定的透明度和可解释性，这可能会影响其在实际应用中的可信度和可接受度。

论文链接：https://arxiv.org/abs/2409.00920

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

热门文章

最新文章

相关课程

相关电子书

相关实验场景