大型语言模型(LLM)的功能调用能力在近年来受到了广泛关注。通过功能调用,LLM的应用边界得到了显著扩展。然而,高质量、多样化的训练数据对于LLM功能调用能力的培养至关重要。现实中,功能调用数据的收集和标注非常具有挑战性,而现有流水线生成的合成数据往往覆盖不全、准确性不足。
为了解决上述问题,华为诺亚方舟实验室联合中国科学技术大学等机构,提出了一种名为ToolACE的自动智能流水线。该流水线旨在生成准确、复杂、多样化的工具学习数据,以提升LLM的功能调用能力。
ToolACE的特点
1.自进化合成过程:ToolACE利用一种新颖的自进化合成过程,构建了一个包含26,507个多样化API的全面API池。这一过程使得生成的数据更加准确、复杂和多样化。
2.多智能体交互:在生成对话时,ToolACE通过多个智能体之间的交互来进行,这些交互由一个形式化的思维过程所引导。这种方式能够生成更加真实、自然的对话数据。
3.双重验证系统:为了确保数据的准确性,ToolACE实现了一个结合规则基和模型基检查的双重验证系统。这一系统能够有效地减少数据中的错误和噪声。
研究人员使用ToolACE生成的数据对LLM进行了训练,并在伯克利功能调用排行榜上进行了评估。实验结果表明,即使使用仅80亿参数的模型,在ToolACE数据上训练的模型也能够达到最先进的性能,与最新的GPT-4模型相当。
正面评价
1.创新性:ToolACE的自进化合成过程和多智能体交互机制是其最大的创新点,这些创新使得生成的数据更加准确、复杂和多样化。
2.实用性:ToolACE生成的数据在实际应用中表现出了良好的性能,能够与最新的GPT-4模型相媲美。这表明ToolACE在提升LLM功能调用能力方面具有实际应用价值。
3.可扩展性:ToolACE的API池包含了大量的多样化API,这使得其在不同的领域和任务中都具有广泛的应用潜力。
反面评价
1.数据质量的局限性:尽管ToolACE在数据生成方面做出了很多努力,但其生成的数据仍然可能存在一定的局限性。例如,某些特定领域的API可能没有被充分覆盖,或者生成的对话可能不够自然。
2.计算资源的需求:ToolACE的自进化合成过程和多智能体交互机制可能需要大量的计算资源,这可能会限制其在资源受限环境下的应用。
3.透明度和可解释性:ToolACE的自进化合成过程和多智能体交互机制可能缺乏一定的透明度和可解释性,这可能会影响其在实际应用中的可信度和可接受度。