模拟试错（STE）法让7B大模型测试超GPT-4-阿里云开发者社区

模拟试错（STE）法让7B大模型测试超GPT-4

2024-03-15 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第24天】模拟试错（STE）法让7B大模型测试超GPT-4

在人工智能领域，模拟试错（STE）法的提出，为大型语言模型（LLMs）的能力提升开辟了新的道路。这种方法的核心在于模仿生物系统在学习使用工具过程中的试错机制，通过想象、实践和记忆三个关键环节，显著提高了LLMs在工具使用方面的准确性。这一突破性的进展，不仅为LLMs的应用提供了更广阔的前景，也为未来的人工智能研究指明了方向。

在自然界中，生物体通过不断尝试和错误，逐渐学会了使用各种工具。这一过程涉及到对环境的感知、对行为后果的反馈以及对成功经验的记忆。STE方法正是借鉴了这一自然学习过程，将其应用于LLMs的训练中。通过与API的交互，LLMs能够逐步积累对工具的理解和使用经验，从而在实际应用中更加准确和可靠。

在实验中，研究者们使用了ToolBench中的50个API作为测试平台，这些API覆盖了搜索引擎、特定领域信息检索以及问题解决等多个方面。通过对比STE方法与传统的工具学习策略，如ToolLLaMAv2，实验结果显示STE方法在提升LLMs工具使用正确率方面取得了显著成效。特别是Mistral-Instruct-7B模型，在STE方法的帮助下，其工具使用的正确率提升至76.8%，超越了GPT-4的60.8%。

STE方法的成功，不仅体现在提升了LLMs的工具使用能力，更在于其能够有效解决新工具不断添加时可能出现的灾难性遗忘问题。通过经验重放策略，模型能够在学习新工具的同时，保留之前获得的技能，实现了持续学习和技能积累的良性循环。

然而，STE方法尽管取得了显著的成果，但仍存在一些局限性。首先，探索和利用阶段目前依赖于强大模型的支持，未来研究可以考虑如何减少对强模型的依赖，使STE方法更加高效和普适。其次，STE方法在处理多个工具的组合使用和复杂查询规划方面还有待进一步的研究和优化。此外，基于示例的微调方法在教授模型何时不使用工具方面存在挑战，未来的工作可以通过引入负面示例或在训练中加入API的部分来改进这一问题。

论文地址：https://arxiv.org/pdf/2403.04746.pdf

模拟试错（STE）法让7B大模型测试超GPT-4

热门文章

最新文章

相关课程

相关电子书

相关实验场景