少即是多！10亿参数小巨人击败ChatGPT-阿里云开发者社区

少即是多！10亿参数小巨人击败ChatGPT

2024-07-10 65

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第9天】Salesforce AI Research团队的APIGen提出了一种自动化方法，生成可验证的函数调用数据集，用于提升LLMs的微调。使用APIGen，即使10亿参数的模型也能在功能调用基准上超越GPT-4等大模型。发布的60K数据集旨在促进该领域的研究。尽管目前局限于Python和REST API，APIGen展示了小模型如何通过高质量数据挑战大模型，为语言模型的效率提升开辟新途径。[论文链接](https://arxiv.org/pdf/2406.18518)

最近，一篇名为"APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets"的论文引起了广泛关注。该论文提出了一种名为APIGen的自动化数据生成管道，旨在为函数调用应用生成可验证的高质量数据集。这个研究项目由Salesforce AI Research的团队完成，他们使用APIGen收集了3,673个可执行的API，涵盖了21个不同类别，以生成各种函数调用数据集。

该研究的目的是解决当前函数调用代理模型在实际应用中面临的挑战。这些模型，如GPT-4、Gemini和Mistral，已经发展到不仅能理解和生成类似人类的文本，还能根据自然语言指令执行功能性API调用。然而，这些模型的部署往往受到训练数据质量的限制。当前的数据集通常是静态的，缺乏全面的验证，导致模型在实际应用中的微调可能存在潜在的不准确性和低效率。

为了解决这些挑战，研究团队提出了APIGen框架。该框架旨在通过提供高质量、多样化的数据集来促进函数调用大型语言模型（LLMs）的微调，这些数据集更好地反映了真实世界API使用的多样性和复杂性。每个生成的数据点都经过了严格的多阶段验证过程：格式检查、实际函数执行和语义验证，以确保其可靠性和正确性。

研究团队使用APIGen生成的数据集对函数调用模型进行了微调。结果显示，即使只有70亿参数，这些模型也能在Berkeley函数调用基准测试中实现最先进的性能，超过了多个GPT-4模型。此外，他们的10亿参数模型也表现出色，超过了GPT-3.5-Turbo和Claude-3 Haiku。

研究团队还发布了一个包含60,000个高质量条目的数据集，以促进函数调用代理领域的发展。这个大规模的合成数据集旨在促进进一步的研究和开发，为研究人员和开发人员提供训练和测试其模型的基础。

然而，APIGen框架和生成的数据集也存在一些限制。目前，该框架和数据集只考虑了REST API和Python函数。此外，虽然APIGen是一个通用框架，但目前只实现了单轮函数调用的生成过程。未来的工作将重点扩展APIGen以支持更多场景、编程语言和API。

尽管存在这些限制，但APIGen框架和生成的数据集代表了在开发高效、有效的函数调用代理方面迈出了重要一步。通过关注数据质量和多样性，研究团队已经能够显著提高模型的函数调用能力，甚至使较小的模型能够与更大的模型相竞争。这为开发更高效、更强大的语言模型打开了新的可能性，特别是在代理工具使用领域。

论文地址：https://arxiv.org/pdf/2406.18518

少即是多！10亿参数小巨人击败ChatGPT

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

少即是多！10亿参数小巨人击败ChatGPT

热门文章

最新文章

相关课程

相关电子书

相关实验场景