少即是多!10亿参数小巨人击败ChatGPT

简介: 【7月更文挑战第9天】Salesforce AI Research团队的APIGen提出了一种自动化方法,生成可验证的函数调用数据集,用于提升LLMs的微调。使用APIGen,即使10亿参数的模型也能在功能调用基准上超越GPT-4等大模型。发布的60K数据集旨在促进该领域的研究。尽管目前局限于Python和REST API,APIGen展示了小模型如何通过高质量数据挑战大模型,为语言模型的效率提升开辟新途径。[论文链接](https://arxiv.org/pdf/2406.18518)

最近,一篇名为"APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets"的论文引起了广泛关注。该论文提出了一种名为APIGen的自动化数据生成管道,旨在为函数调用应用生成可验证的高质量数据集。这个研究项目由Salesforce AI Research的团队完成,他们使用APIGen收集了3,673个可执行的API,涵盖了21个不同类别,以生成各种函数调用数据集。

该研究的目的是解决当前函数调用代理模型在实际应用中面临的挑战。这些模型,如GPT-4、Gemini和Mistral,已经发展到不仅能理解和生成类似人类的文本,还能根据自然语言指令执行功能性API调用。然而,这些模型的部署往往受到训练数据质量的限制。当前的数据集通常是静态的,缺乏全面的验证,导致模型在实际应用中的微调可能存在潜在的不准确性和低效率。

为了解决这些挑战,研究团队提出了APIGen框架。该框架旨在通过提供高质量、多样化的数据集来促进函数调用大型语言模型(LLMs)的微调,这些数据集更好地反映了真实世界API使用的多样性和复杂性。每个生成的数据点都经过了严格的多阶段验证过程:格式检查、实际函数执行和语义验证,以确保其可靠性和正确性。

研究团队使用APIGen生成的数据集对函数调用模型进行了微调。结果显示,即使只有70亿参数,这些模型也能在Berkeley函数调用基准测试中实现最先进的性能,超过了多个GPT-4模型。此外,他们的10亿参数模型也表现出色,超过了GPT-3.5-Turbo和Claude-3 Haiku。

研究团队还发布了一个包含60,000个高质量条目的数据集,以促进函数调用代理领域的发展。这个大规模的合成数据集旨在促进进一步的研究和开发,为研究人员和开发人员提供训练和测试其模型的基础。

然而,APIGen框架和生成的数据集也存在一些限制。目前,该框架和数据集只考虑了REST API和Python函数。此外,虽然APIGen是一个通用框架,但目前只实现了单轮函数调用的生成过程。未来的工作将重点扩展APIGen以支持更多场景、编程语言和API。

尽管存在这些限制,但APIGen框架和生成的数据集代表了在开发高效、有效的函数调用代理方面迈出了重要一步。通过关注数据质量和多样性,研究团队已经能够显著提高模型的函数调用能力,甚至使较小的模型能够与更大的模型相竞争。这为开发更高效、更强大的语言模型打开了新的可能性,特别是在代理工具使用领域。

论文地址:https://arxiv.org/pdf/2406.18518

目录
相关文章
|
JSON 自然语言处理 物联网
基于PaddleNLP的ChatGLM-6B模型lora微调实现Data-To-Text 硬约束下的受控文本生成
基于PaddleNLP的ChatGLM-6B模型lora微调实现Data-To-Text 硬约束下的受控文本生成
554 0
|
IDE Unix 编译器
一:《初学C语言》— C语言常见概念
在本篇文章中,详细讲述了C语言的常见概念。意在能够让读者初步了解C语言,为后续C语言的学习做铺垫
395 5
一:《初学C语言》—  C语言常见概念
|
算法 机器人 Unix
代码背后的女性:突破性别壁垒的技术先驱
代码背后的女性:突破性别壁垒的技术先驱
396 1
|
存储 C语言 C++
C++中STL常用容器(vector、deque、list、map、set)一文带你了解
C++中STL常用容器(vector、deque、list、map、set)一文带你了解
490 0
|
Kubernetes 应用服务中间件 nginx
使用kubeadm搭建生产环境的多master节点k8s高可用集群
使用kubeadm搭建生产环境的多master节点k8s高可用集群
1154 0
|
Kubernetes 应用服务中间件 开发工具
一文教会你,如何通过kubeadm,在生产环境部署K8S高可用集群(一)
一文教会你,如何通过kubeadm,在生产环境部署K8S高可用集群(一)
3222 0
|
机器学习/深度学习 并行计算 数据可视化
深度学习经典网络模型汇总——LeNet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet【对卷积池化后特征图变化有详细讲解】
深度学习经典网络模型汇总——LeNet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet【对卷积池化后特征图变化有详细讲解】
1136 0
深度学习经典网络模型汇总——LeNet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet【对卷积池化后特征图变化有详细讲解】
|
存储 弹性计算 运维
阿里云电脑无影云桌面收费标准(CPU内存/云盘/互联网带宽)
阿里云电脑无影云桌面收费标准(CPU内存/云盘/互联网带宽)阿里云无影云电脑配置具体价格表,无影云桌面4核8G企业办公型云电脑可以免费使用3个月,无影云电脑地域不同价格不同,无影云电脑价格是由云桌面配置、云盘价格、互联网访问带宽价格、AD Connector 价格、桌面组共用桌面session 价格等费用组成
1942 0
|
机器学习/深度学习 存储 缓存
CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络
点云三维数据处理是自动驾驶,场景理解和机器人中的基本操作。点云包含无序点,离散描述三维空间中的物体表面。与基于网格的2D图像不同,它们是分布不规则和排列不变的,这导致了算法设计方面的非常规挑战。
1109 0
|
人工智能 缓存 算法
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
532 0