哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

简介: 《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》提出了一种新型基础模型Hammer,通过函数掩码技术显著提升了大型语言模型在工具调用方面的性能,减少了对特定命名约定的依赖,展现了强大的泛化能力和超越现有模型的表现。该研究已开源,旨在促进智能设备的本地AI功能发展。

在人工智能领域,大型语言模型(LLM)的崛起无疑为我们带来了前所未有的便利。然而,当这些模型需要与外部工具和API进行交互时,其性能往往会受到限制。为了解决这一问题,研究者们一直在探索如何提升LLM的工具调用能力。

最近,一篇名为《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》的论文在arXiv上发布,引起了广泛关注。该论文介绍了一种名为Hammer的新型基础模型,该模型在工具调用方面表现出了卓越的性能。

Hammer模型是由一个研究团队开发的,该团队由来自多个机构的研究人员组成。他们发现,现有的工具调用模型在性能上存在显著差异,这主要是由于它们对特定命名约定的依赖。为了解决这个问题,研究团队设计了Hammer模型,该模型采用了一种增强的数据集和函数掩码技术,以提高模型对无关函数的敏感性,并减少误导。

在实验中,Hammer模型不仅在性能上超越了更大的模型,还展示了在各种基准测试中的强大泛化能力。研究团队还开源了他们的贡献,包括一个用于无关性检测的专用数据集、一个用于增强泛化的微调框架以及Hammer模型本身。这些贡献为工具调用性能树立了新的标准。

Hammer模型的成功不仅在于其技术上的创新,还在于其对实际应用的潜在影响。随着越来越多的设备开始集成人工智能功能,对能够在本地运行并高效调用工具的模型的需求也在不断增长。Hammer模型的出现为这一领域提供了新的解决方案,有望推动智能设备的发展和普及。

然而,我们也应该看到,Hammer模型的成功并非没有挑战。首先,尽管它在各种基准测试中表现出色,但在实际应用中可能仍会遇到一些未预见的问题。其次,由于Hammer模型是一个基础模型,它可能需要进一步的微调和优化才能适应特定的应用场景。此外,随着人工智能技术的不断发展,新的模型和方法可能会不断涌现,Hammer模型需要不断更新和改进才能保持其竞争力。

论文地址:https://arxiv.org/abs/2410.04587

目录
相关文章
|
10月前
|
人工智能
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
【2月更文挑战第24天】微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
85 1
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
|
11天前
|
人工智能 JSON PyTorch
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。
158 8
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
|
13天前
|
数据采集 人工智能 监控
Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%
Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。
86 4
|
2月前
|
存储 人工智能 自然语言处理
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
185 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
|
15天前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
68 1
|
23天前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
43 5
|
3月前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
102 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
3月前
|
人工智能 自然语言处理 前端开发
CodeArena:在线 LLM 编程竞技场!用于测试不同开源 LLM 的编程能力,实时更新排行榜
CodeArena 是一个在线平台,用于测试和比较不同大型语言模型(LLM)的编程能力。通过实时显示多个 LLM 的代码生成过程和结果,帮助开发者选择适合的 LLM,并推动 LLM 技术的发展。
95 7
CodeArena:在线 LLM 编程竞技场!用于测试不同开源 LLM 的编程能力,实时更新排行榜
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2024:真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
69 13
|
6月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
120 2