Meta开源用于数学等复杂推理AI Agent—HUSKY

简介: 【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)

近期,Meta AI团队发布了一项引人注目的研究,他们开源了一种名为HUSKY的AI Agent,旨在解决数学等复杂推理任务。

HUSKY是一种统一、开源的语言Agent,它能够通过学习在统一的操作空间中进行推理,从而解决各种复杂的任务,包括数值、表格和基于知识的推理。与大多数现有的Agent不同,HUSKY不是基于专有模型或针对特定任务(如数学或多跳问答)设计的,而是旨在解决广泛的复杂任务。

HUSKY的设计包括两个主要阶段:生成阶段和执行阶段。在生成阶段,HUSKY会生成下一个要执行的动作,以解决给定的任务。在执行阶段,HUSKY会使用专家模型执行该动作,并更新当前的解决方案状态。

为了实现这一目标,HUSKY团队确定了一套全面的操作本体,用于解决复杂任务,并收集了高质量的数据来训练执行这些操作的专家模型。这些专家模型包括各种不同的模型,如语言模型、数值推理模型和知识检索模型。

为了评估HUSKY的性能,研究人员在14个不同的评估数据集上进行了实验。这些数据集涵盖了各种不同的任务,包括数学问题、多跳问答和基于知识的推理。

实验结果表明,HUSKY在所有这些数据集上都表现出了出色的性能,超过了之前的语言Agent。此外,研究人员还引入了一个新的评估集——HUSKYQA,用于测试语言Agent在混合工具推理方面的能力,重点是检索缺失的知识和执行数值推理。

尽管HUSKY使用的是7B模型,但它在HUSKYQA上的性能与前沿的大型语言模型(如GPT-4)相匹配甚至超过了它们,这展示了HUSKY在解决复杂推理问题方面的有效性。

为了促进进一步的研究和应用,HUSKY团队已经将他们的代码和模型开源。这将使其他研究人员能够使用HUSKY来解决各种不同的任务,并根据他们的具体需求进行定制和扩展。

然而,尽管HUSKY在解决复杂推理任务方面取得了令人印象深刻的性能,但它仍然存在一些限制。首先,由于HUSKY的操作空间是统一的,它可能无法针对特定任务进行优化。其次,由于HUSKY需要使用专家模型来执行操作,它的性能取决于这些模型的质量和可用性。

论文地址:https://arxiv.org/abs/2406.06469

目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 测试技术
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
PsycoLLM 是合肥工业大学推出的中文心理大语言模型,基于高质量心理数据集训练,支持心理健康评估、多轮对话和情绪识别,为心理健康领域提供技术支持。
128 51
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
80 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
4天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
102 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
2天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
113 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
7天前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
62 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
6天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
43 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
8天前
|
人工智能 搜索推荐 前端开发
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。
75 17
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
|
7天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
58 37
|
6天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
53 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
8天前
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
75 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期

热门文章

最新文章