Meta开源用于数学等复杂推理AI Agent—HUSKY-阿里云开发者社区

Meta开源用于数学等复杂推理AI Agent—HUSKY

2024-08-19 67

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第19天】Meta AI团队开源了HUSKY，一种统一的AI代理，专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理，涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段，利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试，HUSKY展现出超越同类代理的性能，尤其是在新提出的HUSKYQA评估集中，其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开，以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)

近期，Meta AI团队发布了一项引人注目的研究，他们开源了一种名为HUSKY的AI Agent，旨在解决数学等复杂推理任务。

HUSKY是一种统一、开源的语言Agent，它能够通过学习在统一的操作空间中进行推理，从而解决各种复杂的任务，包括数值、表格和基于知识的推理。与大多数现有的Agent不同，HUSKY不是基于专有模型或针对特定任务（如数学或多跳问答）设计的，而是旨在解决广泛的复杂任务。

HUSKY的设计包括两个主要阶段：生成阶段和执行阶段。在生成阶段，HUSKY会生成下一个要执行的动作，以解决给定的任务。在执行阶段，HUSKY会使用专家模型执行该动作，并更新当前的解决方案状态。

为了实现这一目标，HUSKY团队确定了一套全面的操作本体，用于解决复杂任务，并收集了高质量的数据来训练执行这些操作的专家模型。这些专家模型包括各种不同的模型，如语言模型、数值推理模型和知识检索模型。

为了评估HUSKY的性能，研究人员在14个不同的评估数据集上进行了实验。这些数据集涵盖了各种不同的任务，包括数学问题、多跳问答和基于知识的推理。

实验结果表明，HUSKY在所有这些数据集上都表现出了出色的性能，超过了之前的语言Agent。此外，研究人员还引入了一个新的评估集——HUSKYQA，用于测试语言Agent在混合工具推理方面的能力，重点是检索缺失的知识和执行数值推理。

尽管HUSKY使用的是7B模型，但它在HUSKYQA上的性能与前沿的大型语言模型（如GPT-4）相匹配甚至超过了它们，这展示了HUSKY在解决复杂推理问题方面的有效性。

为了促进进一步的研究和应用，HUSKY团队已经将他们的代码和模型开源。这将使其他研究人员能够使用HUSKY来解决各种不同的任务，并根据他们的具体需求进行定制和扩展。

然而，尽管HUSKY在解决复杂推理任务方面取得了令人印象深刻的性能，但它仍然存在一些限制。首先，由于HUSKY的操作空间是统一的，它可能无法针对特定任务进行优化。其次，由于HUSKY需要使用专家模型来执行操作，它的性能取决于这些模型的质量和可用性。

论文地址：https://arxiv.org/abs/2406.06469