近期,Meta AI团队发布了一项引人注目的研究,他们开源了一种名为HUSKY的AI Agent,旨在解决数学等复杂推理任务。
HUSKY是一种统一、开源的语言Agent,它能够通过学习在统一的操作空间中进行推理,从而解决各种复杂的任务,包括数值、表格和基于知识的推理。与大多数现有的Agent不同,HUSKY不是基于专有模型或针对特定任务(如数学或多跳问答)设计的,而是旨在解决广泛的复杂任务。
HUSKY的设计包括两个主要阶段:生成阶段和执行阶段。在生成阶段,HUSKY会生成下一个要执行的动作,以解决给定的任务。在执行阶段,HUSKY会使用专家模型执行该动作,并更新当前的解决方案状态。
为了实现这一目标,HUSKY团队确定了一套全面的操作本体,用于解决复杂任务,并收集了高质量的数据来训练执行这些操作的专家模型。这些专家模型包括各种不同的模型,如语言模型、数值推理模型和知识检索模型。
为了评估HUSKY的性能,研究人员在14个不同的评估数据集上进行了实验。这些数据集涵盖了各种不同的任务,包括数学问题、多跳问答和基于知识的推理。
实验结果表明,HUSKY在所有这些数据集上都表现出了出色的性能,超过了之前的语言Agent。此外,研究人员还引入了一个新的评估集——HUSKYQA,用于测试语言Agent在混合工具推理方面的能力,重点是检索缺失的知识和执行数值推理。
尽管HUSKY使用的是7B模型,但它在HUSKYQA上的性能与前沿的大型语言模型(如GPT-4)相匹配甚至超过了它们,这展示了HUSKY在解决复杂推理问题方面的有效性。
为了促进进一步的研究和应用,HUSKY团队已经将他们的代码和模型开源。这将使其他研究人员能够使用HUSKY来解决各种不同的任务,并根据他们的具体需求进行定制和扩展。
然而,尽管HUSKY在解决复杂推理任务方面取得了令人印象深刻的性能,但它仍然存在一些限制。首先,由于HUSKY的操作空间是统一的,它可能无法针对特定任务进行优化。其次,由于HUSKY需要使用专家模型来执行操作,它的性能取决于这些模型的质量和可用性。