图 3 显示了在任务之间存在资源依赖关系时 HuggingGPT 的工作流程。在这种情况下,HuggingGPT 可以根据用户的抽象请求解析出具体的任务,包括姿态检测、图像描述等。此外,HuggingGPT 成功识别出任务 3 与任务 1 和 2 之间的依赖关系,并在依赖任务完成后将任务 1 和 2 的推理结果注入到任务 3 的输入参数中。
图 4 展示了 HuggingGPT 在音频和视频模态上的对话能力。
图 5 显示了 HuggingGPT 集成多个用户输入资源以执行简单推理。
该研究还在多模态任务上测试了 HuggingGPT,如下图所示。在大型语言模型和专家模型的配合下,HuggingGPT 可以解决语言、图像、音频、视频等多种模态,包含了检测、生成、分类和问答等多种形式的任务。
除了上述简单任务,HuggingGPT 还能完成更为复杂的任务。图 8 演示了 HuggingGPT 在多轮对话场景中处理复杂任务的能力。
图 9 显示,对于一个简单的尽可能详细地描述图像的请求,HuggingGPT 可以将其扩展为五个相关任务,即图像字幕、图像分类、物体检测、分割和视觉问答。HuggingGPT 为每个任务分配专家模型,这些模型从 LLM 的不同方面提供与图像相关的信息。最后,LLM 将这些信息进行整合,并做出全面而详细的描述。
这项研究的发布,也让网友感叹,AGI 似乎即将冲出开源社区。
还有人将其比喻为公司经理,评论道「HuggingGPT 有点像现实世界中的场景,公司有一群超强的工程师,在各个专业能力超群,现在有一个经理把他们管理起来,当有人有需求,那么这个经理就会分析需求,然后分给相应的工程师去做,最后合并在一起再返回给用户。」
还有人盛赞 HuggingGPT 是一个具有革命性的系统,其利用语言的力量来连接和管理来自不同领域和模态的现有 AI 模型,为实现 AGI 铺平了道路。
参考链接:https://twitter.com/search?q=HuggingGPT&src=typed_query&f=top