【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face

简介: 【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face

所解决的问题?

当前的语言模型Large Language Models (LLMs)缺乏处理复杂信息的能力,像视觉,语音这类信息就不能够很好的处理,这是一个语言模型能力缺陷上的问题。再一个是现实世界的很多问题可以拆分成子任务,通常需要多个模型之间相互协调配合。语言模型本身其实更擅长做Zero-Shot,或者是Few-Shot的任务,对于具体的任务并不如Fine-Turn的模型好。

作者将大语言模型作为中间件,去链接AI模型和语言模型,对AI模型进行规划、调度和合作。期望是具备二者的通用能力。

背景

目前存在的一些工作是训练多模态的大模型,或者给大模型加上一些工具插件来解决问题。作者提出的这个方法更加通用。

所采用的方法?

作者在这篇文章中,将large language models (LLMs)作为一个AI模型管理器,去管理各种各样的AI模型,从而解决跨领域,跨模态的复杂任务。

具体来说,就是来了一个用户的请求request,然后基于一些提前写好的prompt,HuggingGPT选择要采用哪个模型来去解决子任务,然后基于执行的结果做出响应。

整个HuggingGPT的处理过程可以分为4步:

  1. 任务规划(Task Planning): 理解用户的请求,并理解其意图,将其分为为可以被执行的子任务。
  2. 模型选择(Model Selection):基于AI模型描述和规划出来的子任务选择领域模型,或者称为专家模型(expert model)。
  3. 任务执行(Task Execution):调用这些AI模型,并执行拿到返回结果给ChatGPT。
  4. 回复生成(Response Generation):最终再次调用ChatGPT整合所有模型的预测结果,生成最终回复给用户。

上述4部分的具体细节为:

  1. 任务规划:一些基础的指令:任务ID:用于任务规划的ID区分;任务类型Task Type:像是图像、音频、文本等等;任务依赖:定义一些执行此任务之前的依赖,只有依赖任务都被执行,此任务才会被启动。任务参数:这些参数来自用户的request或者是依赖任务生成的。在此基础上还会给一些prompt demonstration。
  2. 模型选择:在做模型选择之前首先需要模型描述,这些模型描述都是来自Hugging Face本身的。由于模型太多,所有的模型描述全部输入的话,会超过prompt的长度限制,作者这里将其进行了任务分类,再依据下载次数排名,选择top-k个模型描述给到prompt中。
  3. 任务执行:在任务执行中最主要考虑的就是资源的调度,独立的任务可以并行执行。作者这里采用特定的符号<resource>去管理资源。

具体prompt的设计:

文中作者还给了一些demo,可以参考看一下。

取得的效果?

截至论文发表,HuggingGPT可以整合几百个(400+)模型,覆盖了24个任务,像分类、目标检测、分割、问题等等。

问题

这样的方法带来的问题就是,如果管理的AI模型比较多的话,需要好好设计prompt,尤其是AI模型的描述,就是这个AI模型到底能做什么样的事情。还存在一些限制,比如调用的时间开销、资源开销、max_token开销等等。

所出版信息?作者信息?

2023年,浙江大学和微软研究亚洲一起合作发表的一篇文章。

参考链接

  • 论文题目:HuggingGPT: Solving AI Tasks with ChatGPT andits Friends in Hugging Face
相关文章
|
1月前
|
人工智能 IDE Linux
chatgpt的ai编程工具
该内容是关于两个chatgpt的ai编程工具的安装和使用说明。Copilot的下载步骤包括在IDE的设置中搜索并安装插件,然后重启IDE并登录GitHub账户。使用时,通过写注释触发建议,用快捷键选择建议。启用或禁用Copilot可通过底部状态图标。另一个工具是Alibaba Cloud AI Coding Assistant (Cosy),同样在IDE的插件市场下载安装后重启。其详细使用方法建议参考官网。
31 0
|
2月前
|
人工智能 算法 异构计算
ChatGPT一年电费2亿元,AI咋这么费电?
【2月更文挑战第24天】ChatGPT一年电费2亿元,AI咋这么费电?
46 1
ChatGPT一年电费2亿元,AI咋这么费电?
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
|
3月前
|
人工智能 自然语言处理 前端开发
[AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯
[AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
|
3月前
|
人工智能 机器人 Go
飞书+ChatGPT搭建智能AI助手,无公网ip实现公网访问飞书聊天界面
飞书+ChatGPT搭建智能AI助手,无公网ip实现公网访问飞书聊天界面
159 0
|
4天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI超级个体:ChatGPT与AIGC实战指南
AI超级个体:ChatGPT与AIGC实战指南
|
4天前
|
机器学习/深度学习 敏捷开发 人工智能
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
21 0
|
18天前
|
人工智能 自然语言处理 小程序
OpenAI颠覆AI绘画!DALL·E 3与ChatGPT合作,细节展现令人震撼!
OpenAI颠覆AI绘画!DALL·E 3与ChatGPT合作,细节展现令人震撼!