新智元报道

编辑：LRS

【新智元导读】语言模型是打开AGI大门的关键钥匙。

人类所具有的智能，可以将一些最基础的能力，通过某种组合变成一种复杂能力，并可以用来解决复杂的、多步骤的任务。

这种能力对人工智能（AI）的发展来说同样重要，在迈向最终的通用人工智能（AGI）的过程中，除了开发大规模智能模型外，如何让这些模型具有「利用各种特定领域专家模型以解决复杂任务的能力」也同样重要。

在大型语言模型（LLMs）上取得的最新进展让我们看到了语言模型强大的学习和推理能力，有望成为未来AGI的接口以控制、执行外部模型以解决复杂任务。

最近，来自罗格斯大学的一个华人团队开源了一个AGI研究平台OpenAGI，专门用于提供复杂的、多步骤的任务，并辅助有特定任务的数据集、评估指标和各种可扩展的模型。

论文链接：https://arxiv.org/pdf/2304.04370.pdf

项目链接：https://github.com/agiresearch/OpenAGI

OpenAGI将复杂的任务制定为自然语言查询，并作为语言模型的输入；随后由语言模型进行选择、合成并执行OpenAGI提供的模型来解决该任务。

此外，文中还提出了一个从任务反馈中强化学习（RLTF）的机制，使用任务解决的结果作为反馈来提高语言模型的任务解决能力；即语言模型负责综合各种外部模型来解决复杂的任务，而RLTF则提供反馈来提高其任务解决能力，从而实现自我改进的人工智能的反馈循环机制。

研究人员认为，语言模型操作各种专家模型解决复杂任务的范式是实现AGI的一个很有前途的方法。

在实验部分，研究人员使用OpenAGI对几个成熟的语言模型进行了评估，其规模从7.7亿到1750亿参数不等。

初步研究结果表明，即使是规模较小的语言模型，当与适当的学习模式（如RLTF）配对时，也具有超越更大规模模型的潜力。

语言模型是AGI的入口

最近发布的大型语言模型（LLMs），如GPT-3、LLaMA、Flan-T5等都展现出了对自然语言的深入理解能力，并可以生成连贯的、上下文相关的回复，具有卓越的学习和推理能力，可以适用于选择、合成和执行外部专家模型以解决复杂的任务。

语言模型也并不局限于文本数据，同样可以应用在涉及多模态的复杂任务中，如图像和文本的处理，以及特定领域知识的整合；在理解和生成文本的过程中，语言模型起到至关重要的作用，可以帮助AI处理各种问题。

通过整合不同领域的知识和技能，开放领域模型合成（Open-domain Model Synthesis，OMS）具有推动人工通用智能（AGI）发展的潜力、使得人工智能能够解决各种各样的问题和任务。

虽然该领域已有研究人员进行了初步尝试，但仍有几个关键问题需要解决：

1、可扩展性（Extensibility），一些相关工作使用固定数量的模型，如WebGPT和 ToolFormer，导致很难在后续进一步扩展模型的能力；

2、非线性任务规划（ Nonlinear Task Planning）：目前的研究大多局限于用线性任务规划方案来解决问题，即每个子任务必须在下一个子任务开始之前完成，这种方式可能无法解决过于复杂的、涉及多模态的任务；

3、定量评估（Quantitative Evaluation）：许多现有的工作只提供了定性的结果（如HuggingGPT）只依靠人类的主观评价，很难快速、公正地评估LLM的规划能力，无法确定所采用的策略是否最优。

OpenAGI平台

OpenAGI平台的目标就是缓解上述三个局限性，其中包含多样化的特定领域专家模型和复杂的多步骤任务，支持单模态或多模态输入，并有相应的数据集作支撑。

OpenAGI的具体工作流程为：

1）选择自然语言任务描述和任务相关的数据集；

2）将任务描述作为输入送入大型语言模型以生成解决方案，可能需要将解决方案映射到功能模型名称，或使用约束生成直接生成模型名称；

3）选择和合成模型，并执行以处理数据样本；

4）评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。

模型与数据集

OpenAGI内的专家模型主要来自于Hugging Face的transformers和diffusers库、以及Github存储库。

OpenAGI的系统设计很灵活，用户可以自行接入领域任务与模型，目前包括：

语言相关的模型

视觉相关的模型

视觉-语言相关的模型

在数据集方面为了能够与各自模型的训练数据集保持一致或相似，主要包括：ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等；

在确定了原始数据集后，采用数据增强方法从不同的角度对数据集进行扩充，以构建复杂的、多步骤的任务，包括高斯模糊、高斯噪声、灰度、低分辨率、翻译、单词遮罩。

评估指标包括CLIP分数（图文相似度）、BERT分数（文本相似度）、ViT分数（视觉相似度）。

局限性

不过OpenAGI也进一步暴露了目前各种模型的局限性：

1. 分布外泛化（Out-of-Distribution Generalization）

因为特定领域的专家模型对训练数据的分布有强烈的依赖性，在泛化能力上可能十分有限，当处理来自不同来源的、表现出分布变化的图像时，原始模型序列变得无效了。

上图的例子中，在大多数情况下，只有少数颜色被模型准确地恢复，并且可能是不正确的；此外噪音和模糊的存在，对人类观察者来说仍然是高度可感知的。

2. 最优任务规划（Optimal Task Planning）

结合不同的模型来产生解决方案的方法有很多，可能使我们难以确定最佳的方法；并且对于一个给定的任务来说，有可能存在多个有效的解决方案，但每个解决方案的质量可能差别很大。

例如，上图中以不同的顺序执行相同的四个模型会导致明显不同的结果。与第一种方法相比，第二种方法的结果表现出明显更多的噪音和颜色不一致的情况。

因此，对于大型语言模型来说，从各种可能性中确定并实施最佳的任务计划是至关重要的

3. 非线性任务结构（Nonlinear Task Structures）

在模型执行过程中，一个模型可能需要一个以上的输入，而每个输入都需要由前一个模型产生，从而导致解决方案的非线性（树状）结构。

在这种情况下，采用非线性任务规划可以更有效地整合不同的输入，更有效地对模型进行并行处理以达到预期的结果。

然而，将这种非线性任务规划能力纳入大型语言性会带来更大的挑战，有可能超出语言模型的任务解决能力范围。

RLTF+非线性任务规划

为了解决「分布外泛化」和「最优任务规划」的问题，研究人员提出了从任务反馈中进行强化学习（Reinforcement Learning from Task Feedback，RLTF）的机制，基于在执行大型语言模型中设计的解决方案后从任务中获取的性能反馈，可以有效地完善语言模型的规划策略，从而形成了一个增强的、更具适应性的系统。