新智元报道
编辑:LRS
【新智元导读】语言模型是打开AGI大门的关键钥匙。
人类所具有的智能,可以将一些最基础的能力,通过某种组合变成一种复杂能力,并可以用来解决复杂的、多步骤的任务。
这种能力对人工智能(AI)的发展来说同样重要,在迈向最终的通用人工智能(AGI)的过程中,除了开发大规模智能模型外,如何让这些模型具有「利用各种特定领域专家模型以解决复杂任务的能力」也同样重要。
在大型语言模型(LLMs)上取得的最新进展让我们看到了语言模型强大的学习和推理能力,有望成为未来AGI的接口以控制、执行外部模型以解决复杂任务。
最近,来自罗格斯大学的一个华人团队开源了一个AGI研究平台OpenAGI,专门用于提供复杂的、多步骤的任务,并辅助有特定任务的数据集、评估指标和各种可扩展的模型。
论文链接:https://arxiv.org/pdf/2304.04370.pdf
项目链接:https://github.com/agiresearch/OpenAGI
OpenAGI将复杂的任务制定为自然语言查询,并作为语言模型的输入;随后由语言模型进行选择、合成并执行OpenAGI提供的模型来解决该任务。
此外,文中还提出了一个从任务反馈中强化学习(RLTF)的机制,使用任务解决的结果作为反馈来提高语言模型的任务解决能力;即语言模型负责综合各种外部模型来解决复杂的任务,而RLTF则提供反馈来提高其任务解决能力,从而实现自我改进的人工智能的反馈循环机制。
研究人员认为,语言模型操作各种专家模型解决复杂任务的范式是实现AGI的一个很有前途的方法。
在实验部分,研究人员使用OpenAGI对几个成熟的语言模型进行了评估,其规模从7.7亿到1750亿参数不等。
初步研究结果表明,即使是规模较小的语言模型,当与适当的学习模式(如RLTF)配对时,也具有超越更大规模模型的潜力。
语言模型是AGI的入口
最近发布的大型语言模型(LLMs),如GPT-3、LLaMA、Flan-T5等都展现出了对自然语言的深入理解能力,并可以生成连贯的、上下文相关的回复,具有卓越的学习和推理能力,可以适用于选择、合成和执行外部专家模型以解决复杂的任务。
语言模型也并不局限于文本数据,同样可以应用在涉及多模态的复杂任务中,如图像和文本的处理,以及特定领域知识的整合;在理解和生成文本的过程中,语言模型起到至关重要的作用,可以帮助AI处理各种问题。
通过整合不同领域的知识和技能,开放领域模型合成(Open-domain Model Synthesis,OMS)具有推动人工通用智能(AGI)发展的潜力、 使得人工智能能够解决各种各样的问题和任务。
虽然该领域已有研究人员进行了初步尝试,但仍有几个关键问题需要解决:
1、可扩展性(Extensibility), 一些相关工作使用固定数量的模型,如WebGPT和 ToolFormer,导致很难在后续进一步扩展模型的能力;
2、非线性任务规划( Nonlinear Task Planning):目前的研究大多局限于用线性任务规划方案来解决问题,即每个子任务必须在下一个子任务开始之前完成,这种方式可能无法解决过于复杂的、涉及多模态的任务;
3、定量评估(Quantitative Evaluation):许多现有的工作只提供了定性的结果(如HuggingGPT)只依靠人类的主观评价,很难快速、公正地评估LLM的规划能力,无法确定所采用的策略是否最优。
OpenAGI平台
OpenAGI平台的目标就是缓解上述三个局限性,其中包含多样化的特定领域专家模型和复杂的多步骤任务,支持单模态或多模态输入,并有相应的数据集作支撑。
OpenAGI的具体工作流程为:
1)选择自然语言任务描述和任务相关的数据集;
2)将任务描述作为输入送入大型语言模型以生成解决方案,可能需要将解决方案映射到功能模型名称,或使用约束生成直接生成模型名称;
3)选择和合成模型,并执行以处理数据样本;
4)评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。
模型与数据集
OpenAGI内的专家模型主要来自于Hugging Face的transformers和diffusers库、以及Github存储库。
OpenAGI的系统设计很灵活,用户可以自行接入领域任务与模型,目前包括:
语言相关的模型
视觉相关的模型
视觉-语言相关的模型
在数据集方面为了能够与各自模型的训练数据集保持一致或相似,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;
在确定了原始数据集后,采用数据增强方法从不同的角度对数据集进行扩充,以构建复杂的、多步骤的任务,包括高斯模糊、高斯噪声、灰度、低分辨率、翻译、单词遮罩。
评估指标包括CLIP分数(图文相似度)、BERT分数(文本相似度)、ViT分数(视觉相似度)。
局限性
不过OpenAGI也进一步暴露了目前各种模型的局限性:
1. 分布外泛化(Out-of-Distribution Generalization)
因为特定领域的专家模型对训练数据的分布有强烈的依赖性,在泛化能力上可能十分有限,当处理来自不同来源的、表现出分布变化的图像时,原始模型序列变得无效了。
上图的例子中,在大多数情况下,只有少数颜色被模型准确地恢复,并且可能是不正确的;此外噪音和模糊的存在,对人类观察者来说仍然是高度可感知的。
2. 最优任务规划(Optimal Task Planning)
结合不同的模型来产生解决方案的方法有很多,可能使我们难以确定最佳的方法;并且对于一个给定的任务来说,有可能存在多个有效的解决方案,但每个解决方案的质量可能差别很大。
例如,上图中以不同的顺序执行相同的四个模型会导致明显不同的结果。与第一种方法相比,第二种方法的结果表现出明显更多的噪音和颜色不一致的情况。
因此,对于大型语言模型来说,从各种可能性中确定并实施最佳的任务计划是至关重要的
3. 非线性任务结构(Nonlinear Task Structures)
在模型执行过程中,一个模型可能需要一个以上的输入,而每个输入都需要由前一个模型产生,从而导致解决方案的非线性(树状)结构。
在这种情况下,采用非线性任务规划可以更有效地整合不同的输入,更有效地对模型进行并行处理以达到预期的结果。
然而,将这种非线性任务规划能力纳入大型语言性会带来更大的挑战,有可能超出语言模型的任务解决能力范围。
RLTF+非线性任务规划
为了解决「分布外泛化」和「最优任务规划」的问题,研究人员提出了从任务反馈中进行强化学习(Reinforcement Learning from Task Feedback,RLTF)的机制,基于在执行大型语言模型中设计的解决方案后从任务中获取的性能反馈,可以有效地完善语言模型的规划策略,从而形成了一个增强的、更具适应性的系统。
事实上,在面对现实世界的任务时,仅仅依靠输入文本的学习对大型语言模型来说是不够的;任务反馈提供了额外的信息,将LLM的学习轨迹引向改进且有效的解决方案。
对于「非线性任务结构」问题,研究人员提出了非线性任务规划,利用beam search作为一种有效的半自回归解码方法,在每个解码步骤中,不同的假设(hypotheses)被视为不同输入的平行可操作解决方案,而非相互竞争的假设。
为了达到这个目的,语言模型必须满足三个条件:1)只生成模型名称,没有无关的标记;2)生成有效的模型序列;3)必要时为不同的输入生成并行的模型序列。
如果一个任务需要对多个输入进行并行处理,如文本和图像,那么在生成时,一个以文本为输入的可操作方案和另一个以图像为输入的方案将被生成并并行地执行。
实验结果
与LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零样本和少样本学习设置中都表现出优越的性能,在BERT评分、ViT评分和整体性能中都取得了更高的评分。
LLaMA-7b虽然表现不如GPT-3.5-turbo,但与它的零样本学习性能相比,在少样本学习中表现出更好的整体性能;不过在相同设置下,其性能仍远低于GPT-3.5-turbo。
与零样本和少样本学习策略相比,使用微调或来自任务反馈的强化学习(RLTF)时,Flan-T5-Large展现出明显的性能提升。
在进一步的分析中可以发现,在零样本的情况下,大多数语言模型都很难生成有效的任务规划,更不用说最佳解决方案;特别是,GPT-3.5倾向于产生重复的内容,随后映射到相同的模型名称。
同时,LLaMA-7b和Flan-T5-Large受制于它们的零样本能力,同样未能生成一个合理的计划。
在少样本的设置中,加入了几个手动标注的任务计划作为指导生成的指令后,可以看到任务计划的质量得到了显著的改善。
三个语言模型都能在短时间内生成合理的规划,与所提供的例子在语义上相似的解决方案。
参考资料:https://github.com/agiresearch/OpenAGI