罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺



 新智元报道  

编辑:LRS

【新智元导读】语言模型是打开AGI大门的关键钥匙。


人类所具有的智能,可以将一些最基础的能力,通过某种组合变成一种复杂能力,并可以用来解决复杂的、多步骤的任务。


这种能力对人工智能(AI)的发展来说同样重要,在迈向最终的通用人工智能(AGI)的过程中,除了开发大规模智能模型外,如何让这些模型具有「利用各种特定领域专家模型以解决复杂任务的能力」也同样重要。


在大型语言模型(LLMs)上取得的最新进展让我们看到了语言模型强大的学习和推理能力,有望成为未来AGI的接口以控制、执行外部模型以解决复杂任务


最近,来自罗格斯大学的一个华人团队开源了一个AGI研究平台OpenAGI,专门用于提供复杂的、多步骤的任务,并辅助有特定任务的数据集、评估指标和各种可扩展的模型。


论文链接:https://arxiv.org/pdf/2304.04370.pdf

项目链接:https://github.com/agiresearch/OpenAGI


OpenAGI将复杂的任务制定为自然语言查询,并作为语言模型的输入;随后由语言模型进行选择、合成并执行OpenAGI提供的模型来解决该任务。


此外,文中还提出了一个从任务反馈中强化学习(RLTF)的机制,使用任务解决的结果作为反馈来提高语言模型的任务解决能力;即语言模型负责综合各种外部模型来解决复杂的任务,而RLTF则提供反馈来提高其任务解决能力,从而实现自我改进的人工智能的反馈循环机制


研究人员认为,语言模型操作各种专家模型解决复杂任务的范式是实现AGI的一个很有前途的方法。


在实验部分,研究人员使用OpenAGI对几个成熟的语言模型进行了评估,其规模从7.7亿到1750亿参数不等。


初步研究结果表明,即使是规模较小的语言模型,当与适当的学习模式(如RLTF)配对时,也具有超越更大规模模型的潜力


语言模型是AGI的入口


最近发布的大型语言模型(LLMs),如GPT-3、LLaMA、Flan-T5等都展现出了对自然语言的深入理解能力,并可以生成连贯的、上下文相关的回复,具有卓越的学习和推理能力,可以适用于选择、合成和执行外部专家模型以解决复杂的任务。


语言模型也并不局限于文本数据,同样可以应用在涉及多模态的复杂任务中,如图像和文本的处理,以及特定领域知识的整合;在理解和生成文本的过程中,语言模型起到至关重要的作用,可以帮助AI处理各种问题。


通过整合不同领域的知识和技能,开放领域模型合成(Open-domain Model Synthesis,OMS)具有推动人工通用智能(AGI)发展的潜力、 使得人工智能能够解决各种各样的问题和任务。


虽然该领域已有研究人员进行了初步尝试,但仍有几个关键问题需要解决:


1、可扩展性(Extensibility), 一些相关工作使用固定数量的模型,如WebGPT和 ToolFormer,导致很难在后续进一步扩展模型的能力;


2、非线性任务规划( Nonlinear Task Planning):目前的研究大多局限于用线性任务规划方案来解决问题,即每个子任务必须在下一个子任务开始之前完成,这种方式可能无法解决过于复杂的、涉及多模态的任务;


3、定量评估(Quantitative Evaluation):许多现有的工作只提供了定性的结果(如HuggingGPT)只依靠人类的主观评价,很难快速、公正地评估LLM的规划能力,无法确定所采用的策略是否最优。


OpenAGI平台


OpenAGI平台的目标就是缓解上述三个局限性,其中包含多样化的特定领域专家模型和复杂的多步骤任务,支持单模态或多模态输入,并有相应的数据集作支撑。



OpenAGI的具体工作流程为:

1)选择自然语言任务描述和任务相关的数据集;

2)将任务描述作为输入送入大型语言模型以生成解决方案,可能需要将解决方案映射到功能模型名称,或使用约束生成直接生成模型名称;

3)选择和合成模型,并执行以处理数据样本;

4)评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。

模型与数据集


OpenAGI内的专家模型主要来自于Hugging Face的transformers和diffusers库、以及Github存储库。


OpenAGI的系统设计很灵活,用户可以自行接入领域任务与模型,目前包括:


语言相关的模型



视觉相关的模型



视觉-语言相关的模型



数据集方面为了能够与各自模型的训练数据集保持一致或相似,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;


在确定了原始数据集后,采用数据增强方法从不同的角度对数据集进行扩充,以构建复杂的、多步骤的任务,包括高斯模糊、高斯噪声、灰度、低分辨率、翻译、单词遮罩。


评估指标包括CLIP分数(图文相似度)、BERT分数(文本相似度)、ViT分数(视觉相似度)。


局限性


不过OpenAGI也进一步暴露了目前各种模型的局限性:


1. 分布外泛化(Out-of-Distribution Generalization)


因为特定领域的专家模型对训练数据的分布有强烈的依赖性,在泛化能力上可能十分有限,当处理来自不同来源的、表现出分布变化的图像时,原始模型序列变得无效了。



上图的例子中,在大多数情况下,只有少数颜色被模型准确地恢复,并且可能是不正确的;此外噪音和模糊的存在,对人类观察者来说仍然是高度可感知的。


2. 最优任务规划(Optimal Task Planning)


结合不同的模型来产生解决方案的方法有很多,可能使我们难以确定最佳的方法;并且对于一个给定的任务来说,有可能存在多个有效的解决方案,但每个解决方案的质量可能差别很大。



例如,上图中以不同的顺序执行相同的四个模型会导致明显不同的结果。与第一种方法相比,第二种方法的结果表现出明显更多的噪音和颜色不一致的情况。


因此,对于大型语言模型来说,从各种可能性中确定并实施最佳的任务计划是至关重要的


3. 非线性任务结构(Nonlinear Task Structures)


在模型执行过程中,一个模型可能需要一个以上的输入,而每个输入都需要由前一个模型产生,从而导致解决方案的非线性(树状)结构。


在这种情况下,采用非线性任务规划可以更有效地整合不同的输入,更有效地对模型进行并行处理以达到预期的结果。


然而,将这种非线性任务规划能力纳入大型语言性会带来更大的挑战,有可能超出语言模型的任务解决能力范围。


RLTF+非线性任务规划


为了解决「分布外泛化」和「最优任务规划」的问题,研究人员提出了从任务反馈中进行强化学习(Reinforcement Learning from Task Feedback,RLTF)的机制,基于在执行大型语言模型中设计的解决方案后从任务中获取的性能反馈,可以有效地完善语言模型的规划策略,从而形成了一个增强的、更具适应性的系统。



事实上,在面对现实世界的任务时,仅仅依靠输入文本的学习对大型语言模型来说是不够的;任务反馈提供了额外的信息,将LLM的学习轨迹引向改进且有效的解决方案。


对于「非线性任务结构」问题,研究人员提出了非线性任务规划,利用beam search作为一种有效的半自回归解码方法,在每个解码步骤中,不同的假设(hypotheses)被视为不同输入的平行可操作解决方案,而非相互竞争的假设。


为了达到这个目的,语言模型必须满足三个条件:1)只生成模型名称,没有无关的标记;2)生成有效的模型序列;3)必要时为不同的输入生成并行的模型序列。



如果一个任务需要对多个输入进行并行处理,如文本和图像,那么在生成时,一个以文本为输入的可操作方案和另一个以图像为输入的方案将被生成并并行地执行。


实验结果


与LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零样本和少样本学习设置中都表现出优越的性能,在BERT评分、ViT评分和整体性能中都取得了更高的评分。



LLaMA-7b虽然表现不如GPT-3.5-turbo,但与它的零样本学习性能相比,在少样本学习中表现出更好的整体性能;不过在相同设置下,其性能仍远低于GPT-3.5-turbo。


与零样本和少样本学习策略相比,使用微调或来自任务反馈的强化学习(RLTF)时,Flan-T5-Large展现出明显的性能提升。


在进一步的分析中可以发现,在零样本的情况下,大多数语言模型都很难生成有效的任务规划,更不用说最佳解决方案;特别是,GPT-3.5倾向于产生重复的内容,随后映射到相同的模型名称。



同时,LLaMA-7b和Flan-T5-Large受制于它们的零样本能力,同样未能生成一个合理的计划。


在少样本的设置中,加入了几个手动标注的任务计划作为指导生成的指令后,可以看到任务计划的质量得到了显著的改善。



三个语言模型都能在短时间内生成合理的规划,与所提供的例子在语义上相似的解决方案。


参考资料:https://github.com/agiresearch/OpenAGI


相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
160 2
|
5月前
|
人工智能 机器人
从炒菜到缝针!斯坦福炒虾团队打造自主AI达芬奇,苦练神指当外科医生
【8月更文挑战第20天】斯坦福大学的研究团队,昵称“斯坦福炒虾团队”,通过模仿学习开发出一款能自主执行外科手术的AI达芬奇。此项目克服了达芬奇系统运动学不一致性的难题,采用相对动作公式,成功训练AI完成组织操作、针头处理及打结等关键手术步骤。这项成果不仅展现了AI在提升手术精度与效率上的巨大潜力,还可能减少对外科手术新数据的需求,但其临床实用性仍需进一步验证。论文已发布于https://arxiv.org/abs/2407.12998。
53 6
|
5月前
|
人工智能 自然语言处理 量子技术
👑生成式大模型王者之路:掌握提示词工程,让你的创意称霸AI界👑
【8月更文挑战第1天】在AI领域,生成式大模型正引领新潮流。然而,驾驭这些模型的关键在于提示词工程。初学者的提示词往往简单直白,激发的基础内容缺乏特色;而高手能构建具启发性的提示词,引导模型挖掘创意潜力。模糊提示词让模型难以把握重点,精准提示词则如导航,明确方向与目标。例如,从“写篇未来文章”到详细指定时间、地点与技术背景,后者促使模型生成更具体深入的内容。掌握提示词工程,让你在AI创意领域独领风骚。
76 0
|
机器学习/深度学习 人工智能 自然语言处理
具身AI的实验:一个团队的Alexa Prize夺冠历程
具身AI的实验:一个团队的Alexa Prize夺冠历程
具身AI的实验:一个团队的Alexa Prize夺冠历程
|
机器学习/深度学习 存储 敏捷开发
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能
195 0
|
机器学习/深度学习 人工智能 算法
成为第一没有捷径:AI新势力MindSpore成长秘籍 | 源创者说 专访开源专家胡晓曼
成为第一没有捷径:AI新势力MindSpore成长秘籍 | 源创者说 专访开源专家胡晓曼
445 0
|
机器学习/深度学习 人工智能 算法
在AI消灭宫颈癌这件事情上,腾讯天衍实验室做了一些重磅研究
值得关注的是,对于超过3.5亿的适龄妇女人群,即使以3-5年进行一次筛查的标准来衡量,我国目前的宫颈癌筛查覆盖地区和人群数量仍然远远不足。来自腾讯天衍实验室的AI电子阴道镜辅诊系统有望为「两癌筛查」提供助力,辅助宫颈癌筛查全面落地应用和推广,最大化释放医疗普惠价值,助推我国医疗资源均衡化发展。
232 0
在AI消灭宫颈癌这件事情上,腾讯天衍实验室做了一些重磅研究
|
Web App开发 机器学习/深度学习 人工智能
观点|企业挖角 AI 教授是不是「原罪」?
  AI 学者该不该在企业挂职?挂职的话,精力又该如何分配?这些问题随着 AI 的全面火热在学界频频被提起。最具代表性的一次交锋,要属去年 8 月份 Yann LeCun 与 UC 伯克利大学 Ben Recht 为首的教授们分别对此撰文表达截然不同的立场:前者认为这将有助于「推动 AI 的创新」,后者则认为这将「扼杀、冷藏」创新。   近日,卡内基梅隆大学计算机科学系的副教授 Ariel Procaccia 同样撰文表达了自己对于企业过度招揽 AI 学者现象的忧虑,只是他并未偏颇早前的任一立场,而是呼吁大家一起找到摆荡于两者之间的「可持续性模式」,来看看他是怎么说的吧。
211 0
|
机器学习/深度学习 人工智能 自然语言处理
AI公开课:18.05.16 周明博士(MSRA副院长)—北大AI第十一讲之《语言智能的进展》课堂笔记——你了解语言智能
周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、北航等多所学校博士导师。周明博士1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典

热门文章

最新文章