用自然语言教育人工智能:百度新算法发展出zero-shot学习能力

简介:

机器之心编译


百度最新的研究使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师( virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。读者可点击阅读原文下载此论文。


尽管有了极大的进步,人工智能在许多方面仍旧有限。例如,在计算机游戏中,如果 AI 智能体没用游戏规则预编程,在知道如何做出正确行为之前它需要进行百万次的尝试。人类能在非常短的时间内完成同样的成就,因为我们善于使用语言将过去的知识迁移到新任务中。


在必须杀死龙才能获胜的游戏中,如果需要杀死龙才能获胜,AI 智能体在理解自己必须要屠龙之前需要尝试许多其他的行为(在墙上喷火、发出一片花等)。然而,如果 AI 智能体理解语言,人类就可以简单地使用语言直接指令它「杀死龙赢得游戏。」


以视觉为基础的语言在我们如何归纳技能和将它们应用到新任务上扮演着重要的角色,而这对机器而言仍旧是一个重大挑战。对于让机器变得真正智能并且获得类人的学习能力而言,开发复杂的语言系统是非常重要的。


作为实现这一目标的第一步,我们使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师(virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。


在训练后,我们的模型结果表明 AI 智能体能以自然语言的方式正确地解读教师的指令,并采取相应的行动。更重要的是,这些智能体发展出了我们所说的「zero-shot 学习能力」,这意味着智能体能理解未见过的句子。我们相信该项研究能进一步带领我们朝训练机器像人类一样学习前进。


研究概述


该研究发生在一个 2D 迷宫似的环境 XWORLD 中,在这里,我们的虚拟婴儿智能体需要在自然语言命令的指导下在迷宫里穿行,这个命令是由一个虚拟 teacher 发出的。开始,该智能体对语言一无所知:每个词都对其没有意义。不过,随着该智能体不断研究周围环境,如果执行对了(或者错了)命令,该 teacher 就会给出相应的奖惩。为了帮助智能体更快地学习,该 teacher 也会问些有关智能体所运动的周围环境的简单问题。该智能体需要正确回答问题。通过鼓励对的行动/回答,惩罚错误的行动/回答,该 teacher 能在多次试错时候 让该智能体理解自然语言。


示范命令的一些例子:


  • 请导航至这个苹果(Please navigate to the apple.)

  • 你能移动到苹果和香蕉之间的格子吗?(Can you move to the grid between the apple and the banana?)

  • 你能去那个红苹果那里吗?(Could you please go to the red apple?)


问答对的一些例子:


  • 问:北边的物体是什么?答:香蕉(Q:What is the object in the north? A:Banana.)

  • 问:香蕉在哪里?答:北边(Q:Where is the banana? A:North.)

  •  问:苹果西边的物体是什么颜色的?答:黄色(Q:What is the color of the object in the west of the apple? A:Yellow.


结果


在最后,该智能体可以正确地解读 teacher 的命令,并导航至正确的位置。更加重要的是,该智能体发展出了所谓的「zero-shot 学习能力」。这意味着即使是接受了从未执行过的新任务,如果该指令的句式的相似形式在之前已经见过足够多了,那么它仍然有能力正确地执行任务。换句话说,人工智能有能力理解由已知词和已知语法组成的新句子。


比如说,一个学会用刀切苹果的人通常知道怎样用刀切一个火龙果。应用已有知识实现新的任务对于人类而言是轻而易举的事,但对目前的端到端机器学习来说非常困难。尽管机器可能知道「火龙果」看起来是什么样子,但除非已经经过了相关数据集的训练,它无法执行「用刀切那个火龙果」的任务。相比之下,我们的智能体可以成功地迁移它所知道的火龙果外观与任务「用刀切 X」,而不需要直接去训练「用刀切火龙果」。


在下图中,我们的智能体成功地在导航测试中执行了命令,完成任务。


c466e0f1a30fab3c9687a42707f77a960aa34b5c


我们的下一步研究有两个方面:1、在当前 2D 环境中使用自然语言命令来教人工智能获得更多能力;2、把这种能力应用到虚拟 3D 环境中。虚拟的 3D 环境有更多的挑战,同时也与我们所生活的现实环境更加接近。我们的最终目标是用人类的自然语言训练出一个在真实世界中可用的物理机器人。


论文:一个用于虚拟环境中的类人语言习得的深度组合框架

(A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment)


论文链接:https://arxiv.org/pdf/1703.09831.pdf

d175765231146c8877059abebbdac0443c6f52fb


摘要


我们在一个称作 XWORLD 的迷宫般的 2D 环境之中完成了智能体学习导航的任务。在每一个 session 中,该智能体可感知一个原始像素帧序列、一个 teacher 发出的自然语言指令和一组奖励(reward)。该智能体能以一种基础的组合式的方式从头学习 teacher 的语言,以至于完成训练之后,它可以正确地执行 zero-shot 指令:1) 指令之中词的组合以前从未出现,并且/或者 2) 指令包含从另一个任务而不是从导航学来的新的目标概念。我们端到端地训练了该智能体的深度框架:它能同时学习环境的视觉表征、语言的句法和语义以及输出行动的行动模块(action module)。我们框架的 zero-shot 学习能力来自带有参数约束的组合性(compositionality)和模块性(modularity)。我们视觉化了框架的中间输出,以证明该智能体真正可以理解如何解决问题。我们相信我们的成果能为如何在 3D 环境中训练带有相似能力的智能体提供初步的见解。 


原文链接:http://research.baidu.com/ai-agent-human-like-language-acquisition-virtual-environment/

本文来源于"中国人工智能学会",原文发表时间" 2017-03-31 "

相关文章
|
8月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
241 0
|
11月前
|
人工智能 架构师
5月23日北京,与通义灵码探索生成式AI与教育的无限可能
人工智能正重塑教育边界!“GenAI 教育探索联合活动”由英特尔、阿里云等多家机构联合举办,聚焦生成式 AI 在教育中的创新应用。5 月 23 日 13:30,活动将在北京环球贸易中心启幕。阿里云高级产品架构师冯天豪将分享通义灵码 2.5 版本升级内容,探讨 Qwen3 模型与智能体如何重新定义编程能力。立即扫描海报二维码报名参与!
307 10
|
6月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
1080 23
|
7月前
|
机器学习/深度学习 存储 自然语言处理
NLP参数高效迁移学习:Adapter方法——论文简读
本研究深入探讨了自然语言处理中参数高效的迁移学习方法——Adapter。通过在预训练模型中引入小型可训练模块,仅调整少量额外参数即可完成模型适配。理论分析表明,该方法在初始化时保持网络行为稳定,并通过瓶颈结构大幅压缩参数规模。实验结果显示,Adapter在GLUE基准上仅用3.6%的参数便达到接近全微调的性能,且对学习率具有更强的鲁棒性。相比传统微调和其他参数高效方法,Adapter在多任务场景下展现出更优的存储效率与泛化能力,为大规模模型的实际部署提供了高效可行的解决方案。
478 7
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
|
机器学习/深度学习 人工智能 算法
普通人怎么学人工智能?这些隐藏学习秘籍大揭秘,生成式人工智能认证(GAI认证)来助力
在人工智能(AI)快速发展的今天,普通人学习AI已成为必然趋势。本文从明确学习目标与路径、利用多元化资源、注重实践应用、关注GAI认证及持续自我提升五个方面,为普通人提供系统化的AI学习指南。通过设定目标、学习编程语言、参与项目实践和获取专业认证,普通人可逐步掌握AI技能,在未来职场中占据优势并开启智能时代新篇章。
|
人工智能 算法 安全
深度:善用人工智能推动高等教育学习、教学与治理的深层变革
本文探讨人工智能技术与高等教育深度融合带来的系统性变革,从学习进化、教学革新与治理重构三个维度展开。生成式AI作为技术前沿代表,正通过标准化认证体系(如培生的Generative AI Foundations)提升职场人士、教育者及学生的能力。文章强调批判性思维、高阶认知能力与社交能力的培养,主张教师从经验主导转向数据驱动的教学模式,并提出构建分布式治理结构以适应技术迭代,最终实现人机协同的教育新生态,推动高等教育在智能时代焕发人性光辉。
|
7月前
|
机器学习/深度学习 运维 算法
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
318 1
|
6月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
714 0
|
8月前
|
人工智能 弹性计算 监控
【云故事探索】NO.16:阿里云弹性计算加速精准学 AI 教育普惠落地
智能精准学联合阿里云,打造全球首个K12教育超级智能体“寒雪老师”,依托弹性计算实现AI一对一教育普惠愿景。面对实时交互与流量潮汐挑战,借助阿里云算力实现低延迟、高并发服务,保障千万学子流畅学习体验。