用自然语言教育人工智能:百度新算法发展出zero-shot学习能力

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介:

机器之心编译


百度最新的研究使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师( virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。读者可点击阅读原文下载此论文。


尽管有了极大的进步,人工智能在许多方面仍旧有限。例如,在计算机游戏中,如果 AI 智能体没用游戏规则预编程,在知道如何做出正确行为之前它需要进行百万次的尝试。人类能在非常短的时间内完成同样的成就,因为我们善于使用语言将过去的知识迁移到新任务中。


在必须杀死龙才能获胜的游戏中,如果需要杀死龙才能获胜,AI 智能体在理解自己必须要屠龙之前需要尝试许多其他的行为(在墙上喷火、发出一片花等)。然而,如果 AI 智能体理解语言,人类就可以简单地使用语言直接指令它「杀死龙赢得游戏。」


以视觉为基础的语言在我们如何归纳技能和将它们应用到新任务上扮演着重要的角色,而这对机器而言仍旧是一个重大挑战。对于让机器变得真正智能并且获得类人的学习能力而言,开发复杂的语言系统是非常重要的。


作为实现这一目标的第一步,我们使用监督学习和强化学习的组合开发了一个系统,该系统允许虚拟教师(virtual teacher)通过将语言与感知和行动连接起来而从头教授虚拟 AI 智能体语言,这一过程就类似于父母教导他们的小孩。


在训练后,我们的模型结果表明 AI 智能体能以自然语言的方式正确地解读教师的指令,并采取相应的行动。更重要的是,这些智能体发展出了我们所说的「zero-shot 学习能力」,这意味着智能体能理解未见过的句子。我们相信该项研究能进一步带领我们朝训练机器像人类一样学习前进。


研究概述


该研究发生在一个 2D 迷宫似的环境 XWORLD 中,在这里,我们的虚拟婴儿智能体需要在自然语言命令的指导下在迷宫里穿行,这个命令是由一个虚拟 teacher 发出的。开始,该智能体对语言一无所知:每个词都对其没有意义。不过,随着该智能体不断研究周围环境,如果执行对了(或者错了)命令,该 teacher 就会给出相应的奖惩。为了帮助智能体更快地学习,该 teacher 也会问些有关智能体所运动的周围环境的简单问题。该智能体需要正确回答问题。通过鼓励对的行动/回答,惩罚错误的行动/回答,该 teacher 能在多次试错时候 让该智能体理解自然语言。


示范命令的一些例子:


  • 请导航至这个苹果(Please navigate to the apple.)

  • 你能移动到苹果和香蕉之间的格子吗?(Can you move to the grid between the apple and the banana?)

  • 你能去那个红苹果那里吗?(Could you please go to the red apple?)


问答对的一些例子:


  • 问:北边的物体是什么?答:香蕉(Q:What is the object in the north? A:Banana.)

  • 问:香蕉在哪里?答:北边(Q:Where is the banana? A:North.)

  •  问:苹果西边的物体是什么颜色的?答:黄色(Q:What is the color of the object in the west of the apple? A:Yellow.


结果


在最后,该智能体可以正确地解读 teacher 的命令,并导航至正确的位置。更加重要的是,该智能体发展出了所谓的「zero-shot 学习能力」。这意味着即使是接受了从未执行过的新任务,如果该指令的句式的相似形式在之前已经见过足够多了,那么它仍然有能力正确地执行任务。换句话说,人工智能有能力理解由已知词和已知语法组成的新句子。


比如说,一个学会用刀切苹果的人通常知道怎样用刀切一个火龙果。应用已有知识实现新的任务对于人类而言是轻而易举的事,但对目前的端到端机器学习来说非常困难。尽管机器可能知道「火龙果」看起来是什么样子,但除非已经经过了相关数据集的训练,它无法执行「用刀切那个火龙果」的任务。相比之下,我们的智能体可以成功地迁移它所知道的火龙果外观与任务「用刀切 X」,而不需要直接去训练「用刀切火龙果」。


在下图中,我们的智能体成功地在导航测试中执行了命令,完成任务。


c466e0f1a30fab3c9687a42707f77a960aa34b5c


我们的下一步研究有两个方面:1、在当前 2D 环境中使用自然语言命令来教人工智能获得更多能力;2、把这种能力应用到虚拟 3D 环境中。虚拟的 3D 环境有更多的挑战,同时也与我们所生活的现实环境更加接近。我们的最终目标是用人类的自然语言训练出一个在真实世界中可用的物理机器人。


论文:一个用于虚拟环境中的类人语言习得的深度组合框架

(A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment)


论文链接:https://arxiv.org/pdf/1703.09831.pdf

d175765231146c8877059abebbdac0443c6f52fb


摘要


我们在一个称作 XWORLD 的迷宫般的 2D 环境之中完成了智能体学习导航的任务。在每一个 session 中,该智能体可感知一个原始像素帧序列、一个 teacher 发出的自然语言指令和一组奖励(reward)。该智能体能以一种基础的组合式的方式从头学习 teacher 的语言,以至于完成训练之后,它可以正确地执行 zero-shot 指令:1) 指令之中词的组合以前从未出现,并且/或者 2) 指令包含从另一个任务而不是从导航学来的新的目标概念。我们端到端地训练了该智能体的深度框架:它能同时学习环境的视觉表征、语言的句法和语义以及输出行动的行动模块(action module)。我们框架的 zero-shot 学习能力来自带有参数约束的组合性(compositionality)和模块性(modularity)。我们视觉化了框架的中间输出,以证明该智能体真正可以理解如何解决问题。我们相信我们的成果能为如何在 3D 环境中训练带有相似能力的智能体提供初步的见解。 


原文链接:http://research.baidu.com/ai-agent-human-like-language-acquisition-virtual-environment/

本文来源于"中国人工智能学会",原文发表时间" 2017-03-31 "

相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
普通人怎么学人工智能?这些隐藏学习秘籍大揭秘,生成式人工智能认证(GAI认证)来助力
在人工智能(AI)快速发展的今天,普通人学习AI已成为必然趋势。本文从明确学习目标与路径、利用多元化资源、注重实践应用、关注GAI认证及持续自我提升五个方面,为普通人提供系统化的AI学习指南。通过设定目标、学习编程语言、参与项目实践和获取专业认证,普通人可逐步掌握AI技能,在未来职场中占据优势并开启智能时代新篇章。
|
3月前
|
人工智能 算法 安全
深度:善用人工智能推动高等教育学习、教学与治理的深层变革
本文探讨人工智能技术与高等教育深度融合带来的系统性变革,从学习进化、教学革新与治理重构三个维度展开。生成式AI作为技术前沿代表,正通过标准化认证体系(如培生的Generative AI Foundations)提升职场人士、教育者及学生的能力。文章强调批判性思维、高阶认知能力与社交能力的培养,主张教师从经验主导转向数据驱动的教学模式,并提出构建分布式治理结构以适应技术迭代,最终实现人机协同的教育新生态,推动高等教育在智能时代焕发人性光辉。
|
7月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
696 55
|
6月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
399 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
8月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
8月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
381 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
8月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
332 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
425 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
455 1
|
8月前
|
人工智能 自然语言处理 搜索推荐
人工智能与教育:个性化学习的未来
【10月更文挑战第31天】在科技飞速发展的今天,人工智能(AI)正深刻改变教育领域,尤其是个性化学习的兴起。本文探讨了AI如何通过智能分析、个性化推荐、智能辅导和虚拟现实技术推动个性化学习,分析了其带来的机遇与挑战,并展望了未来的发展前景。

热门文章

最新文章