AI迷路了怎么办?Facebook正在训练AI学会问路

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

image


如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

这件在你看来顺理成章的事情对于人工智能来说却是一个大难关。

AI不能独立地彻底理解人类的自然语言,自然也听不懂使用自然语言的指路,对于虚拟助手而言,仅仅能够对人类提出的问题做出简单的回应,这远远达不到要求。

Facebook的人工智能研究室(FAIR)正在试图突破这一难关。

要让人工智能系统理解人类语言,方法之一就是把语言和特定环境联系起来,以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样,这种方式也被称为具体的人工智能,更偏向于在真实环境中学习,而不是通过大量的文本数据进行训练。

FAIR的研究人员把这一新的研究课题称为Talk the Walk。在这个研究课题中,一对AI智能体相互交流,共同完成导航到指定位置的任务。

但是他们不是将AI智能体置于一个简单的类似于游戏的环境中,而是设计了一个机器人游客,向它展示纽约街区真实的全景照片,让它模拟一位迷路的游客来问路。另一个只记录下周围街区二维地图的机器人作为指路人,输出自然语言,来帮助“游客”找到它的目的地。

通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制,让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。

Facebook表示,这项工作的目标是要提高学术界对于交流、感知和行动如何影响基础语言学习问题的理解,同时也为把自然语言作为一种人机交互方式提供了压力测试。

FAIR也将发布Talk the Walk的基线和数据集。他们认为开源这项工作可以为其他研究人员提供一个测试他们自己的具体AI系统的框架,特别是在对话方面。

数据集链接:
https://github.com/facebookresearch/talkthewalk

AI将如何扮演游客和导游?

为了为他们的系统提供学习和演示基础语言的环境,FAIR研究人员使用全景摄像头分别拍摄了纽约市五个街区的部分街道,包括曼哈顿的Hell’s Kitchen、East Village、Financial District、Upper East Side以及布鲁克林的Williamsburg。

选定的这些区域都具有统一的、网格状的布局,同时为实验中的每一对AI智能体双方分别提供了一半的第一人称环境视角。

另一方面,AI“导游”只能获取带有通用地标的2D俯视地图,例如“餐厅”和“酒店”。“导游”和“游客”都不能和对方共享自己的视图,因此,必须要沟通才能导航到指定位置。

当导游预测游客已经到达目标位置时,就意味着本次实验的结束。如果预测正确,则导航过程被标记为成功;失败的预测则被标记为不正确。实验不限制移动或交流的次数。

在真实环境中学习对于这一领域来说是全新的,对环境的完全仿真可能会是未来的方向。

FAIR研究人员还创建了智能体之间的自然语言互动,收集了来自人类玩家的真实互动数据,例如“一直走到下一个街区,然后右转进入餐厅”,而不是专门为机器人生成的、经过仔细措辞的信息。

这些人类参与者也和机器人一起被分配了导游和游客的角色,具有相同的共享导航目标和信息约束(第一人称视角或俯视地图)。

强调使用真实环境和现实生活语言使整体问题更加困难。与实际城市街区的全景图像相比,模拟的环境一般不会那么混乱,而且更具有可预测性。一系列精心编写的回复也不太可能捕捉到在人与人真实对话中那种微妙的、不精确的和混乱的信息传递。

但是提高任务难度可以使其结果更具相关性。为了能够有效地与人类进行交互,未来的AI系统需要理解在复杂环境中的文本和超出有限的预定短语列表的语言。

探索自然和人造交流

尽管自然语言交流是这项研究的主要焦点,但FAIR团队还设计了两种额外的“紧急通信”设定,在其中智能体使用不同的通信协议而不是模仿人类语言。

第一个设定是,智能体通过连续向量进行通信,这意味着它们将原始数据相互传输。例如,这些连续的向量包括游客正在看到的和做的事情的表示,这能够帮助基于地图的导游来定位他们的同伴。

第二个紧急通信设定采用了完全不同的方法,研究人员称之为人造语言。在这种情况下的交流比自然语言简单得多,使用的是一组非常有限的离散符号来传达信息。

通过为机器人提供以最简单的形式进行通信的选项,从而能够实现快速而精确的互动,这也让我们能更好地了解到自然语言的魅力。

当使用这两种紧急协议而不是自然语言时,AI游客和导游都会表现得更好。这对于研究人员来说并不奇怪,因为AI使用的自然语言没有得到明确的信息交换。

紧密联系AI与其应用环境

将这些研究结果以及FAIR的研究放在适当的背景中非常重要:Talk the Walk不是自然语言和合成交互之间的竞争,而是试图为创建能够和人类有效交互的机器这一最终目标,提供一个清晰而可衡量的结果。

为了证明语言基础的价值,研究人员创建了MASC,一种新型的注意力机制,使得导游根据游客提供的俯视地图的信息,可以预测其位置。

注意力机制通常用于深度学习,以允许系统集中处理某些任务,类似于人们将注意力集中的状态。

MASC根据游客的状态转换(例如向左,向右移动,从俯视角度,向上和向下移动)识别地标嵌入(例如,“餐馆”,“酒吧”等),并将其表示为地图嵌入的2D卷积。该空间掩膜基于对游客可能行进的追踪来预测游客当前的位置。

MASC具有广泛的有效性。它提高了所有通信协议、自然语言和紧急通信方法的本地化性能。

通过将旅游系统的话语与导航系统的地图相关联,MASC的准确性有了大幅改进,是基于合成通信的系统准确度的两倍以上。

人工智能代理经过培训可以生成自己的自然语言信息,在使用这些自然语言的任务中也有更好的表现。用自动生成的自然语言,而不是简单地使用从人类玩家的互动中提取的文字例子,可以明确沟通任务内容。

不相关的闲聊通常是自然语言交互的优势,但对于基于通信交流的任务并非有利,因为闲聊会带来性能的不稳定。

例如,一个人类参与者在看到两家咖啡店和一家邻近的Chipotle后,发出了信息:“天呐,如果我来纽约,这就是我要去的地方!”,其他玩家对此发出“这是天堂啊!”的回应。通过微调和AI代理来生成仅与任务相关的自然语言,由此产生的交互就避免了这些闲聊的分歧和干扰。

最后,这项研究表明,使用自然语言的人类比使用合成通信的AI代理人在本地化方面更糟糕。和Talk the Walk得出的其他人机性能间的比较一样,这是一个重要的结果,它有助于为进一步研究与开发依赖自然语言的AI系统相关的挑战建立基线和可能的机会。

未来的系统能否利用自然语言的多功能性,同时避免人们沟通方式固有的模糊性和低效率?或者对话是否施加了无法规避的限制?作为基础研究,这项研究提出了这些问题,而对它们的回答还有待进一步的研究。

相关报道:
https://code.fb.com/ai-research/talk-the-walk-teaching-ai-systems-to-navigate-new-york-through-language/

原文发布时间为:2018-07-23
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘

相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
535 56
|
4月前
|
机器学习/深度学习 数据采集 人工智能
基于生成式物理引擎的AI模型训练方法论
本文探讨了基于生成式物理引擎的AI模型训练方法论,旨在解决传统数据采集高成本、低效率的问题。生成式物理引擎结合物理建模与生成模型(如GAN、Diffusion),可模拟现实世界的力学规律,生成高质量、多样化的虚拟数据。文章介绍了其关键技术,包括神经网络物理建模、扩散模型场景生成及强化学习应用,并分析了其在机器人学习、数据增强和通用智能体训练中的实践价值。未来,随着可微物理引擎、跨模态生成等技术发展,生成式物理引擎将助力AI从静态监督学习迈向动态交互式世界建模,推动通用人工智能的实现。
238 57
基于生成式物理引擎的AI模型训练方法论
|
3月前
|
机器学习/深度学习 人工智能 数据可视化
基于YOLOv8的AI虫子种类识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
本项目基于YOLOv8与PyQt5开发,实现虫子种类识别,支持图片、视频、摄像头等多种输入方式,具备完整训练与部署流程,开箱即用,附带数据集与源码,适合快速搭建高精度昆虫识别系统。
基于YOLOv8的AI虫子种类识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
5月前
|
数据采集 存储 人工智能
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
本文深度聚焦 AI 模型训练效率优化,全面涵盖数据预处理(清洗、归一化、增强)、模型架构(轻量级应用、剪枝与量化)、训练算法与超参数调优(自适应学习率、优化算法)等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例,佐以丰富且详细的代码示例,深度剖析技术原理与应用技巧,为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典,助力高效优化模型训练效率与性能提升。
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
|
3月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
3月前
|
机器学习/深度学习 人工智能 程序员
MiniMind:3小时训练26MB微型语言模型,开源项目助力AI初学者快速入门
在大型语言模型(LLaMA、GPT等)日益流行的今天,一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型。
180 1
|
9月前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
3月前
|
机器学习/深度学习 人工智能 资源调度
AI大模型训练管理工具:千亿参数时代的指挥中枢
本内容揭示了大模型训练中三大核心挑战:实验复现难、资源利用率低、合规风险高,并提出“三维控制塔”解决方案,涵盖实验管理、资源调度与合规追踪。推荐Immuta + 板栗看板等工具组合助力不同规模团队实现高效、合规、低成本的AI训练。
|
8月前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
706 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台

热门文章

最新文章