前沿 | AI不用地图和GPS也能认路:DeepMind再放大招

简介: 是的,谷歌DeepMind又在搞事情。 这次,是用深度强化学习和神经网络来建立导航系统。无需标注好的地图指引,AI仅仅依靠街景照片的图像识别就能到达目的地。类似于AlphaGo Zero的没有棋谱,也能学会下棋。

是的,谷歌DeepMind又在搞事情。

这次,是用深度强化学习和神经网络来建立导航系统。无需标注好的地图指引,AI仅仅依靠街景照片的图像识别就能到达目的地。类似于AlphaGo Zero的没有棋谱,也能学会下棋。

注意,这无关乎驾驶,仅仅关乎导航——穿越真实城市,到达指定的经纬度坐标。整个过程不涉及交通数据(周围有没有车和人),也没有对车辆控制建模。

但这已经足够复杂了。在曼哈顿的5个区域、伦敦和巴黎市中心,AI能成功穿过复杂的交叉路口、人行道、隧道和各种拓扑结构。

3月31号,DeepMind在ArXiv上发布了相关论文:Learning to Navigate in Cities Without a Map。大数据文摘公众号后台回复“导航”即可下载这篇论文。

9122ed1ebdfb42d9116444368341a365ee461026

DeepMind随后发表的一篇博客文章称,AI做的这件事类似于一个小孩如何记住周边的环境。小孩并不需要看一张地图,只需记住街道的视觉外观并沿途转向,就能前往朋友家、学校或杂货店。而且会越走越熟练。如果迷路了,他可以通过关键地标甚至太阳的朝向来认路。

这是人类的导航系统。

导航是一项重要的认知任务,有导航系统的人类和动物可以在复杂的世界中远距离穿行,而无需地图。同时,可以自我定位(“我在这里”)和表述目标(“我要去那里”)。

那么,AI如何学习在没有地图的城市中进行导航?

一个利器是谷歌街景视图(Google Street View)。这些图像数据是现成的。这样,AI不用真的到某个城市里穿行,只要在街景里游荡就可以了。利用街景视图建模的优势在于,这些照片以人眼视角拍摄,也就是说,如果一个人站在相同的地理位置,他看到的图像就和模型看到的一样。

bb2adef8de39e96cafca87fd5391d75ffd63c12d
依靠街景图像而不是地图

研究人员建立了一个基于神经网络的人工智能体,学习使用视觉信息(来自街景图像的像素)在多个城市中导航。当AI到达目标目的地(例如,指定的经纬度坐标)时,该AI就会得到奖励。

好比一个7x24小时无限循环工作的快递员,要不断地到达指定地点,但是又没有地图可以看。

随着时间的推移,AI学习以这种方式跨越整个城市。经过在多个城市的训练和学习,在适应新的城市时AI的表现非常好。

d7b50121622403992053bbe4f67ca382ff6a9a66

AI在巴黎街景中训练。街景图像与城市地图叠加,显示目标位置(红色),代理位置和视野(绿色)。请注意,AI不会看到地图,只能看到目标位置的纬度/经度坐标。

与传统的依赖明确映射和探索的方法(例如试图本地化并同时绘制地图)相反,DeepMind让AI只使用视觉观察,而不使用地图、GPS定位或其他辅助工具。

用到的技术是,构建了一个神经网络代理,用于输入从环境中观察到的图像,并预测它应该在该环境中执行的下一个操作。使用深度强化学习进行端对端训练,类似于此前关于学习穿越复杂3D迷宫,以及用无监督辅助任务进行强化学习来玩游戏的研究,但是使用到的数据规模比小型模拟迷宫环境要大得多。

神经网络由三部分组成

  1. 可以处理图像并提取视觉特征的卷积网络

  2. 特定场所的循环神经网络,其隐含任务是记住环境,并学习“这里“(代理的当前位置)和”那里“(目标的位置)

  3. 产生关于代理行为的导航策略的场所不变循环网络。特定于语言环境的模块被设计为可互换,并且如其名称所示,对于代理导航的每个城市都是唯一的,而视觉模块和策略模块可以是语言环境不变的。

cdb602b4d51bbe47f34dfcd39aa209b0b4851f5d

CityNav (a)

MultiCityNav特定城市建模 (b)

训练和转移到新城市 (c)

就像在Google Street View界面中一样,AI代理可以在适当的位置旋转,或者在可能的情况下前进到下一个街景。与谷歌地图和街景环境不同,AI不会看到小箭头,本地或全球地图,或著名的Pegman:它需要学习区分开放道路和人行道。目标可能在真实世界中距离数公里,AI要通过数百个街景图才能到达。

7d8cf86d4341be27d299d98304ae8dcbba44b8cb

Pegman,谷歌街景视图中的虚拟小人

值得注意的是,这是一个可以转移到新城市的模块化神经网络架构。与人类一样,当AI访问一个新的城市时,我们会期望它必须学习一组新的地标,但不必重新学习其视觉表现或其行为(例如,沿着街道向前走或在交叉路口处转向)。因此,使用MultiCity体系结构,DeepMind首先在许多城市进行训练,然后冻结策略网络和视觉卷积网络,并在一个新城市中只建立一个新的特定地区路径。这种方法使AI能够获得新的知识,而不会忘记它已经学到了什么,类似于渐进式神经网络架构。

导航系统是研究和开发人工智能的基础,也对了解人类的生物导航系统有帮助。


原文发布时间为:2018-04-4

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
7月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
154 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
17天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
111 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
4月前
|
人工智能 数据可视化 定位技术
DataV AI助手小技巧-如何制作PPT数据地图
“数据地图”是PPT汇报地区业务数据的最佳形式之一;以往制作数据地图需要用户有一定的编程和数据处理基础,制作门槛较高;随着DataV整合通义千问大模型能力之后,不懂编程和设计的用户也可以借助AI助手“零代码”制作数据地图,真正实现了人人可用的地图数据可视化。 进入大模型AI时代,人人可以变成职场跨界多面手!
11215 2
DataV AI助手小技巧-如何制作PPT数据地图
|
存储 人工智能 定位技术
战略地图|用户为先、AI驱动,以创业心态创造更大价值
9月10日,阿里巴巴集团董事会主席蔡崇信发布全员信宣布,已在当日按计划完成集团管理职务交接,由他接任集团董事会主席职务,吴泳铭出任集团CEO。这意味着,阿里巴巴完成了公司管理职务的第二次制度化交接棒,今年3月启动的自我变革快速顺利推进。 随着阿里巴巴1+6+N全新业务集群基本成型,阿里巴巴“24年来最重要变革”正给公司带来全新变化。与此同时,阿里巴巴集团CEO吴泳铭还兼任阿里云董事长与CEO,这样的任命也足以看出云计算之于阿里巴巴集团的重要性,阿里云下一步将如何发展?本文根据吴泳铭全员信和内部讲话梳理,进一步呈现变化将如何展开。
224 1
|
7月前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
364 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
7月前
|
人工智能 编解码 定位技术
ArcGIS导出AI或EPS格式的地图图片并在Adobe Illustrator中继续编辑
ArcGIS导出AI或EPS格式的地图图片并在Adobe Illustrator中继续编辑
335 1
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
156 0
|
机器学习/深度学习 人工智能 算法
合并DeepMind和Google Brain,谷歌迎来AI新时代
合并DeepMind和Google Brain,谷歌迎来AI新时代
136 0
合并DeepMind和Google Brain,谷歌迎来AI新时代
|
机器学习/深度学习 人工智能 算法
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
166 0
AI从零开始学会玩《我的世界》,DeepMind AI通用化取得突破
|
机器学习/深度学习 存储 人工智能
7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
453 0
下一篇
DataWorks