RoboBrain:面向机器人的谷歌

简介:


据国外媒体报道,人们要什么问题,可以去询问谷歌、必应、百度或者在线数据库。现在,机器人们也有了属于它们的知识数据库。在影响现代生活的变化中,最令人兴奋的一点是能够前所未有地搜索几乎任何的信息。这一切要归功于技术的融合,它催生了Google Now、Siri、维基百科、IBM沃森超级电脑等服务。


因此,不管有什么问题,只要对着智能手表说出几个单词或者在电脑上输入几个词就可以得到答案。这种方案之所以可行,一部分是因为人类善于处理含糊信息。所以,搜索像“如何做干酪土司”这样的简单问题后得出的一般指引,普通人都能够轻松看懂。


对于机器人来说则是另外一回事了。即便是最简单的任务,这些机器都需要详尽的操作指示。例如,要是问搜索引擎“如何从厨房取出甜茶”,机器人不大可能会得到它执行任务所需的细节信息,因为它需要得到各种各样的附带信息,如像杯子可装液体(倒着放的时候则不可以),水来自水龙头,能够在壶子或者微波炉里加热的概念。


事实上,要让机器人能够从搜索引擎获得有用的知识,这些数据库就必须含有它们要完成的任务的详尽描述。斯坦福大学的艾舒托什·萨克塞纳(Ashutosh Saxena)和多位同事正着手为机器人打造这样的知识引擎。他们已经开始开发一个面向机器人的谷歌,供任何要执行任务的设备自由访问。与此同时,那些数据库会在机器人执行任务期间收集关于那些任务的新信息。他们将其新知识引擎称作RoboBrain。


重重挑战

在设计RoboBrain的征程中,该团队要解决诸多的挑战。首先,机器人带有各种各样的传感器和设计,因此信息存储的方式必须要能够迎合任何类型的机器。该知识引擎应当能够响应机器人以不同的方式提出的各种不同类型的问题。它应当能够从不同的来源收集知识,如通过万维网以及WordNet、ImageNet、Freebase、OpenCyc等现有知识库。


此外,萨克塞纳和他的团队希望RoboBrain成为一个协作项目,能够连接现有的服务。为此,他们跟Tell Me Dave、PlanIt等服务商建立了合作。Tell Me Dave这家创业公司致力于使得机器人能够理解自然语言指令,PlanIt则旨在使得机器人能够利用众包信息规划路径。


他们表示,“随着越来越多的研究人员为RoboBrain贡献知识,他们的机器人将会有更强的任务执行能力,我们也相信这将惠及整个机器人社区。”他们设立了RoboBrain.me网站来推广这些理念。


创造这种知识引擎并非易事。萨克塞纳及其同事将它看作是网络理论问题,在这里面知识是定向图。定向图中的节点以各种各样的形式体现,如图像、文本、视频、触觉数据或者学术概念(如“集装箱”)。


然后,RoboBrain接收以边集形式呈现的新信息,它们也会链接节点子集。例如,“坐着的人可以使用杯子”的概念可能会链接杯子和坐着的人的节点以及诸如“能够使用”的概念。


任何在数据库搜索像这样的词的机器人都可以下载那些边集和它所代表的节点。

这不只是个灵巧的概念。萨克塞纳的团队已经开始打造这种数据库,用它来让机器人计划特定的行动,如在室内行走或者转移烹饪材料。

他们演示了如何让其机器人利用RoboBrain将蛋盒放到桌子的另一端。由于鸡蛋易碎,它们必须要小心处理,而这正是机器人能够通过询问RoboBrain而学到的东西。


该项目很重要的一部分是,将一个情境中学到的知识应用于其它的情景。例如,将处理鸡蛋的技术也用于处理其它的易碎物品,如灯泡。

该团队对于未来有着宏大的计划。例如,他们想要让该知识库纳入更加庞大的知识来源,如在线视频。他们的设想是:通过查询在线指引视频,机器人能够学习如何执行各种各样的家务。


这是很有趣的一个方向,有潜力改变机器人的整个学习方式。在线知识库对人类思考周遭世界以及与之交互的方式产生了巨大的影响。

RoboBrain无疑也有可能对机器人产生类似的影响。



原文发布时间为:2014-12-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
2月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
56 9
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
173 1
|
机器学习/深度学习 人工智能 自然语言处理
谷歌机器人「吃了」语言大模型后,会自学和思考了
谷歌机器人「吃了」语言大模型后,会自学和思考了
268 0
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
机器学习/深度学习 存储 数据采集
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
300 0
|
机器学习/深度学习 自然语言处理 算法
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
181 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(2)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
133 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(1)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
147 0
|
机器学习/深度学习 自然语言处理 算法
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
252 0
|
机器人 人机交互
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
191 0

热门文章

最新文章

下一篇
无影云桌面