谷歌 DeepMind 开源 AI 训练平台 DeepMind Lab

简介:

谷歌母公司Alphabet旗下DeepMind部门宣布将用于实验的AI训练平台开源,这可能是首个面向公众和开发者开放的AI训练实验室,DeepMind周一表示,它将把其训练环境的整个源代码发布在开源社区GitHub上。该训练环境原名Labyrinth,现更名为DeepMind Lab。

Github:https://github.com/deepmind/lab

image

这款软件本周在GitHub上线,它看起来像一款卡通视频游戏,但却是精心设计的,目的是让AI开发者对他们机器人的学习加以控制。它不仅仅是娱乐和游戏——该实验室是一个虚拟环境,试图让AI学习战略、规划,时间管理和动作控制。任何人都将能够下载该代码,以及进行定制化来帮助训练自有的人工智能系统。他们还将能够给DeepMind Lab打造新的游戏等级,可以将它们上传到GitHub。

“在自然世界,关于通用智能,唯一已知的例子是动物的物理和感觉器官的演变、发展和学习,”DeepMind的研究人员在博客中写道。“我们有充分理由认为,从第一人称(如DeepMind实验室)的角度观察,从本质上说,3D世界的智力发展更容易些。”

在实验室里AI的“身体”是一个浮球,依靠向各个方向发射推进器来运动。实验室不允许AI直接访问3D环境的代码,只允许它像人类一样,对像素进行观察,这就是说它必须学会区分不同物体。在箱子以外,人们可以通过探索迷宫、玩激光标签来测试AI,并尽量不要从危险的悬崖上掉下来。开发人员能够轻松地创建和共享新技能,DeepMind说,他们希望人们能够不断提升建设水平,教AI学会不同技能。

DeepMind过去一直认为视频游戏可以教AI很多必要的技能,以便在真实世界中进行操作,例如在狭小的室内空间通行来完成任务。然而直到最近他们才认识到这些尝试只能在Atari或Doom之类的游戏中奏效,在物理世界中收效甚微。Alphabet公司一直在自己的实验室中进行研究,这一次的开源版本可能会从其他人工智能研究人员中收集到一些想法,反过来促进他们自己的研究。

文章转载自 开源中国社区 [http://www.oschina.net]

目录
相关文章
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
29 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
3天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
41 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
110 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
4天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
38 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
9天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
2天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
21 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
9天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
56 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
8天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
52 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDE
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
18 4
|
机器学习/深度学习 存储 人工智能
科大讯飞,是如何打造AI平台的?
科大讯飞的成功靠的是AI核心战略:平台+赛道。
1211 0
下一篇
DataWorks