看Deepmind机器人尬舞,边玩边学AI技术

简介:

Deepmind通过增强学习让木偶学习行走、跑跳。

在自然界中,无论是动物,还是人类,都可以灵活而随心所欲地做出一些动作,比如猴子在树上自由自在得摆动,或是NBA球员虚晃过对手,帅气地投出篮球。但是在AI 研究领域,想要让机器人掌握这些动作(物理上就是一种复杂的电机控制)却不是一件容易的事,而这是AI研究领域的重要组成部分。

近日,Deepmind公布了智能电机的相关研究成果,展示了机器人学习如何控制和协调身体来解决在复杂环境中的任务。这一研究涉及不同领域,包括计算机动画和生物力学。

接下来我们带领大家边玩边学。

在复杂环境中产生动作行为

上一个小视频,先睹为快

此刻,想必你已经忍俊不禁了吧。视频中,我们可以直观感受到木偶的动作是笨拙的。

此处采用的是增强学习,但不同于Deepmind此前开发的Atari或Go,这里,需要准确描述复杂行为。具体来说,就是奖励机制的不同,在Atari和Go的开发过程中,设计人员将得分作为奖励,就可以依照预期来优化系统。但是在连续的控制任务(如运动)中,奖励信号的选择就没有那么容易,常常会出现奖励信号的选择不当,从而导致优化结果与设计师期望不符。

由此,自然就会想到慎重选择奖励信号,以此来实现优化,但是如果谨慎设计奖励,也就等同于回避了增强学习的核心问题:系统如何直接从有限的奖励信号中自主学习,让木偶实现丰富而有效的动作行为。

研究团队表示,为了让系统有自我学习的能力,他们选择直面增强学习中的核心问题。于是团队以环境本身具有足够的丰富性和多样性为研究的主要背景,从两方面实现学习:

一:预设一系列不同难度级别的环境,引导木偶学习和找到解决困难的方案;

看Deepmind机器人尬舞,边玩边学人工智能

二:因为过拟合,奖励机制和动作细节都具有一定的误差,从而每一次运动都有些微不同。发现不同方案之间的特殊性能差距,也将帮助系统有效学习。

看Deepmind机器人尬舞,边玩边学人工智能

为了使操控的木偶面对不同的地形有效的学习,研究团队还开发了增强学习算法。

首先,团队开发了强大的策略梯度算法,如信任区域策略优化(TRPO)和近端策略优化(PPO),其中,他们选择将每次更新的参数绑定到信任区域以确保算法的稳定性。

其次,对于像广泛使用的A3C算法以及相关算法,他们将其分配运用在许多并行的代理环境和实例中。

这样,面对复杂的环境,通过自主学习,木偶自然就会有丰富而有效的行为表现。

通过对抗模仿人类行为

再来看看下面的“群魔乱舞”

视频中这些小人们是不是已经不忍直视,不过专业的角度来看,技术上已经很棒了。

据了解,构建可编程人形木偶的问题可以追溯到几个世纪以前。在1495年,达芬奇以装甲骑士的形式构建了一个人形自动机。骑士能够通过曲柄传递的力量挥动,坐起来,打开和关闭其下巴。不像大多数钟表只能产生沿着单极循环的运动,机械骑士可以重新编程以改变其运动,从而能够及时改进手臂运动方向或交替运动顺序。

现如今,在此系统中,最优控制和增强学习能够用来设计人形木偶的行为,并且神经网络能够存储动作行为和灵活检测多种运动模式,将这几种技术融合,可实现运动控制。但研究团队表示,依靠纯增强学习(RL),会使运动行为过于刻板,不符合设计期望。

通常,在计算机动画相关文献中使用的替代性方案是采取运动捕捉数据,将其加载到控制器中。在视觉上,采取这一方案的方法都产生了让人满意的运动表现,然而,其中有些方法产生的状态序列仅仅是理论上的,物理上并不适用。还有一些方法需要设计大量的组成因素,如成本函数。

而此处,为了从运动捕捉数据中进行仿制学习,研究团队采用生成对抗模仿学习(GAIL),这是模仿学习中最近的一项突破,简言之,该方法就是以类似于生成对抗网络的方式产生模仿策略。与已存在的模仿学习相比,该方法的主要优点是模仿与演示数据之间相似度的衡量不是基于预先设计好的度量值。

看Deepmind机器人尬舞,边玩边学人工智能

具体操作上,主要就是先训练低级别控制器,通过使用GAIL的扩展来从运动捕捉数据中生成行为信号,接着将低级别控制器嵌入更大的控制系统中,其中高级别控制器通过RL学习调制低级别控制器来解决新任务。

显然,通过对抗模仿学习,人偶会有更加灵活的身手。

强大的模仿能力

据悉,该系统的具体实现主要基于一种生成模型的神经网络架构,它能够学习不同行为之间的关系。

看Deepmind机器人尬舞,边玩边学人工智能

首先,给其一个基本动作,通过训练,该系统可以自动对最基本动作进行编码,并且基于基本动作及对抗学习,系统自动微小改变来创新一个新动作。同时,研究团队还表示他们的系统可以在不同类型的行为之间切换。

总结

实现系统的灵活性和适应性是AI研究的关键因素,Deepmind研究团队直面困难,专注于开发灵活的系统,虽然目前系统模型依然粗糙,但是我们还是很期待后期进一步的优化和改进后的成果。


原文发布时间: 2017-07-13 14:22
本文作者: Lynn
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
6天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
38 3
|
5天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
66 11
|
10天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
55 4
|
10天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
14天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
12天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
13天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
5天前
|
存储 人工智能 搜索推荐
AI智能语音机器人的基本业务流程
简介: 先画个图,了解下AI语音机器人的基本业务流程。上图是一个AI语音机器人的业务流程,简单来说就是首先要配置话术,就是告诉机器人在遇到问题该怎么回答,这个不同公司不同行业的差别比较大,所以一般每个客户都会配置其个性化的话术。话术配置完成后,需要给账号配置线路,目的就是能够顺利的把电话打出去。线路配完后,就是建立任务了,说白了就是导入电话号码,因为资源有限,不可能导入一批立即打完,所以需要以任务的形式分配给机器人,然后机器人逐个完成。值得一提的是,如果有多条线路,创建任务时建议提供线路选择功能,很多公司的业务不止一个城市,而大家又是比较习惯接听自己所在城市的电话,所以这个选择主