​又一个里程碑,谷歌发布最新研究,机器学习开辟新篇章!

简介: 在谷歌最新的论文中,研究人员提出了“非政策强化学习”算法OPC,它是强化学习的一种变体,它能够评估哪种机器学习模型将产生最好的结果。数据显示,OPC比基线机器学习算法有着显著的提高,更加稳健可靠。

image.png

智造观点

在谷歌最新的论文中,研究人员提出了“非政策强化学习”算法OPC,它是强化学习的一种变体,它能够评估哪种机器学习模型将产生最好的结果。数据显示,OPC比基线机器学习算法有着显著的提高,更加稳健可靠。

在谷歌AI研究团队一篇新发表的论文《通过非政策分类进行非政策评估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他们提出了所称的“非政策分类”,即OPC(off-policy classification)。它能够评估AI的表现,通过将评估视为一个分类问题来驱动代理性能。

研究人员认为他们的方法是强化学习的一种变体,它利用奖励来推动软件政策实现与图像输入协同工作这个目标,并扩展到包括基于视觉的机器人抓取在内的任务。

image.png

“完全脱离政策强化学习是一种变体。代理完全从旧数据中学习,对于工程师来说这是很有吸引力的,因为它可以在不需要物理机器人的情况下进行模型迭代。”

Robotics at Google(专注机器学的的谷歌新团队)的软件工程师Alexa Irpan写道,“完全脱离政策的RL,可以在先前代理收集的同一固定数据集上训练多个模型,然后选择出最佳的那个模型。”

image.png

但是OPC并不像听起来那么容易,正如Irpan在论文中所描述的,非政策性强化学习可以通过机器人进行人工智能模型培训,但不能进行评估。并且在需要评估大量模型的方法中,地面实况评估通常效率太低。

OPC在假设任务状态变化方面几乎没有随机性,同时假设代理在实验结束时用“成功或失败”来解决这个问题。两个假设中第二个假设的二元性质,允许为每个操作分配两个分类标签(“有效”表示成功或“灾难性”表示失败)。

另外,OPC还依赖Q函数(通过Q学习算法学习)来估计行为的未来总回报。代理商选择具有最大预期回报的行动,其绩效通过所选行动的有效频率来衡量(这取决于Q函数如何正确地将行动分类为有效与灾难性),并以分类准确性作为非政策评估分数。

image.png

(左图为基线,右图为建议的方法之一,SoftOpC)

谷歌AI团队使用完全非策略强化学习对机器学习策略进行了模拟培训,然后使用从以前的实际数据中列出的非策略分数对其进行评估。

在机器人抓取任务时,他们报告OPC的一种变体SoftOPC在预测最终成功率方面表现最佳。假设有15种模型(其中7种纯粹在模拟中训练)具有不同的稳健性,SoftOPC产生的分数与与真正的抓取成功密切相关,并且相比于基线方法更加稳定可靠。

在未来的研究中,研究人员打算用“噪声”(noisier)和非二进制动力学来探索机器学习任务。“我们认为这个结果有希望应用于许多现实世界的RL问题,”Irpan在论文结尾写道。
来源:微信公众号 人工智能观察

目录
相关文章
|
4月前
|
机器学习/深度学习 数据采集 搜索推荐
机器学习在智能推荐系统中的个性化算法研究
机器学习在智能推荐系统中的个性化算法研究
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
机器学习——开启人类智慧新篇章
在科技飞速发展的时代,机器学习作为人工智能的核心,正深刻改变生活。它不仅带来前所未有的便捷,更拓展了认知边界。尤其在医疗领域,通过深度学习技术提高诊断准确性与个性化治疗,拯救生命。在生活中,从智能语音助手到自动驾驶,机器学习无处不在,提升效率与安全性。它还帮助解决复杂问题如气候变化与能源危机,通过大数据分析提供可持续发展的解决方案。机器学习作为开启智慧新篇章的钥匙,将持续推动人类文明进步。
43 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
128 0
|
2月前
|
机器学习/深度学习 数据采集 运维
预见未来:机器学习引领运维革命——故障预测与自动化响应的新篇章
【8月更文挑战第2天】智能化运维:机器学习在故障预测和自动化响应中的应用
50 1
|
3月前
|
机器学习/深度学习 人工智能 API
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
|
5月前
|
机器学习/深度学习 边缘计算 人工智能
利用机器学习优化数据中心能效的研究
【5月更文挑战第21天】 在数据中心运营的成本结构中,能源消耗占据了显著的比例。随着计算需求的不断增长,如何在保持高性能的同时降低能耗成为一大挑战。本文通过探索机器学习技术在数据中心能源管理中的应用,提出了一种新的能效优化框架。该框架采用预测算法动态调整资源分配,并通过仿真实验证明其在降低能耗和提高资源利用率方面的有效性。研究结果不仅对理解数据中心能源消耗模式具有理论意义,也为实际操作提供了可行的节能策略。
|
5月前
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第28天】 在数据中心设计和运营中,能源效率已经成为一个核心议题。随着计算需求的不断增长,数据中心的能耗问题愈发凸显,而传统的节能方法逐渐显得力不从心。本文旨在探讨如何通过机器学习技术提升数据中心的能源效率,降低运营成本,并对环境影响最小化。文中详细分析了机器学习在数据中心制冷管理、资源调度、故障预测及维护等方面的应用,并提出了一套综合策略,以期达到智能化管理和节能减排的双重目标。
|
5月前
|
机器学习/深度学习 存储 人工智能
利用机器学习优化数据中心能效的策略研究
【5月更文挑战第30天】 在信息技术日益发展的当下,数据中心作为其支撑的基础设施之一,承担着处理和存储海量数据的重要任务。随着数据中心规模的扩张和计算需求的增加,如何在保证性能的同时降低能耗成为了业界关注的焦点。本文通过引入机器学习技术,探讨了数据中心能效优化的新方法。文中首先概述了数据中心能效的重要性及其面临的挑战,随后详细介绍了机器学习在数据中心能效管理中的应用方式,包括预测模型的构建、能源消耗模式的分析以及动态调整策略的实施。最后,通过一系列实验验证了所提策略的有效性,并与传统方法进行了对比分析。
|
5月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化数据中心能效的研究数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第29天】在云计算和大数据时代,数据中心的能效问题成为关键挑战之一。本文通过集成机器学习技术与现有数据中心管理策略,提出了一种新型的智能优化框架。该框架能够实时分析数据中心的能耗模式,并自动调整资源分配,以达到降低能耗的目的。研究结果表明,应用机器学习算法可以显著提升数据中心的能源使用效率,同时保持服务质量。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】人力资源管理的新篇章:AI驱动的高效与智能化
【机器学习】人力资源管理的新篇章:AI驱动的高效与智能化