伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型

简介: 伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型

所解决的问题?

  作者在这里所关心的是,智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的,比如是没有带注释的,他不会有描述说为什么这么做,如果像模仿学习那样利用这些样本的话,还会存在分布漂移的问题(distributional shift)。对于第一个问题作者用图模型做,第二个问题用domain-dependent prior做。

背景

  人类是很容易从别人的trajectory中进行学习,但是由于个体之间的差异,从observation学习action其实是很困难的,比如对于同一个重物,成年人可以很轻松拿起来,而对于婴儿就不是那么容易了。而作者结合历史的观测来解决这个问题。基于模型的强化学习基本上都是要学一个状态-动作的条件概率分布,如果只给observation,其实是很难学习的。而现实生活中却又存在这样大量地数据,你只能获取observation,并不知道具体所采取的动作是什么。比如一个机器人捡东西的视频,你是不可能知道当前时刻输出的电流,扭矩这些东西的。

  作者提出了一种既能够从有动作标注的信息中学,也能从只有观测信息总学习model的方法。也就是action是否给定,都能学。当然了学状态转移的概率太多了,也不一一列举,今年争取做个相关的综述, 以后放在公众号的菜单栏吧,方便大家寻找.

  除此之外,为了能够处理observational 和interaction data , 作者还需要解决Domain adaptation的问题. 对跨域的不变性进行正则化( regularizing for invariance across domains )是不够理想的。例如,如果人类的观察数据涉及到复杂的操作(例如,工具使用),而交互数据只涉及到简单的操作,我们不希望模型对这些差异保持不变。因此,我们采取了一种不同的方法:我们不对跨域的不变性进行正则化,而是明确地对每个域中的(潜伏)行动变量的分布进行建模( model the distributions over (latent) action variables in each of the domains)。

所采用的方法?

  对于作者的设定,手中是有两类数据 而这种数据image.png是存在domain shift的,比如从人类的视频数据和从机器人的交互数据学习. 目的就是为了学一个model,预测未来image.png


概率图模型


  为了能够从观测和交互数据中都能学习,作者提出的概率图模型框架如下图所示:

  生成模型可以表示为:

image.png


  z t用高斯分布进行拟合,动作解码image.png 和状态转移模型都基于高斯分布的输出,用神经网络做. 转移模型用z t作为输入,因此需要后验分布 p ( z t ∣ a t )去生成action-conditioned的隐变量,比如满足这个采样:

image.png

由于有没有action的数据,所以需要 image.png

 由于模型高度复杂和非线性原因,上述这两个后验分布是非常难算的。所以作者设计了两个分布,其网络结构如下所示:

  当动作可观察时,依据evidence lower bound (ELBO)进行优化,同时还需要优化网络框架,和动作编解码框架:


image.png


Domain Shift

  由于数据集是两种类型,所以作者这里还做了Domain Shift。具体做法如下图所示:

  将隐变量z zz分成两部分:image.png通过给不同的先验分布(prior distributions)来让网络能够学地不同。image.png的先验分布给相同的。

取得的效果?

所出版信息?作者信息?

  论文是2019年12月三十号上传到arXiv上面的,估计今年就能知道投到那了。

参考资料

相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
63 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
1月前
|
机器学习/深度学习 人工智能 安全
TPAMI:安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
【10月更文挑战第27天】强化学习(RL)在实际应用中展现出巨大潜力,但其安全性问题日益凸显。为此,安全强化学习(SRL)应运而生。近日,来自慕尼黑工业大学、同济大学和加州大学伯克利分校的研究人员在《IEEE模式分析与机器智能汇刊》上发表了一篇综述论文,系统介绍了SRL的方法、理论和应用。SRL主要面临安全性定义模糊、探索与利用平衡以及鲁棒性与可靠性等挑战。研究人员提出了基于约束、基于风险和基于监督学习等多种方法来应对这些挑战。
59 2
|
3月前
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
65 6
|
4月前
|
人工智能 数据库
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
本文提供了关于如何判断期刊类别、影响因子,识别顶级会议,以及在期刊内部进行检索的科研技巧,并探讨了AI技术在撰写综述和制作PPT方面的应用。
162 6
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
|
7月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
74 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
141 0
|
机器学习/深度学习 Web App开发 算法
伦敦大学学院、UC伯克利联手,撰文综述深度强化学习泛化研究
伦敦大学学院、UC伯克利联手,撰文综述深度强化学习泛化研究
118 0
|
机器学习/深度学习 自然语言处理 算法
「扩散模型」首篇综述!谷歌&北大最新研究
「扩散模型」首篇综述!谷歌&北大最新研究
570 0
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2019杰出论文深度解读:窥视机器学习的核心问题
在NeurIPS 2019一千多篇入选论文中,有那么1篇杰出论文值得长时间、深入、反复学习。
148 0
NeurIPS 2019杰出论文深度解读:窥视机器学习的核心问题
|
机器学习/深度学习 人工智能 计算机视觉
超全!CS 顶会历届最佳论文大列表,机器学习、深度学习一应俱全!
超全!CS 顶会历届最佳论文大列表,机器学习、深度学习一应俱全!
466 0
超全!CS 顶会历届最佳论文大列表,机器学习、深度学习一应俱全!