每日学术速递4.4

简介: 我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

9f1fc61061b3b98d5d9abd0377ea2740.png

标题:Baize:一种对自聊天数据进行参数高效调优的开源聊天模型

作者:Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

文章链接:https://arxiv.org/abs/2304.01196

项目代码:https://t.co/yRCl9Z4v0z

685b82e0faee038ac1886e43c7d4c5be.png

1aa983e9edfec85100cbd9816264dfd5.png

e5a16654063b3bf3f1567e1d2d9b94a4.png

摘要:

       ChatGPT 等聊天模型已显示出令人印象深刻的功能,并已在众多领域迅速采用。然而,这些模型只能通过受限的 API 访问,这为该领域的新研究和进步创造了障碍。我们提出了一种管道,可以通过利用 ChatGPT 与自己进行对话来自动生成高质量的多轮聊天语料库。随后,我们采用参数有效调整来增强开源大型语言模型 LLaMA。由此产生的名为 Baize 的模型在带有护栏的多轮对话中展示了良好的性能,可以最大限度地减少潜在风险。

Subjects: cs.CV


2.ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

32cdc4c84eea7d235457c3d2c4f01161.png

标题:ReMoDiffuse:检索增强运动扩散模型

作者:Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou

文章链接:https://arxiv.org/abs/2304.01116

项目代码:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

dec97fc8e014a3c316fce0d1d20e7a26.png

4450e165f05f6e221c8cc50ddd1188a9.png

facae4c89128536b2dc5052d03921092.png

ef11cd765a2250d327ba2e6ee500c2b0.png

摘要:

       3D 人体运动生成对于创意产业至关重要。最近的进展依赖于具有领域知识的生成模型来生成文本驱动的动作,从而在捕捉常见动作方面取得了实质性进展。然而,在更多样化的运动上的表现仍然不尽如人意。在这项工作中,我们提出了 ReMoDiffuse,这是一种基于扩散模型的运动生成框架,它集成了检索机制以改进去噪过程。ReMoDiffuse 通过三个关键设计增强了文本驱动运动生成的普遍性和多样性:1) 混合检索在语义和运动学相似性方面从数据库中找到适当的参考。2) Semantic-Modulated Transformer 有选择地吸收检索知识,适应检索样本和目标运动序列之间的差异。3)条件混合在推理过程中更好地利用检索数据库,克服了无分类器指导中的尺度敏感性。大量实验表明,ReMoDiffuse 通过平衡文本运动一致性和运动质量,优于最先进的方法,尤其是对于更多样化的运动生成。

3.Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

4b9ae926ff3c3a8a3922f4ddfe1c5221.png

标题:我们在哪里寻找用于体现智能的人工视觉皮层?

作者:Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain.etc

文章链接:https://arxiv.org/abs/2303.18240

项目代码:https://eai-vc.github.io/

95120f44832522a9ccc20f4f8f24d026.png

a5193c9a19b52e9a88f57746afb02cad.png

093059a3795d2b7406bbcb9966848398.png

75d351700c4a607bf653d612b0fd24ce.png

588d69b77bfe2df83f5d3617e0d06098.png

摘要:

       我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响,我们将来自 7 个不同来源(超过 560 万张图像)的超过 4,000 小时的以自我为中心的视频与 ImageNet 相结合,使用掩码自动编码 (MAE) 在切片上训练不同大小的视觉转换器这个数据。与之前工作的推论相反,我们发现扩展数据集的大小和多样性并不能普遍提高性能(但平均而言)。我们最大的模型,名为 VC-1,平均优于所有先前的 PVR,但也没有普遍占据优势。最后,我们证明了 VC-1 的任务或特定领域的适应性带来了实质性的收益,VC-1(适应性的)比 CortexBench 中所有基准测试中最知名的结果具有竞争力或更优越的性能。这些模型需要 10,000 多个 GPU 小时来训练,并且可以在我们的网站上找到以供研究社区使用。

目录
相关文章
phpenv:PHP多版本安装和管理工具
phpenv:PHP多版本安装和管理工具
1275 0
|
域名解析 安全 应用服务中间件
手把手教你安装WordPress详细教程(图文)
如果还有不了解宝塔面板怎么使用的小伙伴,可以看下我总结的系列教程,保证从新手变老鸟:
1573 0
手把手教你安装WordPress详细教程(图文)
|
JavaScript 前端开发 图形学
WebGL 技术详解
【10月更文挑战第7天】
668 132
|
10月前
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
304 14
|
9月前
|
API 数据安全/隐私保护 开发者
alibaba阿里巴巴国国际站商品详情数据示例参考
阿里巴巴国际站商品详情数据包含了丰富的商品信息,以下是一个示例参考,展示了通过调用阿里巴巴国际站的API接口(如item_get)可以获取到的商品详情数据:
|
9月前
|
搜索推荐 数据挖掘 数据安全/隐私保护
视频号小店达人带货系统开发
视频号小店达人带货系统开发是一个综合性的项目,旨在通过视频号平台为商家和达人提供一个高效、便捷的电商带货解决方案。
Pyside6-第九篇-QTextEdit多行文本编辑器
Pyside6-第九篇-QTextEdit多行文本编辑器
806 0
蚂蚁金服发布「定损宝」,推动图像定损技术在车险领域的应用
6 月 27 日,蚂蚁金服在北京宣布向保险行业全面开放技术产品「定损宝」,用 AI 技术模拟车险定损环节中的人工作业流程,帮助保险公司实现简单高效的自动定损,成为图像定损技术在车险领域的首次商业应用。
1836 0
蚂蚁金服发布「定损宝」,推动图像定损技术在车险领域的应用
|
存储 缓存 并行计算
【软件设计师备考 专题 】CPU和存储器的组成、性能和基本工作原理
【软件设计师备考 专题 】CPU和存储器的组成、性能和基本工作原理
425 0
|
监控 内存技术
博途软件PLCSIM仿真工具如何使用S7-1500 PLC仿真功能?
针对博途软件,西门子重新开发了PLCSIM,有了这个仿真工具我们就无需使用真实硬件,而可以对所编的程序进行仿真和调试。除此之外PLCSIM还增加了许多功能,比如说顺序控制的仿真。在今后的学习过程中我们会经常使用到PLCSIM,本节我们以S7-1500 PLC仿真功能为例,来介绍一下PLCSIM的操作和使用。
博途软件PLCSIM仿真工具如何使用S7-1500 PLC仿真功能?