每日学术速递4.14

简介: 我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators


24245ed2e635dbf9f9beb2cdbc051b3c.png


标题:大规模深度强化学习:使用移动机械手对办公楼中的垃圾进行分类

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码:https://rl-at-scale.github.io/

6287338ae0f118515d39ffde997db562.png

3a07d184c15da944bcd0b1fe3a1403ea.png

29160d22a57f702b5bb49b82049012bf.png

8107330bd6c803f291f2bb23f3af070c.png

摘要:

       我们描述了一个用于深度强化学习机器人操作技能的系统,该系统应用于大规模的现实世界任务:分类办公楼中的可回收物和垃圾。深度 RL 策略在现实世界中的部署不仅需要有效的训练算法,还需要引导现实世界训练并实现广泛泛化的能力。为此,我们的系统——大规模强化学习 (RLS)——将来自真实世界数据的可扩展深度强化学习与来自模拟训练的引导相结合,并结合来自现有计算机视觉系统的辅助输入,以此作为促进对新对象的泛化的一种方式,同时保留端到端培训的好处。我们分析了系统中不同设计决策的权衡,并提出了大规模的实证验证,其中包括对在 24 个月的实验过程中收集的真实世界数据的培训,这些数据来自三座办公楼中的 23 个机器人,总计 9527 小时的机器人体验训练集。我们的最终验证还包括跨 240 个垃圾站配置的 4800 次评估试验,以便详细评估设计决策对我们系统的影响、包含更多真实世界数据的缩放效应以及该方法在新颖性上的性能对象。

2.Adaptive Human Matting for Dynamic Videos(CVPR 2023)

标题:动态视频的自适应人类抠图

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/microsoft/AdaM

91b9bae7336e2642a14eb725da94eccb.png

7197e92d25f1960bf02db8a32cf3a8e2.png

摘要:

       视频抠图的最新努力集中在消除 trimap 依赖性上,因为 trimap 注释很昂贵,而且基于 trimap 的方法不太适合实时应用程序。尽管最新的 tripmap-free 方法显示出可喜的结果,但在处理高度多样化和非结构化的视频时,它们的性能往往会下降。我们通过引入动态视频的自适应遮罩(称为 Adam)来解决这一限制,该框架旨在同时区分前景和背景并捕获前景中人类主体的 alpha 遮罩细节。采用两个互连的网络设计来实现这一目标:(1) 一个编码器-解码器网络,它产生 alpha 遮罩和中间掩码,用于指导变换器自适应地解码前景和背景,以及 (2) 一个变换器网络,其中长- 和短期注意力相结合以保留空间和时间上下文,促进前景细节的解码。我们在最近引入的数据集上对我们的方法进行了基准测试和研究,表明我们的模型显着改善了复杂真实世界视频中的消光真实感和时间连贯性,并实现了新的一流泛化能力。此 https URL 提供了更多详细信息和示例。

3.ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

716daa6db6b0b4657230d69406d00967.png

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

477e8976791752f3e0833a8f7a0a9633.png


097edbde9027cc62a48359b335b9f0e4.png

3f159ef73ebd5f1e6c607de0ad0c3ad9.png


摘要:

       我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(例如,CLIP 38.6%),使其成为评估和改进文本到图像合成的有前途的自动指标。

目录
相关文章
|
Linux C语言 Windows
荔枝派Zero(全志V3S)一键镜像烧录(windows和linux下)
搞到了一块荔枝派Zero,其CPU为全志V3S, ARM Cortex-A7, 最高1.2GHz,不得不说这小东西能达到这么高的主频真是让我大为震撼,废话不多说,先让其跑起来,证明板子是好的
949 0
|
Java 开发工具 数据安全/隐私保护
技术博客:市面上加密混淆软件的比较和推荐
技术博客:市面上加密混淆软件的比较和推荐
312 0
|
前端开发 Java 应用服务中间件
Gateway网关使用不规范,同事加班泪两行~
Gateway网关使用不规范,同事加班泪两行~
Gateway网关使用不规范,同事加班泪两行~
|
6月前
|
网络协议 网络虚拟化 Python
配置BGP/MPLS IP VPN示例——详解版
本文介绍了BGP/MPLS IP VPN的配置示例,分部1与分部2只能和总部通信,不能互相通信。通过MPLS VPN实现分部与总部间的通信,使用BGP协议传递路由。配置包括接口IP地址设置、OSPF域内互通、PE上的VPN实例配置、MP-IBGP配置、PE与CE间EBGP对等体关系建立、MPLS及MPLS LDP功能配置,并验证了配置结果。最终测试显示,同一VPN下的CE设备可相互Ping通,不同VPN下的CE设备则不能。
配置BGP/MPLS IP VPN示例——详解版
|
3月前
|
JSON 安全 测试技术
什么是API接口测试?这可能是全网最全的教程了!
API 是应用程序间的“中间人”,用于实现通信和数据交换。随着微服务架构的普及,API 数量激增,其质量对系统稳定性至关重要。API 测试可验证功能、性能与安全性,帮助开发者在部署前发现并修复问题,提升系统可靠性。测试内容包括请求方法、URL、请求头、请求体、响应状态码与响应数据等。常用工具如 Postman、AREX 可辅助测试,确保 API 在不同场景下的正确性与稳定性。
|
NoSQL MongoDB 数据库
MongoDB 分页神器:limit() 和 skip() 方法详解
MongoDB 分页神器:limit() 和 skip() 方法详解
317 1
|
11月前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
时间序列分析实战(五):ARIMA加法(疏系数)模型建模
时间序列分析实战(五):ARIMA加法(疏系数)模型建模
ThreeJs手动控制动画播放与暂停
这篇文章介绍了如何在Three.js中手动控制动画的播放与暂停,包括设置动画混合器、监听按键事件以调整动画状态和速度的方法。
430 0
ThreeJs手动控制动画播放与暂停
|
JSON 前端开发 中间件
三万字长文让你彻底掌握 FastAPI
三万字长文让你彻底掌握 FastAPI
2585 1