每日学术速递4.14

简介: 我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators


24245ed2e635dbf9f9beb2cdbc051b3c.png


标题:大规模深度强化学习:使用移动机械手对办公楼中的垃圾进行分类

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码:https://rl-at-scale.github.io/

6287338ae0f118515d39ffde997db562.png

3a07d184c15da944bcd0b1fe3a1403ea.png

29160d22a57f702b5bb49b82049012bf.png

8107330bd6c803f291f2bb23f3af070c.png

摘要:

       我们描述了一个用于深度强化学习机器人操作技能的系统,该系统应用于大规模的现实世界任务:分类办公楼中的可回收物和垃圾。深度 RL 策略在现实世界中的部署不仅需要有效的训练算法,还需要引导现实世界训练并实现广泛泛化的能力。为此,我们的系统——大规模强化学习 (RLS)——将来自真实世界数据的可扩展深度强化学习与来自模拟训练的引导相结合,并结合来自现有计算机视觉系统的辅助输入,以此作为促进对新对象的泛化的一种方式,同时保留端到端培训的好处。我们分析了系统中不同设计决策的权衡,并提出了大规模的实证验证,其中包括对在 24 个月的实验过程中收集的真实世界数据的培训,这些数据来自三座办公楼中的 23 个机器人,总计 9527 小时的机器人体验训练集。我们的最终验证还包括跨 240 个垃圾站配置的 4800 次评估试验,以便详细评估设计决策对我们系统的影响、包含更多真实世界数据的缩放效应以及该方法在新颖性上的性能对象。

2.Adaptive Human Matting for Dynamic Videos(CVPR 2023)

标题:动态视频的自适应人类抠图

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/microsoft/AdaM

91b9bae7336e2642a14eb725da94eccb.png

7197e92d25f1960bf02db8a32cf3a8e2.png

摘要:

       视频抠图的最新努力集中在消除 trimap 依赖性上,因为 trimap 注释很昂贵,而且基于 trimap 的方法不太适合实时应用程序。尽管最新的 tripmap-free 方法显示出可喜的结果,但在处理高度多样化和非结构化的视频时,它们的性能往往会下降。我们通过引入动态视频的自适应遮罩(称为 Adam)来解决这一限制,该框架旨在同时区分前景和背景并捕获前景中人类主体的 alpha 遮罩细节。采用两个互连的网络设计来实现这一目标:(1) 一个编码器-解码器网络,它产生 alpha 遮罩和中间掩码,用于指导变换器自适应地解码前景和背景,以及 (2) 一个变换器网络,其中长- 和短期注意力相结合以保留空间和时间上下文,促进前景细节的解码。我们在最近引入的数据集上对我们的方法进行了基准测试和研究,表明我们的模型显着改善了复杂真实世界视频中的消光真实感和时间连贯性,并实现了新的一流泛化能力。此 https URL 提供了更多详细信息和示例。

3.ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

716daa6db6b0b4657230d69406d00967.png

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

477e8976791752f3e0833a8f7a0a9633.png


097edbde9027cc62a48359b335b9f0e4.png

3f159ef73ebd5f1e6c607de0ad0c3ad9.png


摘要:

       我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(例如,CLIP 38.6%),使其成为评估和改进文本到图像合成的有前途的自动指标。

目录
打赏
0
0
0
0
12
分享
相关文章
kde
|
6天前
|
Docker镜像加速指南:手把手教你配置国内镜像源
配置国内镜像源可大幅提升 Docker 拉取速度,解决访问 Docker Hub 缓慢问题。本文详解 Linux、Docker Desktop 配置方法,并提供测速对比与常见问题解答,附最新可用镜像源列表,助力高效开发部署。
kde
4027 8
国内如何安装和使用 Claude Code镜像教程 - Windows 用户篇
国内如何安装和使用 Claude Code镜像教程 - Windows 用户篇
678 2
Dify MCP 保姆级教程来了!
大语言模型,例如 DeepSeek,如果不能联网、不能操作外部工具,只能是聊天机器人。除了聊天没什么可做的。
1034 13
【保姆级图文详解】大模型、Spring AI编程调用大模型
【保姆级图文详解】大模型、Spring AI编程调用大模型
444 7
【保姆级图文详解】大模型、Spring AI编程调用大模型
|
4天前
typora免费版,激活方法,Typora使用教程
Typora是一款简洁高效的Markdown编辑器,支持即时渲染。本教程涵盖安装方法、文件操作、视图控制、格式排版、字体样式及Markdown语法,助你快速上手使用Typora进行高效写作。
751 0
2025年最新版最细致Maven安装与配置指南(任何版本都可以依据本文章配置)
本文详细介绍了Maven的项目管理工具特性、安装步骤和配置方法。主要内容包括: Maven概述:解释Maven作为基于POM的构建工具,具备依赖管理、构建生命周期和仓库管理等功能。 安装步骤: 从官网下载最新版本 解压到指定目录 创建本地仓库文件夹 关键配置: 修改settings.xml文件 配置阿里云和清华大学镜像仓库以加速依赖下载 设置本地仓库路径 附加说明:包含详细的配置示例和截图指导,适用于各种操作系统环境。 本文提供了完整的Maven安装和配置
2025年最新版最细致Maven安装与配置指南(任何版本都可以依据本文章配置)
【保姆级图文详解】RAG(检索增强生成)技术和流程:Embedding(语义理解) + 向量数据库(高效检索) + 召回 / 精排(筛选优化) + 混合策略(场景适配)
【保姆级图文详解】RAG(检索增强生成)技术和流程:Embedding(语义理解) + 向量数据库(高效检索) + 召回 / 精排(筛选优化) + 混合策略(场景适配)
333 5
企业如何用Data Agent实现数据价值效率的飞跃
在数字化转型背景下,数据被视为“新时代的石油”,但多数企业仍面临数据价值难以高效挖掘的困境。文章深入剖析了当前数据分析中存在的“被动响应”模式及其带来的四大挑战,并提出通过Data Agent实现主动智能与数据分析民主化的新路径。Data Agent基于大语言模型和强化学习技术,具备理解、思考与行动能力,能够从“人找数据”转变为“数据找人”,推动数据洞察从专业人员走向全员参与。
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
阿里云推出基于场景的解决方案免费试用活动,新老用户均可领取100点试用点,完成部署还可再领最高100点,相当于一年可获得最高200元云资源。覆盖AI、大数据、互联网应用开发等多个领域,支持热门场景如DeepSeek部署、模型微调等,助力企业和开发者快速验证方案并上云。
347 25
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等