每日学术速递5.11

简介: 网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion


3d943c59f495443f09acf633230f64e3.png

标题:扩散解释器:文本到图像稳定扩散的视觉解释

作者:Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng

文章链接:https://arxiv.org/abs/2305.03509

项目代码:https://huggingface.co/papers/2305.03509

c3e5c9321ca0658f9dfbe5e5dc4d65ad.png

c4b7ffa03d7e5c9602c40d01559aa0d9.png

5bfda544a1b72e60c84e2def8a3012ee.png

a9efaf000feb747a46eebbe499ab6491.png

摘要:

       基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而,它们复杂的内部结构和操作往往使非专家难以理解。我们介绍了 Diffusion Explainer,这是第一个解释 Stable Diffusion 如何将文本提示转换为图像的交互式可视化工具。Diffusion Explainer 将 Stable Diffusion 复杂组件的视觉概览与其底层操作的详细解释紧密集成,使用户能够通过动画和交互元素在多个抽象级别之间流畅地转换。通过比较两个相关文本提示引导的图像表示在细化时间步上的演变,用户可以发现提示对图像生成的影响。Diffusion Explainer 在用户的 Web 浏览器中本地运行,无需安装或专用硬件,从而扩大了公众对现代 AI 技术的教育机会。

2.Composite Motion Learning with Task Control(SIGGRAPH 2023)

6b36f7eedbfe9efc5c023c6dfe8c91a6.png

标题:具有任务控制的复合运动学习

作者:Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas

文章链接:https://arxiv.org/abs/2305.03286

项目代码:https://github.com/xupei0610/CompositeMotion

69277ff35f784aab181a9905e7d2e5a3.png

782ddc97ec3127a3db9cbe108f2ecd0a.png

dcda4899de575103d6e569a9e0d1ea8b.png

34a38956ba6dcd9b69697dc84d672811.png

摘要:

       我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与现有的使用强化学习模仿全身运动的数据驱动方法相比,我们通过在类似 GAN 的设置中利用多个鉴别器,同时并直接从多个参考运动中学习特定身体部位的解耦运动。在此过程中,不需要任何手动工作来生成用于学习的复合参考动作。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑了多个特定于任务的奖励,并训练了一个单一的、多目标的控制策略。为此,我们提出了一种新的多目标学习框架,该框架自适应地平衡来自多个源和多个目标导向控制目标的不同运动的学习。此外,由于复合动作通常是简单行为的增强,我们引入了一种样本有效的方法来以增量方式训练复合控制策略,我们将预训练的策略重用为元策略并训练一个合作策略以适应meta one 用于新的复合任务。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务中的适用性。

3.A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

d455f9236e4e211b98586b7465742197.png

标题:一套用于多级多模式网页理解的生成任务

作者:Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

文章链接:https://arxiv.org/abs/2305.03668

项目代码:https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md

148b1183b2acdea8888471fb8ad076c1.png

3f05bc3e0e46cf51b7cf2f6611aacd96.png

5b2a85db230496fd62d4528f49c871b7.png

a524912ab5230abb69d823ec96c30900.png

177fd924fa84df466f9b996eb241d570.png

摘要:

       网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。网页任务因此很少受到关注,结构化图像文本数据也未得到充分利用。为了研究多模式网页理解,我们引入了 2M 页面的维基百科网页套件 (WikiWeb2M)。我们验证了它在三个生成任务上的效用:页面描述生成、部分摘要和上下文图像字幕。我们设计了一种新颖的注意力机制 Prefix Global,它选择最相关的图像和文本内容作为全局标记,以关注网页的其余部分以获取上下文。通过使用页面结构来分离这些标记,它的性能比全注意力更好,计算复杂度更低。实验表明,与之前工作的数据相比,来自 WikiWeb2M 的新注释提高了任务性能。我们还包括对序列长度、输入特征和模型大小的消融。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
123 0
每日学术速递3.27
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
154 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
213 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
79 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
125 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
163 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
150 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
103 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
111 0
下一篇
DataWorks