每日学术速递5.11

简介: 网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion


3d943c59f495443f09acf633230f64e3.png

标题:扩散解释器:文本到图像稳定扩散的视觉解释

作者:Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng

文章链接:https://arxiv.org/abs/2305.03509

项目代码:https://huggingface.co/papers/2305.03509

c3e5c9321ca0658f9dfbe5e5dc4d65ad.png

c4b7ffa03d7e5c9602c40d01559aa0d9.png

5bfda544a1b72e60c84e2def8a3012ee.png

a9efaf000feb747a46eebbe499ab6491.png

摘要:

       基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而,它们复杂的内部结构和操作往往使非专家难以理解。我们介绍了 Diffusion Explainer,这是第一个解释 Stable Diffusion 如何将文本提示转换为图像的交互式可视化工具。Diffusion Explainer 将 Stable Diffusion 复杂组件的视觉概览与其底层操作的详细解释紧密集成,使用户能够通过动画和交互元素在多个抽象级别之间流畅地转换。通过比较两个相关文本提示引导的图像表示在细化时间步上的演变,用户可以发现提示对图像生成的影响。Diffusion Explainer 在用户的 Web 浏览器中本地运行,无需安装或专用硬件,从而扩大了公众对现代 AI 技术的教育机会。

2.Composite Motion Learning with Task Control(SIGGRAPH 2023)

6b36f7eedbfe9efc5c023c6dfe8c91a6.png

标题:具有任务控制的复合运动学习

作者:Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas

文章链接:https://arxiv.org/abs/2305.03286

项目代码:https://github.com/xupei0610/CompositeMotion

69277ff35f784aab181a9905e7d2e5a3.png

782ddc97ec3127a3db9cbe108f2ecd0a.png

dcda4899de575103d6e569a9e0d1ea8b.png

34a38956ba6dcd9b69697dc84d672811.png

摘要:

       我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与现有的使用强化学习模仿全身运动的数据驱动方法相比,我们通过在类似 GAN 的设置中利用多个鉴别器,同时并直接从多个参考运动中学习特定身体部位的解耦运动。在此过程中,不需要任何手动工作来生成用于学习的复合参考动作。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑了多个特定于任务的奖励,并训练了一个单一的、多目标的控制策略。为此,我们提出了一种新的多目标学习框架,该框架自适应地平衡来自多个源和多个目标导向控制目标的不同运动的学习。此外,由于复合动作通常是简单行为的增强,我们引入了一种样本有效的方法来以增量方式训练复合控制策略,我们将预训练的策略重用为元策略并训练一个合作策略以适应meta one 用于新的复合任务。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务中的适用性。

3.A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

d455f9236e4e211b98586b7465742197.png

标题:一套用于多级多模式网页理解的生成任务

作者:Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

文章链接:https://arxiv.org/abs/2305.03668

项目代码:https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md

148b1183b2acdea8888471fb8ad076c1.png

3f05bc3e0e46cf51b7cf2f6611aacd96.png

5b2a85db230496fd62d4528f49c871b7.png

a524912ab5230abb69d823ec96c30900.png

177fd924fa84df466f9b996eb241d570.png

摘要:

       网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。网页任务因此很少受到关注,结构化图像文本数据也未得到充分利用。为了研究多模式网页理解,我们引入了 2M 页面的维基百科网页套件 (WikiWeb2M)。我们验证了它在三个生成任务上的效用:页面描述生成、部分摘要和上下文图像字幕。我们设计了一种新颖的注意力机制 Prefix Global,它选择最相关的图像和文本内容作为全局标记,以关注网页的其余部分以获取上下文。通过使用页面结构来分离这些标记,它的性能比全注意力更好,计算复杂度更低。实验表明,与之前工作的数据相比,来自 WikiWeb2M 的新注释提高了任务性能。我们还包括对序列长度、输入特征和模型大小的消融。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
140 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
148 0
每日学术速递3.20
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
139 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
74 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
92 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
124 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
127 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
113 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
177 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
91 0
下一篇
无影云桌面