CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion
标题:扩散解释器:文本到图像稳定扩散的视觉解释
作者:Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng
文章链接:https://arxiv.org/abs/2305.03509
项目代码:https://huggingface.co/papers/2305.03509
摘要:
基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而,它们复杂的内部结构和操作往往使非专家难以理解。我们介绍了 Diffusion Explainer,这是第一个解释 Stable Diffusion 如何将文本提示转换为图像的交互式可视化工具。Diffusion Explainer 将 Stable Diffusion 复杂组件的视觉概览与其底层操作的详细解释紧密集成,使用户能够通过动画和交互元素在多个抽象级别之间流畅地转换。通过比较两个相关文本提示引导的图像表示在细化时间步上的演变,用户可以发现提示对图像生成的影响。Diffusion Explainer 在用户的 Web 浏览器中本地运行,无需安装或专用硬件,从而扩大了公众对现代 AI 技术的教育机会。
2.Composite Motion Learning with Task Control(SIGGRAPH 2023)
标题:具有任务控制的复合运动学习
作者:Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas
文章链接:https://arxiv.org/abs/2305.03286
项目代码:https://github.com/xupei0610/CompositeMotion
摘要:
我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与现有的使用强化学习模仿全身运动的数据驱动方法相比,我们通过在类似 GAN 的设置中利用多个鉴别器,同时并直接从多个参考运动中学习特定身体部位的解耦运动。在此过程中,不需要任何手动工作来生成用于学习的复合参考动作。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑了多个特定于任务的奖励,并训练了一个单一的、多目标的控制策略。为此,我们提出了一种新的多目标学习框架,该框架自适应地平衡来自多个源和多个目标导向控制目标的不同运动的学习。此外,由于复合动作通常是简单行为的增强,我们引入了一种样本有效的方法来以增量方式训练复合控制策略,我们将预训练的策略重用为元策略并训练一个合作策略以适应meta one 用于新的复合任务。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务中的适用性。
3.A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding
标题:一套用于多级多模式网页理解的生成任务
作者:Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo
文章链接:https://arxiv.org/abs/2305.03668
项目代码:https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md
摘要:
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。网页任务因此很少受到关注,结构化图像文本数据也未得到充分利用。为了研究多模式网页理解,我们引入了 2M 页面的维基百科网页套件 (WikiWeb2M)。我们验证了它在三个生成任务上的效用:页面描述生成、部分摘要和上下文图像字幕。我们设计了一种新颖的注意力机制 Prefix Global,它选择最相关的图像和文本内容作为全局标记,以关注网页的其余部分以获取上下文。通过使用页面结构来分离这些标记,它的性能比全注意力更好,计算复杂度更低。实验表明,与之前工作的数据相比,来自 WikiWeb2M 的新注释提高了任务性能。我们还包括对序列长度、输入特征和模型大小的消融。