每日学术速递5.11

简介: 网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion


3d943c59f495443f09acf633230f64e3.png

标题:扩散解释器:文本到图像稳定扩散的视觉解释

作者:Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng

文章链接:https://arxiv.org/abs/2305.03509

项目代码:https://huggingface.co/papers/2305.03509

c3e5c9321ca0658f9dfbe5e5dc4d65ad.png

c4b7ffa03d7e5c9602c40d01559aa0d9.png

5bfda544a1b72e60c84e2def8a3012ee.png

a9efaf000feb747a46eebbe499ab6491.png

摘要:

       基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而,它们复杂的内部结构和操作往往使非专家难以理解。我们介绍了 Diffusion Explainer,这是第一个解释 Stable Diffusion 如何将文本提示转换为图像的交互式可视化工具。Diffusion Explainer 将 Stable Diffusion 复杂组件的视觉概览与其底层操作的详细解释紧密集成,使用户能够通过动画和交互元素在多个抽象级别之间流畅地转换。通过比较两个相关文本提示引导的图像表示在细化时间步上的演变,用户可以发现提示对图像生成的影响。Diffusion Explainer 在用户的 Web 浏览器中本地运行,无需安装或专用硬件,从而扩大了公众对现代 AI 技术的教育机会。

2.Composite Motion Learning with Task Control(SIGGRAPH 2023)

6b36f7eedbfe9efc5c023c6dfe8c91a6.png

标题:具有任务控制的复合运动学习

作者:Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas

文章链接:https://arxiv.org/abs/2305.03286

项目代码:https://github.com/xupei0610/CompositeMotion

69277ff35f784aab181a9905e7d2e5a3.png

782ddc97ec3127a3db9cbe108f2ecd0a.png

dcda4899de575103d6e569a9e0d1ea8b.png

34a38956ba6dcd9b69697dc84d672811.png

摘要:

       我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与现有的使用强化学习模仿全身运动的数据驱动方法相比,我们通过在类似 GAN 的设置中利用多个鉴别器,同时并直接从多个参考运动中学习特定身体部位的解耦运动。在此过程中,不需要任何手动工作来生成用于学习的复合参考动作。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑了多个特定于任务的奖励,并训练了一个单一的、多目标的控制策略。为此,我们提出了一种新的多目标学习框架,该框架自适应地平衡来自多个源和多个目标导向控制目标的不同运动的学习。此外,由于复合动作通常是简单行为的增强,我们引入了一种样本有效的方法来以增量方式训练复合控制策略,我们将预训练的策略重用为元策略并训练一个合作策略以适应meta one 用于新的复合任务。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务中的适用性。

3.A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

d455f9236e4e211b98586b7465742197.png

标题:一套用于多级多模式网页理解的生成任务

作者:Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

文章链接:https://arxiv.org/abs/2305.03668

项目代码:https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md

148b1183b2acdea8888471fb8ad076c1.png

3f05bc3e0e46cf51b7cf2f6611aacd96.png

5b2a85db230496fd62d4528f49c871b7.png

a524912ab5230abb69d823ec96c30900.png

177fd924fa84df466f9b996eb241d570.png

摘要:

       网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。网页任务因此很少受到关注,结构化图像文本数据也未得到充分利用。为了研究多模式网页理解,我们引入了 2M 页面的维基百科网页套件 (WikiWeb2M)。我们验证了它在三个生成任务上的效用:页面描述生成、部分摘要和上下文图像字幕。我们设计了一种新颖的注意力机制 Prefix Global,它选择最相关的图像和文本内容作为全局标记,以关注网页的其余部分以获取上下文。通过使用页面结构来分离这些标记,它的性能比全注意力更好,计算复杂度更低。实验表明,与之前工作的数据相比,来自 WikiWeb2M 的新注释提高了任务性能。我们还包括对序列长度、输入特征和模型大小的消融。

目录
相关文章
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
140 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
115 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
129 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
126 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
111 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
124 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
133 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
112 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
105 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
143 0