每日学术速递3.22

简介: 我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion


983621f2fb6d350cc455fa95a8aa755f.png


标题:DS-Fusion:通过辨别和程式化扩散的艺术排版

作者:Maham Tanveer, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang

文章链接:https://arxiv.org/abs/2303.09604

项目代码:https://ds-fusion.github.io/

d0eded9d9d0ea7261249e7dfec6d27f7.png

046c6fee8ebfc510adb4e3816aada997.png

36aee51edc43ac2514548e4d3dca1154.png

摘要:

       我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。具体来说,我们在潜在扩散模型 (LDM) 中使用去噪生成器,并关键添加了一个基于 CNN 的鉴别器,以将输入样式适应输入文本。鉴别器使用给定字母/单词字体的光栅化图像作为真实样本,并将去噪生成器的输出作为假样本。我们的模型被创造为 DS-Fusion,用于区分和程式化的扩散。我们通过大量示例、定性和定量评估以及消融研究展示了我们方法的质量和多功能性。用户研究与包括 CLIPDraw 和 DALL-E 2 在内的强基线以及艺术家制作的排版进行比较,证明了 DS-Fusion 的强大性能。

2.HIVE: Harnessing Human Feedback for Instructional Visual Editing


标题:HIVE:利用人类反馈进行教学视觉编辑

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.09618

c7080a09f573cd76987b7c44bcf6096c.png

059d150e9e59ebac1dcbfad65aec7ea8.png

8f0117d913fc4f73514967f9ce7e2133.png

摘要:

       结合人类反馈已被证明对于使大型语言模型生成的文本与人类偏好保持一致至关重要。我们假设最先进的教学图像编辑模型,其中输出是根据输入图像和编辑指令生成的,同样可以从人类反馈中受益,因为它们的输出可能不符合用户的正确指令和偏好.在本文中,我们提出了一个新的框架来利用人类反馈进行教学可视化编辑 (HIVE)。具体来说,我们收集人类对编辑图像的反馈,并学习奖励函数来捕捉潜在的用户偏好。然后,我们介绍了可扩展的扩散模型微调方法,该方法可以根据估计的奖励结合人类偏好。此外,为了减轻数据限制带来的偏差,我们贡献了一个新的 1M 训练数据集、一个用于奖励学习的 3.6K 奖励数据集和一个 1K 评估数据集,以提高教学图像编辑的性能。我们在定量和定性方面进行了广泛的实证实验,表明 HIVE 在很大程度上优于以前最先进的教学图像编辑方法。

3.FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model


标题:FreeDoM:无训练能量引导条件扩散模型

作者:Jiwen Yu, Yinhuai Wang, Chen Zhao, Bernard Ghanem, Jian Zhang

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/ysig/learnable-typewriter

d543173a260fd546935b4c3420fc820c.png

2510366f81bf9235cfaa7195332652bb.png

52850da658b5b7e3fddc50e2d69f272a.png

摘要:

       最近,条件扩散模型因其出色的生成能力而在众多应用中受到欢迎。然而,许多现有方法需要训练。他们需要训练一个依赖时间的分类器或一个依赖条件的分数估计器,这增加了构建条件扩散模型的成本,并且不方便在不同条件下迁移。目前的一些工作旨在通过提出免训练解决方案来克服这一限制,但大多数只能应用于特定类别的任务,而不适用于更一般的条件。在这项工作中,我们提出了一种用于各种条件的无训练条件扩散模型 (FreeDoM)。具体来说,我们利用现成的预训练网络(例如人脸检测模型)来构建与时间无关的能量函数,该函数无需训练即可指导生成过程。此外,由于能量函数的构建非常灵活并且适应各种条件,我们提出的 FreeDoM 比现有的免训练方法具有更广泛的应用范围。 FreeDoM 的优势在于其简单性、有效性和低成本。实验表明,FreeDoM 在各种条件下都有效,适用于不同数据域(包括图像和潜在代码域)的扩散模型。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
123 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
104 0
每日学术速递3.27
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
132 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
65 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
112 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
82 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
124 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
92 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
102 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
98 0