CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Collaborative Diffusion for Multi-Modal Face Generation and Editing(CVPR 2023)
标题:多模态人脸生成和编辑的协同扩散
作者:Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu
文章链接:https://arxiv.org/abs/2304.10530
项目代码:https://github.com/ziqihuangg/Collaborative-Diffusion
摘要:
扩散模型最近作为一种强大的生成工具出现。尽管取得了很大进展,但现有的扩散模型主要关注单模态控制,即扩散过程仅由一种条件模态驱动。为了进一步释放用户的创造力,希望模型能够同时通过多种模式进行控制,例如,通过描述年龄(文本驱动)来生成和编辑面部,同时绘制面部形状(面具驱动)。在这项工作中,我们提出了协作扩散,其中预先训练的单模态扩散模型协作以实现多模态人脸生成和编辑而无需重新训练。我们的主要见解是,由不同模式驱动的扩散模型在潜在的去噪步骤方面具有内在的互补性,可以建立双边联系。具体来说,我们提出了动态扩散器,这是一种元网络,它通过预测每个预训练单模态模型的时空影响函数来自适应幻觉多模态去噪步骤。Collaborative Diffusion 不仅协作了单模态扩散模型的生成能力,而且还集成了多个单模态操作来执行多模态编辑。广泛的定性和定量实验证明了我们的框架在图像质量和条件一致性方面的优越性。
2.Stochastic Interpolants: A Unifying Framework for Flows and Diffusions
标题:随机插值:流动和扩散的统一框架
作者:Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden
文章链接:https://arxiv.org/abs/2303.08797
项目代码:https://github.com/microsoft/AdaM
摘要:
介绍了一类统一基于流和基于扩散的方法的生成模型。这些模型扩展了 Albergo & Vanden-Eijnden (2023) 中提出的框架,允许使用称为“随机插值”的一大类连续时间随机过程在有限时间内精确地桥接任意两个任意概率密度函数。这些插值是通过将来自两个规定密度的数据与一个以灵活方式塑造桥梁的附加潜在变量相结合而构建的。随机插值的时间相关概率密度函数被证明满足一阶传输方程以及一系列具有可调扩散的前向和后向 Fokker-Planck 方程。考虑到单个样本的时间演变,这种观点立即导致基于概率流方程或具有可调噪声水平的随机微分方程的确定性和随机生成模型。进入这些模型的漂移系数是时间相关的速度场,其特征是简单二次目标函数的独特最小值,其中之一是插值密度得分的新目标。值得注意的是,我们表明,这些二次目标的最小化可以控制我们建立在随机动力学基础上的任何生成模型的可能性。相比之下,我们确定基于确定性动力学的生成模型还必须控制目标和模型之间的 Fisher 散度。我们还构建了基于插值的生成模型的似然和交叉熵的估计量,讨论了与其他随机桥的联系,并证明了在对插值进行显式优化时,此类模型可以恢复两个目标密度之间的薛定谔桥。
Subjects: cs.LG
3.Architectures of Topological Deep Learning: A Survey on Topological Neural Networks
标题:拓扑深度学习的架构:拓扑神经网络综述
作者:Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane
文章链接:https://arxiv.org/abs/2304.10031
项目代码:https://github.com/awesome-tnns/awesome-tnns
摘要:
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。TDL 已经展示了理论和实践优势,有望在应用科学及其他领域取得突破。然而,TDL 文献的快速增长也导致拓扑神经网络 (TNN) 体系结构的符号和语言缺乏统一。这对在现有工作的基础上进行构建以及将 TNN 部署到新的现实世界问题中构成了真正的障碍。为了解决这个问题,我们提供了一个易于理解的 TDL 介绍,并使用统一的数学和图形符号来比较最近发布的 TNN。通过对 TDL 新兴领域的直观和批判性审查,我们提取了对当前挑战和未来发展令人兴奋的机会的宝贵见解。