每日学术速递4.24

简介: 自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Collaborative Diffusion for Multi-Modal Face Generation and Editing(CVPR 2023)


ec3a5f5dbd1b232d2e6174c72cd57415.png


标题:多模态人脸生成和编辑的协同扩散


作者:Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu

文章链接:https://arxiv.org/abs/2304.10530

项目代码:https://github.com/ziqihuangg/Collaborative-Diffusion

40acc3cf7ac96cc2a9d026641ab16cf7.png

b9136f1961a5f5d5962def586cfa6633.png

f0165f1c1b012e48f0a89658d85d4d4d.png

b362182dd598fd1ad5b6412bf4d072f1.png

9c0578351cc0de773923cde608ca53ab.png


摘要:

       扩散模型最近作为一种强大的生成工具出现。尽管取得了很大进展,但现有的扩散模型主要关注单模态控制,即扩散过程仅由一种条件模态驱动。为了进一步释放用户的创造力,希望模型能够同时通过多种模式进行控制,例如,通过描述年龄(文本驱动)来生成和编辑面部,同时绘制面部形状(面具驱动)。在这项工作中,我们提出了协作扩散,其中预先训练的单模态扩散模型协作以实现多模态人脸生成和编辑而无需重新训练。我们的主要见解是,由不同模式驱动的扩散模型在潜在的去噪步骤方面具有内在的互补性,可以建立双边联系。具体来说,我们提出了动态扩散器,这是一种元网络,它通过预测每个预训练单模态模型的时空影响函数来自适应幻觉多模态去噪步骤。Collaborative Diffusion 不仅协作了单模态扩散模型的生成能力,而且还集成了多个单模态操作来执行多模态编辑。广泛的定性和定量实验证明了我们的框架在图像质量和条件一致性方面的优越性。

2.Stochastic Interpolants: A Unifying Framework for Flows and Diffusions

e5a258150c1968e795750c1aad5aa6e4.png

标题:随机插值:流动和扩散的统一框架

作者:Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden

文章链接:https://arxiv.org/abs/2303.08797

项目代码:https://github.com/microsoft/AdaM

e30443c69c8a58552e1e526fc9ce7e5d.png

8e5dc7dc7e175b8898e4782747d44679.png

de103c8aa23bea9496aae47ffd3c675e.png

13dbd7d5ff5bfdf9774ccaf56c145ab0.png

3bb77b834ccf9ef53ca784a3b80bb925.png

摘要:

       介绍了一类统一基于流和基于扩散的方法的生成模型。这些模型扩展了 Albergo & Vanden-Eijnden (2023) 中提出的框架,允许使用称为“随机插值”的一大类连续时间随机过程在有限时间内精确地桥接任意两个任意概率密度函数。这些插值是通过将来自两个规定密度的数据与一个以灵活方式塑造桥梁的附加潜在变量相结合而构建的。随机插值的时间相关概率密度函数被证明满足一阶传输方程以及一系列具有可调扩散的前向和后向 Fokker-Planck 方程。考虑到单个样本的时间演变,这种观点立即导致基于概率流方程或具有可调噪声水平的随机微分方程的确定性和随机生成模型。进入这些模型的漂移系数是时间相关的速度场,其特征是简单二次目标函数的独特最小值,其中之一是插值密度得分的新目标。值得注意的是,我们表明,这些二次目标的最小化可以控制我们建立在随机动力学基础上的任何生成模型的可能性。相比之下,我们确定基于确定性动力学的生成模型还必须控制目标和模型之间的 Fisher 散度。我们还构建了基于插值的生成模型的似然和交叉熵的估计量,讨论了与其他随机桥的联系,并证明了在对插值进行显式优化时,此类模型可以恢复两个目标密度之间的薛定谔桥。

Subjects: cs.LG


3.Architectures of Topological Deep Learning: A Survey on Topological Neural Networks

d340ef5d47878347501b51e700dc7fa6.png

标题:拓扑深度学习的架构:拓扑神经网络综述

作者:Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane

文章链接:https://arxiv.org/abs/2304.10031

项目代码:https://github.com/awesome-tnns/awesome-tnns

c34352b2a3a3481d48aa8fb0a4684ae8.png

77e4ec533c00947473a9573853e43bb6.png

4fb3592e617f6a373ad51840aae466a2.png

0cadcadda6e7a28ba65f396b01cfcbb6.png

249bb84f92f7ba15312b1ffea2b3fc75.png

cea356ce86766cc8ae7194c5cf01c2a7.png

摘要:

       自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。TDL 已经展示了理论和实践优势,有望在应用科学及其他领域取得突破。然而,TDL 文献的快速增长也导致拓扑神经网络 (TNN) 体系结构的符号和语言缺乏统一。这对在现有工作的基础上进行构建以及将 TNN 部署到新的现实世界问题中构成了真正的障碍。为了解决这个问题,我们提供了一个易于理解的 TDL 介绍,并使用统一的数学和图形符号来比较最近发布的 TNN。通过对 TDL 新兴领域的直观和批判性审查,我们提取了对当前挑战和未来发展令人兴奋的机会的宝贵见解。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
142 0
每日学术速递3.20
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
132 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
144 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
135 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
128 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
104 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
155 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
168 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
155 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
99 0