每日学术速递2.8

简介: 最近,大型模型在各个领域都取得了最先进的表现。为了支持大型模型的训练,我们必须使用分布式训练技术。然而,找到一个有效的分布式执行计划不仅需要细粒度的模型统计,如每个操作者的内存和计算开销,而且即使对分布式训练领域的专家来说也是一项劳动密集型的任务

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.Cv


1.MAP: Memory-aware Automated Intra-op Parallel Training For Foundation Models

553a74727510856a51d7fe76fc0fd2b5.png

标题:MAP:记忆感知的基础模型自动操作内并行训练

作者: Yuliang Liu, Shenggui Li, Jiarui Fang, Yanjun Shao, Boyuan Yao, Yang You

文章链接:https://arxiv.org/abs/2302.02599v1

项目代码:https://github.com/hpcaitech/colossalai

6ccc6cf7d8f2b9ec2045104f802c93a5.png

ce1556532795df9ad4ba6ab821350c0d.png

53477acafefd1e2115920c7b1965414e.png

摘要:

       最近,大型模型在各个领域都取得了最先进的表现。为了支持大型模型的训练,我们必须使用分布式训练技术。然而,找到一个有效的分布式执行计划不仅需要细粒度的模型统计,如每个操作者的内存和计算开销,而且即使对分布式训练领域的专家来说也是一项劳动密集型的任务。在本文中,我们介绍了MAP,一个建立在PyTorch基础上的编译器,以实现内存感知的自动并行化。为了剖析操作者的成本,现有的训练系统和机器学习管道要么是对每个操作者进行物理执行,要么是用按比例的输入张量来估计内存的使用,这些方法往往很费时,而且会产生误导。与现有的方法相比,MAP提供了一个易于使用的符号剖析器,以微不足道的时间成本生成任意PyTorch模型的内存和计算统计数据,因此它将提升ML开发人员的高生产力。此外,MAP还可以无缝加速PyTorch计算图上的不同静态规划任务,只需要对用户代码进行几行修改,就可以生成一个具有顶级性能的分布式执行计划的新模块实例。源代码可在https://github.com/hpcaitech/ColossalAI 上公开获取。

Recently, large models have achieved the state of the art performances in various fields. In order to support large model training, we have to use distributed training techniques. However, finding an efficient distributed execution plan not only requires fine-grained model statistics, such as memory and computing overhead of each operator but also is a labor-intensive task even for an expert in the field of distributed training. In this paper, we introduce MAP, a compiler built upon PyTorch to implement Memory-aware Automated Parallelization. To profiling operator costs, existing training systems and machine learning pipelines either physically execute with respect to each operand or estimate the memory usage with a scaled input tensor, which are often time-consuming and misleading. Compared with existing methods, MAP provides an easy-to-use symbolic profiler to generate memory and computing statistics of an arbitrary PyTorch model with trivial time cost, so it will boost high productivity for ML developers. In addition, MAP can also seamlessly speed up different static planning tasks on computation graphs for PyTorch, and requires only a few lines of modification to user code to generate a new module instance that has a top-performing distributed execution plan. The source code is publicly available at https://github.com/hpcaitech/ColossalAI

Subjects: cs.CL


2.LoFT: Enhancing Faithfulness and Diversity for Table-to-Text Generation via Logic Form Control

78dfafbe25a0a1c1a7ccfc6a3b7f9a58.png


标题:LoFT:通过逻辑形式控制加强表到文本生成的忠实性和多样性

作者:Yilun Zhao, Zhenting Qi, Linyong Nan, Lorenzo Jaime Yu Flores, Dragomir Radev

文章链接:https://arxiv.org/abs/2302.02962v1

项目代码:https://github.com/yale-lily/loft

f8bc92a475f7a68381d0649aa17a94b3.png

摘要:

       逻辑表到文本(LT2T)生成的任务是从表中生成逻辑上忠实的句子。目前该领域存在两个挑战:1)忠实性:如何在表格内容的基础上生成事实正确的句子;2)多样性:如何生成对表格提供不同观点的多个句子。这项工作提出了LoFT,它利用逻辑表格作为事实验证器和内容规划器来控制LT2T的生成。在LogicNLG数据集上的实验结果表明,LoFT是第一个同时解决不忠实性和缺乏多样性问题的模型。我们的代码可在https://github.com/Yale-LILY/LoFT

Logical Table-to-Text (LT2T) generation is tasked with generating logically faithful sentences from tables. There currently exists two challenges in the field: 1) Faithfulness: how to generate sentences that are factually correct given the table content; 2) Diversity: how to generate multiple sentences that offer different perspectives on the table. This work proposes LoFT, which utilizes logic forms as fact verifiers and content planners to control LT2T generation. Experimental results on the LogicNLG dataset demonstrate that LoFT is the first model that addresses unfaithfulness and lack of diversity issues simultaneously. Our code is publicly available at https://github.com/Yale-LILY/LoFT.

Subjects: cs.LG、cs.ML、cs.CV


3.Probabilistic Contrastive Learning Recovers the Correct Aleatoric Uncertainty of Ambiguous Inputs

bc2e50029c09fee14c0833cec8831186.png

标题:概率对比学习恢复了模糊输入的正确不确定度

作者:Michael Kirchhof, Enkelejda Kasneci, Seong Joon Oh

文章链接:https://arxiv.org/abs/2302.02865v1

项目代码:https://github.com/mkirchhof/probabilistic_contrastive_learning

09eda256ec45a54d3b863aed579a9ca8.png

315780454a310ceabd988fd38c3fe835.png

84857473e298647c470d101e31d96736.png

摘要:

       对比训练的编码器最近被证明可以反转数据生成过程:它们将每个输入,例如图像,编码为生成图像的真实潜伏向量(Zimmermann等人,2021)。然而,现实世界的观察往往具有内在的模糊性。例如,图像可能是模糊的,或者只显示一个三维物体的二维视图,所以可能有多个潜势产生了它们。这使得潜质向量的真实后验具有异方差不确定性的概率。在这种情况下,我们扩展了常见的InfoNCE目标和编码器,以预测潜质分布而不是点。我们证明,这些分布恢复了数据生成过程的正确后验,包括它的不确定性水平,直到潜空间的旋转。除了提供校准的不确定性估计外,这些后验允许计算图像检索中的可信区间。它们包括具有与给定查询相同的潜像的图像,受其不确定性的影响。

Contrastively trained encoders have recently been proven to invert the data-generating process: they encode each input, e.g., an image, into the true latent vector that generated the image (Zimmermann et al., 2021). However, real-world observations often have inherent ambiguities. For instance, images may be blurred or only show a 2D view of a 3D object, so multiple latents could have generated them. This makes the true posterior for the latent vector probabilistic with heteroscedastic uncertainty. In this setup, we extend the common InfoNCE objective and encoders to predict latent distributions instead of points. We prove that these distributions recover the correct posteriors of the data-generating process, including its level of aleatoric uncertainty, up to a rotation of the latent space. In addition to providing calibrated uncertainty estimates, these posteriors allow the computation of credible intervals in image retrieval. They comprise images with the same latent as a given query, subject to its uncertainty

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
138 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
102 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
84 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
131 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
113 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
87 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
162 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
92 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
116 0
下一篇
无影云桌面