每日学术速递2.17

简介: 近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.LG


1.Decoupled Model Schedule for Deep Learning Training

ff1ac17934fbd9b7d8461e26ba2b6bed.png

标题:深度学习训练的解耦模型时间表

作者:Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang

文章链接:https://arxiv.org/abs/2302.08005v1

项目代码:https://github.com/awslabs/slapo

eba510d4ed8bcdf19579d1e8cd2d5a29.png

摘要:

       近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。另一方面,从业者提出了各种通过牺牲一些灵活性来提高训练效率的方法,从使图静态化以进行更彻底的优化(例如 XLA)到针对大规模分布式训练进行定制优化(例如 DeepSpeed 和威震天-LM)。在本文中,我们的目标是通过关注点分离来解决可用性和训练效率之间的紧张关系。受将张量级运算符的平台特定优化与其算术定义分离的 DL 编译器的启发,本文提出了一种调度语言来将模型执行与定义分离。具体来说,调度在 PyTorch 模型上运行,并使用一组调度原语将模型转换为常见的模型训练优化,例如高性能内核、有效的 3D 并行性和高效的激活检查点。与现有的优化方案相比,我们通过高层原语按需优化模型,从而在很大程度上为用户保留了可编程性和可调试性。我们的评估结果表明,通过系统地安排现有的手工优化,我们能够在配备 8 个 NVIDIA V100 GPU 的单台机器上将训练吞吐量提高多达 3.35 倍,并提高多达 1.5 倍。与 DeepSpeed 和 Megatron-LM 的开箱即用性能相比,在具有多达 64 个 GPU 的多台机器上是 32 倍。

2ad37190c2441ee73d84cbf751a17601.png

824f014ad59ba0d5d0d8a3b223ff8af9.png

5ce6bc803a337c53a433516788fe318e.png

2.Assisting Human Decisions in Document Matching

0a8eaa637e765eb489efbd77463ea0f4.png

标题:在文档匹配中协助人类决策

作者:Joon Sik Kim, Valerie Chen, Danish Pruthi, Nihar B. Shah, Ameet Talwalkar

文章链接:https://arxiv.org/abs/2302.08450v1

项目代码:https://github.com/wnstlr/document-matching

19fc7890ce84da9f98f0be54203bfb66.png

摘要:

       许多实际应用,从同行评审中的论文审稿人分配到招聘的求职者匹配,都需要人类决策者通过将他们的专业知识与机器学习模型的预测相结合来识别相关匹配。在许多此类模型辅助文档匹配任务中,决策者强调需要有关模型输出(或数据)的辅助信息以促进他们的决策。在本文中,我们设计了一个代理匹配任务,使我们能够评估哪些类型的辅助信息可以提高决策者的绩效(在准确性和时间方面)。通过一项众包(N=271 名参与者)研究,我们发现提供黑盒模型解释会降低用户在匹配任务上的准确性,这与人们普遍认为的可以通过更好地理解模型来提供帮助的信念相反。另一方面,发现旨在密切关注某些任务特定需求的自定义方法可有效提高用户性能。令人惊讶的是,我们还发现用户对辅助信息的感知效用与他们的客观效用(通过他们的任务绩效衡量)不一致。

246aba711ae9393a63062f830ac48a3a.png

5a4885518330c28cd6e7d854b2a0dd8b.png

93d6af1a09db174af411258b2c2dc495.png

Subjects: cs.CV


3.URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation

358116ba319562d1b0bfa3c69cd2b664.png


标题:URCDC-Depth:使用 CutFlip 进行不确定性校正交叉蒸馏以进行单眼深度估计

作者:Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu, Zhengguo Li

文章链接:https://arxiv.org/abs/2302.08149v1

项目代码:https://github.com/shuweishao/urcdc-depth

6230b82a32580f8e54a09f0015d0c91e.png

摘要:

       这项工作旨在从单个 RGB 图像估计高质量的深度图。由于缺乏深度线索,充分利用长程相关性和局部信息对于准确的深度估计至关重要。为此,我们在 Transformer 和卷积神经网络 (CNN) 之间引入了不确定性校正交叉蒸馏,以学习统一的深度估计器。具体来说,我们使用从 Transformer 分支和 CNN 分支导出的深度估计作为伪标签来互相学习。同时,我们对像素级深度不确定性进行建模,以纠正噪声深度标签的损失权重。为了避免由强大的 Transformer 分支引起的巨大性能差距恶化交叉蒸馏,我们将特征映射从 Transformer 转移到 CNN 并设计耦合单元以协助弱 CNN 分支利用转移的特征。此外,我们提出了一种非常简单但非常有效的数据增强技术 CutFlip,它强制模型利用除了垂直图像位置的线索之外的更有价值的线索来进行深度估计。广泛的实验表明,我们的模型,称为 ~\textbf{URCDC-Depth},在 KITTI 和 NYU-Depth-v2 数据集上超过了以前最先进的方法,即使在推理时没有额外的计算负担。


c4311beb92eb05d90b80a09ad010e3ed.png

0dffaa4d824d84a6b1d603dccef321b0.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
142 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
171 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
117 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
164 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
88 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
119 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
171 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
72 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
104 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
146 0