每日学术速递2.13

简介: 弱监督人像搜索的目的是在仅有人像边界框注释的情况下进行联合行人检测和重新识别(re-id)。最近,对比学习的理念被初步应用于弱监督人像搜索,其中两种常见的对比策略是基于记忆的对比和图像内对比。我们认为,目前的图像内对比是浅层的,它受到了空间级和遮挡级差异的影响。在本文中,我们提出了一个使用连体网络的新型深度图像内对比学习。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV、cs.AI、cs.CL


1.Deep Intra-Image Contrastive Learning for Weakly Supervised One-Step Person Search


bf88418f1ed5193a4dacefef5961b1f7.png


标题:深度图像内对比学习用于弱监督的单步人物搜索

作者:Jiabei Wang, Yanwei Pang, Jiale Cao, Hanqing Sun, Zhuang Shao, Xuelong Li

文章链接:https://arxiv.org/abs/2302.04607v1

项目代码:https://github.com/jiabeiwangtju/dicl

1ad0c35807844dfc32424e98d4fc3662.png

摘要:

       弱监督人像搜索的目的是在仅有人像边界框注释的情况下进行联合行人检测和重新识别(re-id)。最近,对比学习的理念被初步应用于弱监督人像搜索,其中两种常见的对比策略是基于记忆的对比和图像内对比。我们认为,目前的图像内对比是浅层的,它受到了空间级和遮挡级差异的影响。在本文中,我们提出了一个使用连体网络的新型深度图像内对比学习。两个关键模块是空间不变量对比(SIC)和遮挡不变量对比(OIC)。SIC在暹罗网络的两个分支之间进行多对一的对比,在暹罗网络的一个分支中进行密集预测对比。通过这些多对一和密集的对比,SIC倾向于学习鉴别性的尺度不变量和位置不变量特征,以解决空间层面的差异。OIC通过掩蔽策略加强了特征的一致性,以学习闭塞不变的特征。我们分别在CUHK-SYSU和PRW两个人物搜索数据集上进行了大量的实验。我们的方法在弱监督的一步式人物搜索方法中取得了最先进的性能。我们希望我们简单的图像内对比学习能够为弱监督的人物搜索提供更多的范式。

943bef3f530c5a1dbadfc43616de7aca.png

ee1c8d54f78de28b1aa7e091ed00c5a3.png

6369a08138e7db4412b5e1e8d6049ca0.png

2.Efficient Attention via Control Variates(ICLR 2023)

ede72454b6e62372a462f94c69ef6a3f.png

标题:通过控制变量实现高效的注意力

作者:Lin Zheng, Jianbo Yuan, Chong Wang, Lingpeng Kong

文章链接:https://arxiv.org/abs/2302.04542v1

项目代码:https://github.com/hkunlp/efficient-attention

88084e1bcd615f33c6f05bc042c49554.png

摘要:

       基于随机特征的注意力(RFA)是对softmax注意力的有效近似,具有线性运行时间和空间复杂性。然而,RFA与传统的softmax注意力之间的近似差距还没有得到很好的研究。在以往RFA的进展基础上,我们通过控制变量的视角来描述这一差距,并表明RFA可以分解为序列中每个元素的多个控制变量估计的总和。这个新框架显示,通过操纵每个控制变量,可以从RFA中恢复精确的softmax注意力。此外,它允许我们开发一种更灵活的控制变量形式,从而形成一种新的注意力机制,在保持线性复杂度的同时大大降低了近似差距。广泛的实验证明,我们的模型在视觉和语言任务上都优于最先进的高效注意力机制。

46525bba56afd04b8b406a3ebb8622ed.png

4b10efed54cc09a37841c635f01c0a90.png

3.Reversible Vision Transformers(CVPR 2022)

0d93d3cd94bbdcf89bbe5127d178835a.png



标题:可逆式视觉变形器

作者:Karttikeya Mangalam, Haoqi Fan, Yanghao Li, Chao-Yuan Wu, Bo Xiong, Christoph Feichtenhofer, Jitendra Malik

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/facebookresearch/SlowFast

5d17e1f58aa72f06f05de7a8901808aa.png

摘要:

       我们提出了可逆视觉变换器,这是一种用于视觉识别的内存高效架构设计。通过将GPU的内存需求与模型的深度解耦,可逆视觉变换器能够以高效的内存使用方式扩大架构的规模。我们将两种流行的模型,即视觉变形器和多尺度视觉变形器,调整为可逆变体,并在模型大小和图像分类、物体检测和视频分类的任务上进行了广泛的基准测试。在模型复杂度、参数和准确度大致相同的情况下,可逆视觉变换器实现了高达15.5倍的内存占用,证明了可逆视觉变换器作为硬件资源有限的训练机制的有效骨干的前景。最后,我们发现重新计算激活的额外计算负担对于更深层次的模型来说是可以克服的,其吞吐量可以比非可逆的对应模型增加2.3倍。完整的代码和训练好的模型可在https://github.com/facebookresearch/slowfast。一个更简单、易于理解和修改的版本也可在https://github.com/karttikeya/minREV


3819aeb1d91b9498749f757da57d6989.png


1583fe0a9ae3f9458b09019ed21bb55a.png


4b611876fbbe68e20c7561fad4903e27.png

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
137 0
每日学术速递3.9
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
140 0
每日学术速递4.3
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
138 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
167 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
74 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
114 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
181 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
124 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
92 0
下一篇
无影云桌面