每日学术速递2.2

简介: 自从引入零点学习是指对训练期间未见的类的实例进行预测的问题。零点学习的一个方法是为模型提供辅助的类信息。此前的工作在很大程度上使用了昂贵的每实例注释或单一的类级描述,但每实例描述很难扩展,单一的类描述可能不够丰富

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.Cv、cs.CL、cs.LG


1.SemSup: Semantic Supervision for Simple and Scalable Zero-shot Generalization


3d25d668a07ca7653bc224e65027410b.png


标题:SemSup:语义监督用于简单和可扩展的零点泛化


作者:Austin W. Hanjie, Ameet Deshpande, Karthik Narasimhan

文章链接:https://arxiv.org/abs/2202.13100

f2d0704a25a54bfa402ff1399606d023.png

6170b935f5b42f08da5191527bccb9c1.png


摘要:


       自从引入零点学习是指对训练期间未见的类的实例进行预测的问题。零点学习的一个方法是为模型提供辅助的类信息。此前的工作在很大程度上使用了昂贵的每实例注释或单一的类级描述,但每实例描述很难扩展,单一的类描述可能不够丰富。此外,这些工作完全使用自然语言描述、简单的双编码器模型、以及模式或特定任务的方法。这些方法有几个局限性:文本监督可能并不总是可用或最佳的,双编码器可能只学习输入和类描述之间的粗略关系。在这项工作中,我们提出了SemSup,这是一种新颖的方法,它使用了(1)可扩展的多重描述抽样方法,该方法比单一描述提高了性能;(2)替代描述格式,如JSON,易于生成,在某些设置上优于文本;以及(3)混合词汇-语义相似性,以利用类描述中的细粒度信息。我们证明了SemSup在四个数据集、两种模式和三种概括设置中的有效性。例如,在文本和图像数据集中,SemSup比最接近的基线平均增加了15分的未见过的类概括准确率。


Zero-shot learning is the problem of predicting instances over classes not seen during training. One approach to zero-shot learning is providing auxiliary class information to the model. Prior work along this vein have largely used expensive per-instance annotation or singular class-level descriptions, but per-instance descriptions are hard to scale and single class descriptions may not be rich enough. Furthermore, these works have used natural-language descriptions exclusively, simple bi-encoders models, and modality or task-specific methods. These approaches have several limitations: text supervision may not always be available or optimal and bi-encoders may only learn coarse relations between inputs and class descriptions. In this work, we present SemSup, a novel approach that uses (1) a scalable multiple description sampling method which improves performance over single descriptions, (2) alternative description formats such as JSON that are easy to generate and outperform text on certain settings, and (3) hybrid lexical-semantic similarity to leverage fine-grained information in class descriptions. We demonstrate the effectiveness of SemSup across four datasets, two modalities, and three generalization settings. For example, across text and image datasets, SemSup increases unseen class generalization accuracy by 15 points on average compared to the closest baseline.


2.Continual Few-Shot Learning Using HyperTransformers


4ad99279885f60d9207bf7a0bcd49290.png


标题:使用超级变形器的连续小样本学习


作者:Max Vladymyrov, Andrey Zhmoginov, Mark Sandler

文章链接:https://arxiv.org/abs/2301.04584

d9bfab5620d3568eb098fc6a85f192d1.png1124077a0edb1b2da66ea083d0643464.png

d9bfab5620d3568eb098fc6a85f192d1.png


摘要:


       我们专注于从连续到达的多个任务中学习而不被遗忘的问题,其中每个任务都是用新的或已经看到的类的几张照片来定义的。我们使用最近发表的HyperTransformer(HT)来处理这个问题,这是一个基于Transformer的超网络,它直接从支持集中生成专门的特定任务CNN权重。为了从连续的任务序列中学习,我们建议递归地重新使用生成的权重作为下一个任务的HT的输入。这样一来,生成的CNN权重本身就可以作为以前学习的任务的代表,而HT被训练来更新这些权重,这样就可以在不忘记过去任务的情况下学习新任务。这种方法与大多数持续学习算法不同,后者通常依赖于使用重放缓冲区、权重正则化或任务依赖的架构变化。我们证明了我们提出的配备原型损失的连续超变换器方法能够学习和保留关于过去任务的知识,适用于各种场景,包括从小型批次中学习,以及任务递增和类递增的学习场景。


We focus on the problem of learning without forgetting from multiple tasks arriving sequentially, where each task is defined using a few-shot episode of novel or already seen classes. We approach this problem using the recently published HyperTransformer (HT), a Transformer-based hypernetwork that generates specialized task-specific CNN weights directly from the support set. In order to learn from a continual sequence of tasks, we propose to recursively re-use the generated weights as input to the HT for the next task. This way, the generated CNN weights themselves act as a representation of previously learned tasks, and the HT is trained to update these weights so that the new task can be learned without forgetting past tasks. This approach is different from most continual learning algorithms that typically rely on using replay buffers, weight regularization or task-dependent architectural changes. We demonstrate that our proposed Continual HyperTransformer method equipped with a prototypical loss is capable of learning and retaining knowledge about past tasks for a variety of scenarios, including learning from mini-batches, and task-incremental and class-incremental learning scenarios.


3.Universal Domain Adaptation for Remote Sensing Image Scene Classification


ffb474635c58e725520de3418b76ef1c.png


标题:遥感图像场景分类的通用域适应性


作者:Qingsong Xu, Yilei Shi, Xin Yuan, Xiao Xiang Zhu

文章链接:https://arxiv.org/abs/2301.11387

项目代码:https://github.com/zhu-xlab/UniDA

6537d75cb2a0a70d80265dbbb47d28ac.png

摘要:


       迄今为止,现有的领域适应(DA)方法通常不太适合遥感图像分类的实际DA场景,因为这些方法(如无监督DA)依赖于关于源域和目标域的标签集之间关系的丰富的先验知识,而由于隐私或保密问题,源数据往往无法获得。为此,我们提出了一个实用的通用域适应设置,用于遥感图像场景分类,不需要关于标签集的先验知识。此外,针对源数据不可用的情况,我们提出了一种没有源数据的新型通用域适应方法。该模型的结构分为两部分:源数据生成阶段和模型适应阶段。第一阶段利用源域中的类分离性知识,从预训练的模型中估计出源数据的条件分布,然后合成源数据。有了这个合成的源数据,如果目标样本属于源标签集中的任何类别,就可以对其进行正确的分类,否则就将其标记为 "未知",这就成为一项通用的DA任务。在第二阶段,一个新的可转移权重区分了每个领域的共享和私有标签集,促进了自动发现的共享标签集的适应性,并成功识别了 "未知 "的样本。实证结果表明,无论源数据是否可用,所提出的模型对遥感图像场景分类是有效和实用的。


The domain adaptation (DA) approaches available to date are usually not well suited for practical DA scenarios of remote sensing image classification, since these methods (such as unsupervised DA) rely on rich prior knowledge about the relationship between label sets of source and target domains, and source data are often not accessible due to privacy or confidentiality issues. To this end, we propose a practical universal domain adaptation setting for remote sensing image scene classification that requires no prior knowledge on the label sets. Furthermore, a novel universal domain adaptation method without source data is proposed for cases when the source data is unavailable. The architecture of the model is divided into two parts: the source data generation stage and the model adaptation stage. The first stage estimates the conditional distribution of source data from the pre-trained model using the knowledge of class-separability in the source domain and then synthesizes the source data. With this synthetic source data in hand, it becomes a universal DA task to classify a target sample correctly if it belongs to any category in the source label set, or mark it as "unknown" otherwise. In the second stage, a novel transferable weight that distinguishes the shared and private label sets in each domain promotes the adaptation in the automatically discovered shared label set and recognizes the ``unknown'' samples successfully. Empirical results show that the proposed model is effective and practical for remote sensing image scene classification, regardless of whether the source data is available or not.

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
150 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
111 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
179 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
100 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
189 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
123 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
179 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
下一篇
DataWorks