EQ-Loss V2 | 利用梯度平均进一步缓解目标检测长尾数据分布问题(附论文下载)

简介: EQ-Loss V2 | 利用梯度平均进一步缓解目标检测长尾数据分布问题(附论文下载)

1.简介


最近提出的解耦训练方法成为长尾目标检测的主要范式。但是它们需要一个额外的微调阶段,并且表示和分类器的脱节优化可能导致次优结果。但是,端到端的训练方法,例如均衡损失(EQL),仍然比解耦的训练方法更差。

上图观察结果梯度的幅度相近;尾部类别的梯度接近于0,说明正梯度被负梯度所淹没。因此梯度比可以指示分类器是否经过平衡训练。与基线(蓝色线)相比,EQL(橙色线)的梯度比率只是略有增加。

本文揭示了长尾目标检测中的主要问题是正负之间的梯度不平衡,并且发现EQL不能很好地解决它。为了解决梯度不平衡的问题,本文引入了一种新版本的均衡损失,称为Equalization Loss v2(EQL v2),这是一种新颖的梯度引导Re-Weighing机制,可以独立且均等地重新平衡每个类别的训练过程。

在具有挑战性的LVIS基准上进行了广泛的实验。EQL v2在整体AP方面比原始EQL高出约4个百分点,在稀有类别上提高了14-18个百分点。更重要的是,它还超越了分离训练方法。EQL v2无需进一步调整Open Images数据集,便将EQL提高了6.3个点的AP,显示了其强大的泛化能力。


2.相关工作


2.1 通用目标检测

当前性能比较好的目标检测框架主要依赖于卷积神经网络(CNN)的支持。它们可以分为基于区域的检测器和基于Anchor的检测器。然而,这些框架都是在数据平衡的条件下发展起来的。在数据的长尾分布时,由于类别间的不平衡,性能会严重下降。

2.2 Long-tailed图像分类

我们都知道,传统针对Long-tailed图像分类使用的要么是数据Re-Sample、要么是损失Re-Weighted的方法;但是,数据重采样必须预先计算的数据分布统计,可能存在尾类过拟合和头类欠拟合的风险。同时损失Re-Weighted受到敏感超参数的影响,不同数据集的最佳设置可能差异很大,需要花费很大的精力才能找到相对合适的权重。

也有一些工作试图把Knowledge从头类转移到尾类。OLTR设计了一个内存模块来增加tail类的功能。有研究者通过在特征迁移head类中学习到的知识,然后在特征空间中扩充未充分表示的类。最近,解耦训练模式也引起了人们的广泛关注。他们认为,不需要重新采样就可以学习通用表示,分类器应该在冻结表示的第2微调阶段重新平衡。尽管有很好的结果,额外的微调阶段似乎略显冗余,为什么表示和分类器必须分开学习呢???

2.3 Long-tailed目标检测

相较于前面所说的Long-tailed图像分类,Long-tailed目标检测是一个更具挑战性的任务,它必须在每个可能的位置找到所有不同尺度的目标对象。

Li等人通过实验和实践的经验发现,针对长尾图像分类的方法在目标检测中并不能取得良好的效果。Tan等人也证明了尾部类受到头部类的严重抑制,并提出了一种均衡损失的方法来解决这一问题,忽略尾部类的抑制部分。然而,他们认为负面抑制来自于前景类目的竞争,忽略了背景提案的影响。

而EQL方法必须访问类别的频率,并使用阈值函数显式地分割头部和尾部类别。LST方法则是将长尾分布的学习模型作为一种增量式学习,学习在几个级联阶段从头类切换到尾类。

SimCal方法和Balanced GroupSoftmax方法则遵循解耦训练的思想。BAGS则是根据实例数将所有类别划分为几个组,并在每个组中单独执行softmax操作,以避免head类占据主导地位。

相比之下,本文的方法不需要将类别划分为不同的组,并平等对待所有类别。此外,也不需要微调阶段,可以端到端训练。同时保持了训练与推理之间的一致性。


3.Equalization Loss v2


3.1 实例和任务的纠缠

假设有一批实例和它们的表征。为了输出类的,使用权重矩阵作为表征的线性变换。中的每个权重向量称之为类别分类器,它负责一个特定的类别,即一个任务Task。然后利用sigmoid函数将输出日志转换为估计的概率分布P。期望对于每个实例只有相应的分类器给出高分,而其他分类器给出低分。也就是说,一个带有正号标签的任务和一个带有负号标签的c1任务由一个实例引入。因此,可以计算分类器的实际正样本和负样本的个数

image.png

其中是第个实例Groud Truth的One-Hot编码,通常有。则数据集上正样本与负样本的期望之比为:

image.png

其中,是类别的实例数,是数据集上的总实例数。上式表明,如果单独考虑每个分类器,对于不同的分类器阳性样本与阴性样本的比例可能会有很大的差异。

3.2 梯度引导Reweighing

显然,当时,类便是一个罕见的类。但是,公式2中的比率可能并不能很好地指示训练的平衡程度。这背后的原因是每个样本的影响是不同的。

例如,大量负面影响所积累的负梯度可能比一些正面影响所产生的正梯度要小。因此,可以直接选择梯度统计量作为衡量一个任务是否处于均衡训练状态的指标。每个分类器的输出相对于损失的正梯度和负梯度表达式为:

image.png

其中,是第个情况下第类的估计概率。

梯度引导Reweighing的基本思想是:根据分类器正梯度与负梯度的累积梯度比,分别对每个分类器的正梯度和负梯度进行加权。为此,先定义为任务的累计正梯度与负梯度的比值,直到迭代。然后在此迭代中,正梯度和负梯度的权重可计算如下:

image.png

其中,是映射函数:

image.png

得到正梯度和负梯度,然后将它们分别应用于当前批次的正梯度和负梯度,重新加权后的梯度为:

image.png

最后为下一个迭代更新累积的正梯度与负梯度的比率:

image.png

3.3 Category-Agnostic任务

本文还增加了一个检测客观性的分支,不是具体的类别,以减少虚假,称之为类别不可知论任务。在训练阶段,本任务将所有其他任务的正样本视为自己的正样本。在推理阶段,其他子任务的估计概率为:

image.png

其中是建议为目标对象的概率。


4. 实验


image.png

总之,在这项工作中提出了提高长尾目标检测性能的关键是保持正负梯度之间的平衡。然后提出EQL的改进版本EQL v2,以动态平衡训练阶段的正负梯度比率。它带来了巨大的改进,显著增强了跨各种框架的尾部类别。作为一种端到端的训练方法,它在具有挑战性的LVIS基准上击败了所有现有的方法,包括占主导地位的解耦训练模式。


5. 参考


[1].Equalization Loss v2:A New Gradient Balance Approach for Long-tailed Object Detection


相关文章
|
8月前
|
算法 数据挖掘
WinBUGS对多元随机波动率SV模型:贝叶斯估计与模型比较
WinBUGS对多元随机波动率SV模型:贝叶斯估计与模型比较
|
机器学习/深度学习 资源调度 监控
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
|
5月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
945 0
|
8月前
|
存储 人工智能 自然语言处理
DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度
该论文提出了一种新方法,用于创建高稀疏性大型语言模型,通过稀疏预训练和高效部署,在保持高准确度的同时显著提升处理速度。方法包括结合SparseGPT剪枝和稀疏预训练,实现70%稀疏度下准确率完全恢复,尤其适合复杂任务。实验显示,使用Cerebras CS-3 AI加速器和Neural Magic的DeepSparse、nm-vllm引擎,训练和推理速度有显著提升。此外,量化稀疏模型在CPU上速度提升可达8.6倍。这种方法优于传统剪枝,为构建更快、更小的语言模型提供了新途径,并通过开源代码和模型促进了研究复现和扩展。
131 3
|
6月前
|
机器学习/深度学习 索引 Python
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
|
8月前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
138 1
|
8月前
|
算法 vr&ar Python
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
|
8月前
|
机器学习/深度学习 数据采集 算法
ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测
ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测
|
8月前
|
数据可视化 C语言
使用R语言随机波动模型SV处理时间序列中的随机波动率
使用R语言随机波动模型SV处理时间序列中的随机波动率
|
8月前
|
算法 测试技术 vr&ar
用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模
用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模