作者提出了一个概念简单、高效且通用的定位问题解决方案,用于DETR-like模型。作者通过在训练良好的模型上添加插件,而不是低效地设计新模型并从头开始训练。
该方法称为RefineBox,它通过轻量级的细化网络来优化DETR-like检测器的输出。RefineBox易于实现和训练,因为它只利用了来自训练良好的检测模型的特征和预测框。作者的方法也很高效,因为在训练过程中冻结了训练好的检测器。
此外,作者可以轻松将RefineBox推广到各种训练好的检测模型,无需进行任何修改。作者在COCO和LVIS 1.0数据集上进行了实验证明了RefineBox对DETR及其代表性变体(如DETR、Conditinal-DETR、DAB-DETR和DN-DETR)的有效性(见图1)。 例如,对于DETR,Conditinal-DETR,DAB-DETR和DN-DETR,性能提升分别为2.4 AP,2.5 AP,1.9 AP和1.6 AP。作者希望作者的工作能引起检测领域对当前DETR-like模型的定位Bottleneck的关注,并突出了RefineBox框架的潜力。
1、简介
Transformer已成为目标检测中的一种替代卷积神经网络的方法。DETR将Transformer引入目标检测,并形成了一种新的检测方法。最近,一些类似DETR的模型成为COCO基准测试上的最先进模型,例如Co-DETR,Group-DETR-V2,DETA,DINO等。尽管它们取得了成功,但检测界可能并不清楚DETR-like模型的Bottleneck和潜在发展方向。
DETR-like检测器会产生一组预测,并在训练过程中为每个真实目标分配一个预测结果。正样本,即与真实目标匹配的预测,对模型训练产生显著影响。作者对如何通过在训练过程中纠正正样本来改进DETR-like模型的预测结果感到好奇。
作者首先通过以简单的方式探索DETR-like模型在具有完美定位或分类能力时的性能上限。具体来说,作者计算消除正样本的分类和定位错误所带来的性能提升。作者观察到,提高定位能力的增益是显著的,而提高分类能力的增益较低,即约为25 AP对3-5 AP。
这种现象表明,定位能力是限制当前DETR-like模型性能的Bottleneck,而不是分类能力。基于以上发现,作者专注于改进DETR-like模型的定位能力。
本文提出了一种解决定位问题的新框架RefineBox。作者的方法通过在训练良好的目标检测器上应用轻量级框细化网络来采用两阶段检测框架,如图2所示。目标检测器负责产生检测结果,包括分类logits和边界框。从训练好的检测器提取的特征和预测的边界框作为细化网络的输入,细化网络负责优化边界框以减轻定位错误。
RefineBox探索了一种新的方式来改进训练好的检测器的定位质量,这与以前的两阶段检测方法不同,以前的方法主要是设计和训练新的检测器。作者的细化网络就像一个即插即用的插件,带来了明显的好处。它易于实现和训练,因为作者只需通过冻结训练好的检测器来适应新增的参数。此外,它高效且具有成本效益,便于进行快速实验和在硬件有限的大型模型中进行增强。此外,RefineBox可以推广到各种检测模型,无需进行任何修改。
作者在DETR及其代表性变体(包括ConditionalDETR-R50,DAB-DETR-R50和DN-DETRR50)上验证了作者方法的有效性。在不添加复杂技巧的情况下,RefineBox对它们带来了显著的改进,如图1所示。作者还展示了作者的RefineBox可以轻松与旨在加速模型收敛的技术结合使用,例如Group-DETR。作者的示例在COCO数据集上使Group-Conditional-DETR-R50获得了2.7 AP的增益。
2、相关工作
2.1、两阶段检测
在几年前,两阶段检测架构由于R-CNN系列模型的成功而成为主流。典型的两阶段检测模型将检测流程分为两个阶段:
- 生成一组可能包含目标的区域提议;
- 调整提议的边界框并预测目标类别。
作者的RefineBox采用了两阶段检测的思想,但进行了一些改变:RefineBox建立在训练良好的检测模型之上,并将其冻结。
2.2、目标检测的错误分析
社区通过AP(平均精度)和mAP(平均精度)来衡量检测性能。为了进一步了解为什么认为检测失败,Hoiem等人引入了对假阳性检测的分类。COCO分析工具进一步计算了几种错误类型的数量。然而,分析结果依赖于错误类型的计算顺序。TIDE通过避免逐步计算错误来解决这个问题。DCR认为分类能力是Faster RCNN的假阳性的原因。它将Faster RCNN与分类细化网络相结合,以减轻这个问题。
一些研究专注于假阴性,并通过引入一些先验知识来解决这个问题。Miller等人将检测流程划分为几个阶段,以确定模型在哪个阶段无法检测到目标。
2.3、冻结检测器的参数
最近有一些关于利用冻结组件进行检测的工作。Vasconcelos等人关注冻结Backbone网络。他们观察到,使用强大的检测组件,训练时冻结Backbone网络的检测模型表现优于非冻结策略。Lin等人进一步回答了如何更好地应用这种冻结设置。一种开放式词汇检测方法FVLM冻结了视觉和语言模型,在训练过程中只适配检测头。最近,LargeUniDet冻结Backbone网络来处理数百万规模的多领域通用目标检测问题。尽管RefineBox与冻结训练模型的想法类似,但有几点不同:
- 他们的目标是恰当地重用图像分类特征。相比之下,作者探索了一种改进定位质量的新方式。
- 他们冻结分类模型,而RefineBox冻结整个检测器。
3、动机
最近的DETR-like模型产生一组预测,并采用一对一的分配策略来找到训练的正样本。作者渴望知道如何通过减少正样本的错误来改进DETR-like模型的性能。由于检测任务包含两个子任务:分类和定位,作者试图通过调查正样本的分类和定位错误来回答这个问题。
作者首先通过匈牙利匹配找到与GT相匹配的目标检测器的预测。为了计算具有完美定位的性能,作者将预测的边界框替换为GT,从而消除定位错误。类似地,用GT标签替换预测的分类结果使作者能够模拟具有完美分类能力的模型并计算它们的理想性能。
作者可视化了各种DETR-like模型在用GT替换预测之前和之后的性能。从图3中作者得到两个观察结果。首先,消除定位错误会显著提高检测器的性能(绿色柱与灰色柱对比)。作者观察到大多数模型的增益约为25 AP,例如DETR-R50的增益为24.8 AP,DAB-DETR-50的增益为25.5 AP,DN-DETR-R50的增益为25.2 AP等,这表明提高定位性能的潜力很大。
其次,消除分类错误导致的增益要小得多(蓝色柱与灰色柱对比),例如DETR-R50的增益为3.7 AP,DAB-DETR-R50的增益为5.3 AP,DN-DETR-R50的增益为5.6 AP。这表明具有完美分类能力的模型对当前模型的性能改进有限。剩余的错误是由于定位。基于以上观察结果,作者认为定位是当前DETR-like模型的Bottleneck:定位错误限制了提高分类能力的潜在收益。即使具有理想的分类性能的模型也只能带来有限的增益。
以上发现激发了作者解决定位能力不足的挑战的工作。作者提出了RefineBox,一种用于改进现有检测模型的预测边界框的新型框架。在接下来的介绍中,作者将给出一个轻量级的示例,该示例仅引入约0.5 M的参数,但带来了显著的改进。
4、本文方法
4.1、方法细节
作者提出的RefineBox框架(图2)包含两个组件:
- 一个目标检测器
- 一个用于改进预测边界框的细化网络
在作者的实验中,细化网络(图4)主要执行两个步骤:
- 首先,通过利用特征金字塔网络(FPN),细化网络从经过训练的检测模型的Backbone提取特征金字塔。
- 其次,它通过一系列的Refiner模块高效地利用多尺度特征来改进检测器预测的边界框。在训练过程中,作者冻结经过训练的目标检测器的参数,只更新FPN和Refiner模块的权重。
1、提取多尺度特征
目标检测器Backbone的特征金字塔被用作FPN的输入,FPN将通道数量降低到一个特定的数值C,并被视为模型维度。
具体而言,对于ResNet风格的Backbone,FPN的输入是res2、res3、res4和res5。对于Swin风格的Backbone,FPN的输入是p0、p1、p2和p3。附录中提供了关于模型维度的消融研究。
2、改进边界框
一旦作者获得了多尺度特征,作者就将一系列Refiner模块应用于改进预测的边界框,如图4所示。Refiner模块以边界框和特征金字塔为输入。与Deformable DETR类似,作者通过预测与GT的差值来纠正边界框。每个Refiner模块包含一个ROI Align层,一个残差模块和一个多层感知器(MLP)。作者的残差模块由几个Bottleneck块组成。每个块堆叠一个1×1的卷积层,一个3×3的卷积层和一个1×1的卷积层。Bottleneck通道对应于3×3卷积层的输入通道。作者发现共享Refiner模块的权重不会影响性能,因此它们的参数是共享的,除非另有说明。
3、损失函数
作者的RefineBox框架仅改进预测的边界框,并保持分类结果不变。因此,在这个框架中,作者只考虑回归损失。具体而言,作者对每个Refiner模块的输出应用GIoU损失和L1损失。按照常见做法,GIoU损失和L1损失的权重保持不变。作者将所有Refiner模块的回归损失相加。
4、训练和推断
在训练过程中,作者选择与GT相匹配的预测,并改进相应的边界框。未被分配GT的其他预测将被忽略。对于推断,作者根据分类分数选择前K个预测进行改进,因为无法访问GT。K的值是在数据集中一幅图像中的最大目标数量,例如在COCO中为100。
5、实现细节
除非另有说明,作者将FPN的输出通道C设置为64,并将Bottleneck块的数量设置为3。ROI Align层的输出大小为(7, 7)。Bottleneck块中的3×3卷积层的默认通道数为64。作者在推断过程中改进了前100个预测。Refiner模块的数量是3。
4.2、讨论:与其他方法的关系
1、与两阶段/级联检测的关系
从原理上讲,作者的RefineBox是一个两阶段的检测框架。在第一阶段,检测器产生初始预测。在这个阶段,检测模型充当了区域提议网络。在第二阶段,一个细化网络将提议作为输入并输出细化的结果。尽管作者的RefineBox采用了两阶段的检测流程,但与典型的两阶段检测器有一些不同。在第一阶段,检测器产生了检测结果,而不是拒绝那些不太可能包含物体的提议。此外,作者构建RefineBox基于经过训练的检测器并冻结它们,
级联检测是两阶段检测的扩展。一些作品采用了类似的思路,例如IoUNet,Multi-Region CNN,ALFNet [26]和BPN。级联检测结构由一系列检测头组成,并且通过逐渐增加IoU阈值进行训练。由于作者的RefineBox的简单性,作者可以轻松地将其推广为级联细化框架,即通过堆叠多个细化网络来实现。值得注意的是,作者仍然只需要拟合细化网络。
2、与冻结特征提取器的关系
有一些作品用于冻结特征提取器,例如图像和文本特征提取器。其中一项代表性的工作是。该方法侧重于冻结目标检测器的Backbone。尽管作者的方法也采用了类似的冻结模型组件的思路,但背后的动机却有很大不同。他们的方法旨在将经过训练的图像/文本特征提取器转移到目标检测中,并利用预训练模型生成的特征。相比之下,作者的目标是高效地改进经过训练的检测模型的定位能力。
5、实验
5.1、主要结果
1、COCO数据集上的结果
作者在COCO数据集上的结果如表格1所示,作者的RefineBox显著提高了DETR及其变体,例如Conditional-DETR,DAB-DETR和DNDETR。具体而言,作者的方法使DETR-R50的AP提高了2.4(从42.0 AP提高到44.4 AP)。此外,对于Conditional-DETR-R50,DAB-DETR-R50和DN-DETR-R50,RefineBox分别提供了2.5 AP,1.9 AP和1.6 AP的改进。
值得注意的是,作者的方法仅调整了边界框,保持了分类结果不变。这种现象表明作者的RefineBox是一个有前途的框架。
作者还注意到,RefineBox显著增强了召回率。例如,DETR-R50和Conditional-DETR-R50的AR100增益分别为3.7和4.1。在AR上的改进更加显著:DETR-R50为6.6,Conditional-DETR-R50为7.5。
RefineBox与更强大的Backbone网络
为了进一步展示鲁棒性和有效性,作者探索了更强大的Backbone网络(例如ResNet-101和Swin-Tiny)对检测器的影响。表格1中的结果表明,作者的RefineBox仍然有效。使用ResNet-101作为目标检测器的Backbone,作者的RefineBox分别为DETR,Conditional-DETR和DAB-DETR提供了2.0 AP,2.1 AP和1.4 AP的改进。此外,作者还观察到DAB-DETR-Swin-Tiny上的1.9 AP的增益。
2、LVIS 1.0数据集上的结果
作者还在LVIS 1.0数据集上进行了实验以评估作者的方法。首先,作者在LVIS上从头开始训练DAB-DETR-R50,没有进行任何修改。除了与COCO数据集相同的与类别数相关的超参数外,所有超参数都与COCO数据集相同。然后,作者冻结DAB-DETR-R50并应用作者的RefineBox。作者还将联邦损失应用于基线以改进检测结果。
从表2中作者可以看到,作者在LVIS上得到了与COCO类似的结果:
- 作者的RefineBox通过产生更准确的边界框来改进基线。例如,AP从26.0提高到28.8(增加了2.8);
- 改进主要来自于AP75和APs;
- 召回率的改进非常显著。
这些现象与COCO数据集上的结果一致,并表明作者的方法改善了定位质量。
有趣的是,与常见类别相比,作者的RefineBox对于罕见类别的改进有限(+ 0.8 AP)。为了更好地理解,作者消除了分类错误并在表3中呈现了理想性能。作者观察到:
- 作者的RefineBox将APr,APc和APf的上界分别提高了4.0 AP,4.9 AP和5.0 AP,这是可比较的。
- 罕见类别的上界要高得多,无论是否应用RefineBox。
这些现象表明LVIS上的罕见类别的分类能力是Bottleneck之一:作者的方法改善了定位质量,但由于DAB-DETR-R50的错误分类结果,检测仍然失败。
5.2、走向更深
1、RefineBox增加了理想性能
根据作者在检测模型中定位Bottleneck的方法,作者将标签替换为真实值,以研究理想性能(没有分类错误的情况)。图5表明,作者的RefineBox有效地减少了定位错误,并改进了检测模型的理想性能。
结果表明,增强分类能力可能会进一步提高性能。作者将这个探索留作未来的工作。
2、在Group DETR上的改进
作者的方法与最近提出的Group DETR是正交的,并且可以进一步提升后者的性能。具体来说,作者使用11个组对Conditional-DETR-R50进行12个Epoch的训练,然后应用作者的RefineBox。
如表4a所示,作者的RefineBox将基线的AP,AP75,APs和APm分别提高了2.7 AP,4.0 AP,4.7 AP和2.5 AP。
3、性能的改进来自于额外的参数还是FLOPs?
作者将作者的RefineBox与具有12个解码器层(DAB-DETR-R50+)的DAB-DETRR50进行了比较,表格4b中的DAB-DETR-R50+的GFLOPs与作者的RefineBox的性能相当。作者将所有模型训练了12个Epoch。只有6个解码器层的模型得分为35.9 AP,而再添加6个解码器层稍微降低了性能,即AP降至35.1。
相比之下,将作者的RefineBox应用于DAB-DETRR50将得分从35.9 AP提高到39.2 AP(+ 3.3 AP)。总的来说,性能改进的关键原因既不是额外的参数也不是额外的FLOPs。
除了性能优势,作者的RefineBox还显示了参数的高效利用。与作者方法的0.5M相比,DAB-DETR-R50+引入了额外的1100万个参数,是作者的22倍。
请注意,在所有实验中,DAB-DETR和RefineBox中的所有层仅更新了12个Epoch,因此比较是公平的。
此外,冻结DAB-DETR并添加六个解码器层是作者RefineBox框架的一个示例。
4、性能的改进来自于额外的训练时间吗?
作者在表格4c中展示了没有作者的RefineBox但训练时间较长的目标检测器的结果。作者观察到:
- 使用108个训练Epoch,Conditional-DETR-R50相比于基线(50个Epoch)报告了2.0 AP的改进;
- 作者的RefineBox在12个Epoch的训练中带来了2.5 AP的增益,超过了使用108个训练Epoch的Conditional-DETRR50的性能。
鉴于这些观察结果,作者得出结论:额外的训练时间不是性能提高的主要原因。
5、添加额外的分类分支是否有帮助?
作者的RefineBox仅对预测的边界框进行了优化。作者想知道是否添加额外的分类分支会提高性能。分类分支的构造与定位分支类似。
具体来说,作者在FPN后面添加了Refiner模块,与定位分支并行。作者不共享定位分支的参数与分类分支。
表格4d显示,添加额外的分类分支对最终性能没有帮助。作者怀疑:
- 分类分支的容量要小得多。一项旨在减少错误阳性的先前研究,即DCR,通过采用ResNet-152作为优化网络来改进Faster RCNN。相比之下,作者的设计是轻量级的。一个更强大的分类器可能会进一步提高性能。
- 对于当前的DETR-like模型来说,通过提高分类能力来改进整体性能可能很困难,正如第3节讨论的那样。
6、训练检测器是否一起进行会有帮助?
作者设计的冻结目标检测模型的方法是高效的。作者也探索了同时训练检测器是否会提高性能。表格4e中的结果表明,性能略有下降,即从45.2 AP下降到44.9 AP。
作者怀疑原因是训练过程中,冻结的模型与随机初始化的优化网络之间存在不一致。对于作者的RefineBox框架,优化网络只需要拟合冻结检测器的输出特征。
因此,它不能影响检测模型的特征分布。相反,同时训练检测器使得两者相互影响。检测器可能在优化网络的影响下改变特征的分布。一旦发生偏移,优化网络应该拟合新的分布。训练不稳定性可能导致优化问题。
鉴于上述发现,作者认为在作者的RefineBox中冻结检测器是有效和高效的。
7、多尺度特征的有效利用
作者观察到作者的例子主要增加了APs和AP75的定位质量(见表1和表2)。作者将这一发现归因于对多尺度特征的有效利用。作者的模型利用了较大尺寸的特征,这对原始的检测模型可能部分困难,因为自注意力复杂度是二次的。作者假设利用多尺度特征是优化网络成功的核心因素。这可能是在作者的实验中,优化网络对可变形DETR的增益相对较低的原因之一:可变形DETR应用了相对复杂的可变形注意力机制来利用特征金字塔。使用更复杂的优化网络设计可能会带来进一步的改进。
8、总结
从以上讨论中,作者得出结论:
- 额外的训练时间,参数和FLOPs不是作者方法成功的主要原因。
- 同时训练具有额外分类分支或训练良好的检测器是低效的,并且不会带来任何好处。
5.3、消融实验
1、训练成本
在训练过程中,作者冻结了经过训练的目标检测器,并仅更新属于优化网络的参数。冻结的检测模型不需要时间和内存来计算和保存梯度。
如表5所示,如果作者在线生成特征和预测结果,与DAB-DETR-R50相比,作者的RefineBox仅需要58%的训练时间。这些特性有利于计算资源有限的研究人员。
2、推理成本
作者的优化网络非常高效,因为它只引入了0.5 M个参数和6.5 GFLOPs 1(表格6a)。额外的参数和FLOPs分别占DAB-DETR的1.1%和7.3%。对于ResNet-101和Swin-Tiny,这些百分比将进一步减少:对于ResNet-101,额外参数和FLOPs的比例降低到0.8%和4.2%。
3、训练 Epoch 数
作者对作者的RefineBox的训练 Epoch 数进行了调查。作者选择常用的设置:12、24、36和50 Epoch 。表6b中列出的结果表明,12 Epoch 的训练计划足以产生令人印象深刻的性能。这是预期的,因为作者的优化网络是建立在经过训练的目标检测器之上的。
作者还注意到,相对于12 Epoch 的训练设置,更长的训练时间带来的增益有限。例如,与基本设置(12个训练 Epoch )相比,训练24和50个 Epoch 次分别带来了额外的0.4 AP和0.6 AP的改进。作者怀疑这一现象应归因于优化网络的低容量:优化网络的总参数数量为0.5 M,远远小于经过训练的目标检测器。
4、对前K个框进行优化
作者优化了基于分类标志的前100个预测结果。作者还调查了K的影响,并在表6c中呈现了结果。作者观察到当将K增加到300时没有增益。这一现象可以解释为COCO数据集中图像中可能存在的对象的最大数量为100。
然后,作者尝试将K的值从100减少到30。有趣的是,AP的损失很小,即从45.2 AP降至45.0 AP。仅优化前30个预测使得DAB-DETR-R50的AP提高了1.7。这是因为只有1.48%的图像包含超过30个对象,如表6d所示。FLOPs也降低了21.5%,超过DAB-DETR-R50 5.1个GFLOPs。
如果将K设置为10,作者的RefineBox将减少0.7个AP,但仍优于DAB-DETR-R50 1.2个AP。作者怀疑前10个预测结果可能包含误报。
此外,图像中出现的对象数量可能超过10个,尽管大多数图像中的对象数量不会超过10个,如表6d所示。尽管较小的K会导致较低的FLOPs,但作者仍将K设置为可能出现在图像中的对象的最大数量,即COCO的最大数量为100。
5、参数共享
作者在Refiner模块之间进行参数共享的实验。表6e中的结果显示,共享参数不影响性能。因此,作者选择共享参数以提高参数效率。
6、Refiner模块的数量
表8a展示了对RefineBox中使用的Refiner模块数量的剖析研究。
结果表明,作者的RefineBox在不同的Refiner模块数量(包括1、3和6)下表现良好。由于作者观察到性能增益趋于饱和,作者选择3作为Refiner模块数量的值。
7、大Batch训练
作者提出的RefineBox具有使得可以进行更大Batch训练的优势,而无需进行内存优化,这对于计算资源有限的研究人员尤其有益。例如,当将检测器用作在线特征提取器和区域建议网络时,作者的RefineBox允许在具有24GB内存的4个GPU上以总Batch大小160进行DAB-DETR-R50 + RefineBox的训练。
作者对更大Batch大小的DETR进行了实验,如表8b所示。结果表明,使用Batch大小为64比Batch大小为16略有更好的性能。对于DETR-R50和DETR-R101,将Batch大小从16增加到64会导致AP增加0.3。
8、Bottleneck通道
如论文中所述,作者将Bottleneck块中3×3卷积层的输入通道称为Bottleneck通道。作者在Bottleneck通道上进行了剖析研究,以在性能和推理成本之间取得平衡。从表8c的结果中,作者观察到增加Bottleneck通道会导致AP性能的提升。
然而,与默认值64相比,将Bottleneck通道增加到128只能获得0.2个AP的小幅提升,同时引入了5.3个GFLOPs,这似乎不是一个最优的权衡。因此,作者选择64作为默认的Bottleneck通道大小。
9、Bottleneck块的数量
表8d展示了作者的RefineBox中Bottleneck块数量的剖析研究结果。结果显示,不同数量的Bottleneck块的RefineBox性能相当,表明添加更多的块可能不会显著地有助于学习与定位相关的特征。这些发现表明,在设计RefineBox框架的边界框优化模块时还有进一步的探索空间。
10、模型维度
作者在表8e中进行了模型维度的剖析研究。如论文中所介绍的,模型维度是优化模块中(除了FPN)模块的输入和输出通道。该值是限制优化模块的GFLOPs和参数数量的关键。将维度设置为32会导致RefineBox最轻量级的版本,但AP也是最差的。
相反,增加模型维度的值只会带来较小的性能提升,但会引入大量的FLOPs。考虑到性能和计算成本之间的权衡,作者选择64作为默认的模型维度。
5.4、RefineBox with Classification Branch
在作者主要论文的第5.3节中,作者深入研究了额外的分类细化分支是否有益。如图7所示,分类细化分支的结构与定位细化分支类似,具有单独的参数和细化器模块。关于Refiner模块的其他信息可以在主要论文的图4中找到。
5.5、More Discussion on Multi-scale Features
作者假设作者实验中的优化网络通过有效地利用多尺度骨干特征来改进DETR-like模型,并且更复杂的设计可能会带来更多的收益。在这里,作者对多尺度特征的利用进行更多讨论。
有趣的是,与利用多尺度特征的模型相比,优化网络对单尺度模型的增益更高。例如,如表9所示,在作者的实验中,优化网络仅为Deformable DETR提供了0.6个AP的改进。作者注意到Deformable DETR的每个Transformer层都利用了多尺度骨干特征,并借助复杂的多尺度可变形注意机制。这种机制结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力,并实现了跨尺度和内尺度特征的聚合。
相比之下,作者实验中的优化网络相当简单,仅采用一系列残差块来优化边界框。作者怀疑优化网络的模型能力可能并不比多尺度可变形注意力机制高。考虑到作者优化网络的简单性,作者的模型在这样的多尺度模型上给出的改进有限,并不令人意外。
6、参考
[1].Enhancing Your Trained DETRs with Box Refinement.