引言
YOLO-World 是一种最先进的零样本目标检测模型。您可以向 YOLO-World 提供任意文本提示,让模型在没有任何微调的情况下识别图像中的对象实例。没有预定义的类别列表;您需要尝试不同的提示,看看模型是否能够以对您的项目可接受的标准来识别对象。
之前文中已经对其使用进行了详细介绍《YOLO-World检测一切的任务框架使用指南,支持开放词汇检测任务》。在本文中,将分享YOLO-World的五个技巧。通过阅读本文章,您将获得可应用于更有效地使用YOLO-World识别对象。
1.YOLO-World 提示技巧
1.1忽略置信度大小
对于大多数流行的计算机视觉模型,置信度超过80%通常代表“高置信度”。YOLO-World并不遵循这一趋势。你可以期望置信度低至5%,1%,甚至0.1%来产生有效的预测。
虽然对于其他流行模型(如YOLOv8)来说,过滤掉所有低于80%的预测是很正常的,但YOLO World 准确地预测了上图中的门把手,并且置信度在23%到35%之间。
由于YOLO-World是在Microsoft COCO上训练的,所以对COCO类别的置信度比其他类别高得多。在上面的例子中,吹风机(COCO中的一个类别)具有 21% 的置信度,而许多其他物体的置信度低于 10%,甚至低于 1%。为了确保每个类都被正确预测,对每个类别的不同置信度间隔很重要。设置为 15% 置信度可以确保我们不会看到图像右侧的吹风机假阳性,但几乎所有保湿霜类都将不会被检测到。
1.2添加空类
一个空类是指你不感兴趣的类别,但让模型检测它,因为它提高了你关心的类的性能。例如,让我们尝试使用YOLO-World来检测车牌。
从上图我们可以看到模型预测了我们关心的对象(车牌),但是错误地检测到汽车是车牌。在观察到次要对象被错误地检测为感兴趣的对象时,通常很有用的是将次要对象car作为类别添加
。看看当汽车被添加为一个类别的时候会发生什么。如下图:
可以看到检测错误的问题修复了!虽然我们可能不关心汽车的位置,但把它当作一个类来调用可以防止对车牌等感兴趣的对象进行错误预测。
1.3使用两阶段检测工作流程
两阶段工作流程串联了模型,其中第一阶段模型的输出是第二阶段模型的输入。举个例子,我们试着在人群中检测人的瞳孔。
即使设置低至 0.3% 的置信度阈值,我们也会错过许多眼睛。为了提高性能,我们可以使用具有以下步骤的两阶段工作流程:
第一步:检测人脸。
第二步:对于每张脸,裁剪并检测眼睛。
这是如何运作的?
首先,我们检测到所有的人脸。注意我们找到的人脸数量比眼球多得多。这是因为人脸是更大的物体,因此更容易被检测到。
现在,让我们裁剪这些预测并运行第二阶段的眼球模型:
还不错!我们已经挑出了几个初始模型漏掉的眼睛。有趣的是,在所有这些情况下,都有一只眼睛检测器几乎占据了整个图像区域。这是与YOLO-World(我们在本文后面的部分会讨论)相关的常见错误。
1.4 利用颜色优势
YOLO-World具有很强的颜色感。在上面的例子中,它能够区分绿色草莓和红色草莓。甚至错误率也最低(左下角)也是最“红”的绿色草莓。再次看到之前的例子中的相同错误:一个大的、高置信度的绿色草莓预测占据了屏幕大部分。
以一张 FIRST 机器人比赛 的图片为例,图中蓝色和红色队伍正在争夺中立的黄色目标。在检测对象是新奇且不太可能与其他提示一起被检测的情况下,颜色识别能力至关重要。
我们可以使用简单的颜色查询来检测这些对象,而无需关注实际的对象本身。这种方法在常规描述提示失败的情况下非常有用。
1.5 使用描述大小的词语
在这张图片中,我们正在检测YOLO-World中的两个类别:饼干和金属屑
。即使置信度很低,金属缺陷也没有被检测到。
下面是同一张图片,但置信度相同,我们使用了小金属碎片
的提示。现在金属屑就被检测出来了!
2. 后处理改进
YOLO-World有一些独特的特性,仅靠提示无法解决。到目前为止,在示例中我们已经看到了一些这样的情况。本节概述这些独特之处以及处理它们的方法。
2.1按类别调整置信度
正如上面我们在吹风机示例中所看到的,不同的类别的理想置信度阈值可能在相同的图像上有所不同。与流行的其他目标检测模型不同,这些区域可能会有很大的差异。
例如,当置信度超过 70% 时,人像检测可能会有最佳效果,但蓝色直升机在超过 0.5% 的置信度下可能会有更好的效果。如果你尝试为这两个类别设置相同的置信度阈值,那么要么会漏掉人像,要么会误报蓝色直升机。
作为解决方案,建议使用独特的类级置信度阈值过滤预测
2.2按大小过滤预测值
YOLO-World的一个最令人沮丧的挑战之一是,它经常除了识别单个对象之外还会预测一组对象。 更糟糕的是,这些组预测通常具有很高的置信度,因此无法通过传统方法进行过滤。
作为解决方案,我们建议过滤掉那些占整个图像一定比例以上的预测
。这个值针对各个检测类别各不相同,并且可能不适用于某些您期望填充整个图像的类别。
3. 挑战
3.1 空间提示
YOLO-World中不知道左右,也很难识别其他方向参考。如果你想检测图像中不同物体的交互、移动或旋转,可能需要使用其他方法(比如后处理)。
3.2不同语境下的表现
YOLO-World令人印象深刻,因为对于给定的图像,您通常可以找到一组提示和参数来产生准确的结果。
然而,早期测试表明,在各种环境和语境中找到持久有效的提示更为困难。由于理想置信度阈值可能会因图像而异,因此在示例图像上有效的提示可能无法应用于整个生产数据集。
如果你发现自己在不同的环境中更改提示和参数设置,那么最好使用YOLO-World输出来训练一个自定义模型,该模型将在所有设置中表现得更好。