本文核心贡献如下:
- 提出频域细节增强模块:首个将可学习频域复数权重引入YOLO的模块,通过显式增强高频边界分量,有效解决透明物体边界模糊问题。
- 设计多尺度空间细化流:由内容感知对齐颈部和多尺度门控细化模块组成,通过自适应特征对齐与动态门控机制,实现深层语义特征的精确边界定位与噪声抑制。
- 填补透明实例分割数据空白:为Trans10K数据集提供高质量实例级标注,使其适用于透明物体实例分割任务。
- 实现性能全面领先:在Trans10K和GVD数据集上,mAP50等关键指标超越SOTA方法3%以上,同时保持轻量级架构与实时推理速度。
博主简介
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
💡 未来方向与使命
秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。
0.原理介绍
论文:https://arxiv.org/pdf/2603.02648
摘要:透明物体实例分割在计算机视觉中面临重大挑战,这是由于透明物体的固有属性所致,包括边界模糊、低对比度以及对背景上下文的高度依赖。现有方法往往因依赖于强烈的外观线索和清晰的边界而失效。为解决这些局限,我们提出了SEP-YOLO,一个新颖的框架,它集成了双域协同机制用于透明物体实例分割。我们的方法包含一个频域细节增强模块,该模块通过可学习的复数权重分离并增强微弱的高频边界分量。我们进一步设计了一个多尺度空间细化流,由一个内容感知对齐颈部和一个多尺度门控细化模块组成,以确保深层语义特征中的精确特征对齐和边界定位。我们还为Trans10K数据集提供了高质量的实例级标注,填补了透明物体实例分割中的关键数据空白。在Trans10K和GVD数据集上的大量实验表明,SEP-YOLO实现了最先进的性能。
关键词:透明物体,实例分割,频域,YOLO,Trans10K
I. 引言
透明物体,例如建筑玻璃窗、实验室玻璃器皿和饮水杯,在日常生活中无处不在。对这些物体的精确检测与分割对于机器人操作、自动驾驶和工业缺陷检测等多种应用至关重要[1]。尽管透明物体语义分割已取得显著进展[2]-[4],包括基于Transformer的Trans4Trans[5]和边界增强的EBLNet[6],但这些方法本质上无法区分同一类别中的不同实例[7],从而限制了它们在机器人抓取和工业分拣[8]中的应用。相比之下,实例分割通过定位透明物体区域并为每个不同实例描绘精确边界来解决这一局限性[9]。
尽管已有众多实例分割方法被提出[10]-[13],但专门针对透明物体的设计却很少。透明物体表现出独特的物理特性,包括高透光率和低反射率。因此,它们的外观强烈依赖于背景,没有独特的纹理或颜色特征。此外,复杂的光线折射导致边界严重模糊,与背景融为一体[14]-[16],这些挑战使得依赖强烈外观线索和清晰边界的传统实例分割模型性能显著下降。
最近,Cherian等人[17]提出了TrInSeg,一种在少样本设置下,使用TransMixup数据增强和模板一致性过滤实现数据高效的透明实例分割的方法,并在机器人料箱拣选任务中展示了改进的性能。然而,该方法依赖于透明物体是刚性且形状规则的假设,这极大地限制了其对非刚性或不规则透明物体的泛化能力。
为解决上述问题,我们提出了SEP-YOLO框架,如图1所示,其主要贡献如下:
- 我们提出了频域细节增强模块,通过频域中可学习的复数权重增强透明物体的微弱边界分量,解决了空间域特征中的低信噪比问题。
- 我们设计了一个多尺度空间细化流,由内容感知对齐颈部和多尺度门控细化模块组成。该流通过内容感知对齐和动态门控实现精确的跨尺度特征融合,促进精确的边界定位和噪声抑制。
- 我们为Trans10K数据集[18]提供了高质量的实例级标注,填补了日常场景下实例分割的数据空白。我们的方法在Trans10K和GVD数据集上均实现了最先进性能,同时保持了实时推理速度,展现了在工业应用中的强大潜力。
II. 提出方法
A. 频域细节增强模块
透明物体固有的物理特性导致其边界严重模糊,表现为信噪比极低的高频分量。这些脆弱的细节在卷积和池化过程中容易被稀释,导致边界信息不可逆地丢失。为解决此问题,我们提出了频域细节增强模块,该模块通过可学习的频域复数权重增强与透明物体边界对应的频率分量。然后,细化后的分量被重新整合回空间域,提供更清晰、更具判别力的特征表示。
FDDEM采用双分支结构。空间上下文分支通过卷积层提取并保留多尺度上下文信息,而频域细节分支首先使用快速傅里叶变换[19]将输入特征映射到频域。该变换公式化为:
其中X ∈ R^{H×W×C}表示输入特征图,F(X)表示其频域表示。
我们采用多分支频率增强策略,通过可学习的复数权重矩阵自适应地调制频域特征。与具有固定频率响应的传统高通滤波器不同,我们的方法使网络能够自主发现针对透明物体边界特定特征优化的增强模式。每个分支利用不同的复数权重矩阵通过逐元素乘法调整频谱分量,如图2(a)所示。每个分支的频率增强过程定义为:
其中W^{i} ∈ C^{C×H×W}是可学习的复数权重矩阵,⊙表示哈达玛积。W^{i}的实部控制幅度调制,而虚部调整相位关系,从而实现对频域特性的全面控制。
这些自适应增强的频率分量通过逆快速傅里叶变换被转换回空间域。来自所有分支的增强特征被拼接起来,并通过1×1卷积进行压缩。然后,一个双注意力机制生成一个频率引导的注意力图,自适应地加权和增强空间特征。接着,频率增强的特征与空间分支进行集成。该集成操作将来自频域的边界细化信息与来自空间域的上下文表示连接起来,形成结合了增强边界细节与丰富空间上下文的统一特征表示。
B. 多尺度门控细化模块
尽管我们的FDDEM模块在频域中增强了高频边界,但特征在空间下采样和聚合过程中会被稀释,导致边界细节丢失和语义特征中定位不准确。为解决此问题,我们提出了多尺度门控细化模块,如图2(b)所示。
其核心组件是多尺度门控单元,本质上是卷积门控线性单元[20]的多尺度变体。它采用多尺度深度可分离卷积聚合多尺度深度卷积以实现高效的上下文提取,同时确保计算效率。作为一个多尺度CGLU,它增强了空间提取特征的非线性表示能力,并优化了跨尺度特征细化;门控机制[21]进一步对这些细化后的特征执行自适应通道加权和噪声抑制。完整的MS-GRB操作将MS-GU与残差学习相结合:
其中X_k和V_k是来自通道分割的特征分支,D_{MS}(·)是MSDWConv,σ_{act}(·)/σ_{gate}(·)是激活和门控函数。这种深度门控细化使MS-GRB能够在最深层的语义级别实现对微弱边界信息的精确定位和增强,显著提高了在复杂背景下的分割精度和泛化能力。
C. 内容感知对齐颈部
由于透明物体的光学特性,其边界模糊且空间位置不稳定。在特征金字塔结构中,下采样和上采样操作都面临局限性:下采样会截断特征信息并减少空间细节,而上采样会平均像素值,稀释高频边界信息并导致空间错位。为应对这些挑战,我们提出了具有双路径增强的内容感知对齐颈部。
在下采样路径中,我们采用线性可变形卷积替换标准步长卷积。如图3(a)所示,LDConv通过一种新颖的坐标生成算法,生成具有任意数量参数和任意采样形状的卷积核。这使得参数能够线性增长而非二次增长,同时保持表示能力。LDConv操作通过可学习的偏移量动态调整采样位置,以适应不同目标:
其中N是卷积参数的数量,P_n是由算法生成的初始采样坐标,∆P_n是学习到的偏移量。该公式使LDConv能够在下采样期间捕获广泛的全局上下文,同时保留空间细节,其参数量随核大小线性增长,而非像标准和可变形卷积那样呈二次增长。
在上采样路径中,我们采用DySample[22],一种创新的动态上采样器,它将上采样过程从点采样的角度重新构建,如图3(b)所示。核心操作可表示为:
其中G是原始采样网格,λ=0.25是静态范围因子。该设计采用双线性初始化以确保初始采样位置均匀分布,同时范围因子约束偏移范围以防止相邻采样点重叠,有效避免边界伪影和空间错位。这种机制使DySample能够根据特征内容自适应调整采样位置,在纹理丰富的边缘区域生成语义响应的采样点,以更好地保留细节信息。
双路径增强共同在整个金字塔结构中维护边界细节并确保精确的多尺度特征对齐,这对于边界模糊、空间位置不稳定的透明物体尤其有益。
III. 实验
A. 数据集
我们在两个具有代表性的透明物体数据集上评估SEP-YOLO:GVD [23] 和 Trans10k [18]。GVD 数据集包含 2,416 个实验室场景,涵盖 14 类透明化学仪器。由于现有的实例分割数据集缺乏对常见透明家居物品的覆盖,我们利用了 Trans10K 语义分割数据集,通过添加实例级标注使其适用于实例分割任务。这个改编后的数据集包含 9,491 张图像,涵盖两类透明物体:玻璃表面和玻璃器皿。这两个数据集共同覆盖了日常生活和专业实验室中遇到的大多数场景。将 SEP-YOLO 与最先进的检测方法进行比较,结果表明 SEP-YOLO 在透明物体分割方面实现了卓越的性能。
B. 评估指标与实现细节
评估指标包括精确率、召回率以及边界框和分割掩码的平均精度均值。SEP-YOLO 使用 PyTorch 2.7.1 实现,输入图像尺寸为 640×640,批量大小为 4,训练 300 个轮次。采用随机梯度下降优化器,初始学习率为 0.0001,使用余弦学习率调度器和 3 个轮次的预热阶段。所有实验均在配备 NVIDIA RTX 4090 GPU 和 Intel(R) Core(TM) i9-14900KF CPU 的服务器上进行。
C. 与最先进方法的比较
我们在两个基准数据集上将 SEP-YOLO 与八种最先进方法(包括 YOLO11)进行了比较。如表 I 所总结,SEP-YOLO 在 Trans10K 上取得了最佳性能,在 Box mAP50、Box mAP75、Mask mAP50 和 Mask mAP75 上分别超出排名第二的方法 3.6%、3.2%、3.8% 和 2.5%。在 GVD 数据集上,所有指标也观察到一致的改进。这些结果证实了 SEP-YOLO 在准确识别物体边界和生成高质量分割掩码方面的有效性。在效率方面,虽然 YOLO11 仍然是最快、最紧凑的,但 SEP-YOLO 仅增加 0.23M 参数就实现了显著更高的精度,从而在性能和复杂度之间保持了良好的平衡。
这些结果共同表明,SEP-YOLO 有效地应对了透明物体分割中的边界模糊和低对比度挑战,在精度和泛化能力上都优于现有方法。图 4 中的视觉比较进一步突显了其生成更清晰边界和更完整掩码的能力,尤其是对于与复杂背景相互作用的透明物体。
D. 消融研究与分析
在 Trans10K 和 GVD 数据集上的消融研究验证了 SEP-YOLO 的每个组件。如表 II 所示,基线在 Trans10K 上取得了 0.816 的 Box mAP50 和 0.813 的 Mask mAP50。单独添加 FDDEM 将 Box mAP50 提高到 0.836,Mask mAP50 提高到 0.833,证明了频域增强对透明物体边界的重要性。进一步加入 MS-GRB 或 CA²-Neck 带来了额外的增益,完整的 SEP-YOLO 取得了 0.852 的 Box mAP50 和 0.851 的 Mask mAP50 的最佳性能。在 GVD 上观察到了类似的趋势。这些结果证实了每个模块在应对透明物体实例分割独特挑战中的互补作用。
IV. 结论
在本文中,我们提出了 SEP-YOLO 以解决复杂场景下透明物体实例分割中的低对比度和边界模糊问题。在具有挑战性的 Trans10K 和 GVD 数据集上的全面实验表明,SEP-YOLO 在分割精度上显著优于现有最先进方法,同时保持了轻量级架构和实时推理速度。此外,我们为 Trans10K 数据集贡献了高质量的实例级标注,填补了关键的数据空白。因此,SEP-YOLO 的稳健性能和高效率证明了其在工业和机器人应用中的巨大潜力。