SEP-YOLO:当频域分析遇上YOLO,透明物体实例分割迎来新突破,ISCAS 2026

简介: 本文提出SEP-YOLO框架,首创频域细节增强模块(可学习复数权重强化高频边界)、多尺度空间细化流(内容感知对齐+门控细化),并为Trans10K提供首个高质量实例标注。在Trans10K/GVD上mAP50超SOTA 3%+,兼顾精度与实时性。

 本文核心贡献如下:

  • 提出频域细节增强模块:首个将可学习频域复数权重引入YOLO的模块,通过显式增强高频边界分量,有效解决透明物体边界模糊问题。
  • 设计多尺度空间细化流:由内容感知对齐颈部和多尺度门控细化模块组成,通过自适应特征对齐与动态门控机制,实现深层语义特征的精确边界定位与噪声抑制。
  • 填补透明实例分割数据空白:为Trans10K数据集提供高质量实例级标注,使其适用于透明物体实例分割任务。
  • 实现性能全面领先:在Trans10K和GVD数据集上,mAP50等关键指标超越SOTA方法3%以上,同时保持轻量级架构与实时推理速度。

image.gif

博主简介

image.gif

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。

💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。


0.原理介绍

image.gif

论文:https://arxiv.org/pdf/2603.02648

摘要:透明物体实例分割在计算机视觉中面临重大挑战,这是由于透明物体的固有属性所致,包括边界模糊、低对比度以及对背景上下文的高度依赖。现有方法往往因依赖于强烈的外观线索和清晰的边界而失效。为解决这些局限,我们提出了SEP-YOLO,一个新颖的框架,它集成了双域协同机制用于透明物体实例分割。我们的方法包含一个频域细节增强模块,该模块通过可学习的复数权重分离并增强微弱的高频边界分量。我们进一步设计了一个多尺度空间细化流,由一个内容感知对齐颈部和一个多尺度门控细化模块组成,以确保深层语义特征中的精确特征对齐和边界定位。我们还为Trans10K数据集提供了高质量的实例级标注,填补了透明物体实例分割中的关键数据空白。在Trans10K和GVD数据集上的大量实验表明,SEP-YOLO实现了最先进的性能

关键词:透明物体,实例分割,频域,YOLO,Trans10K

I. 引言

透明物体,例如建筑玻璃窗、实验室玻璃器皿和饮水杯,在日常生活中无处不在。对这些物体的精确检测与分割对于机器人操作、自动驾驶和工业缺陷检测等多种应用至关重要[1]。尽管透明物体语义分割已取得显著进展[2]-[4],包括基于Transformer的Trans4Trans[5]和边界增强的EBLNet[6],但这些方法本质上无法区分同一类别中的不同实例[7],从而限制了它们在机器人抓取和工业分拣[8]中的应用。相比之下,实例分割通过定位透明物体区域并为每个不同实例描绘精确边界来解决这一局限性[9]。

尽管已有众多实例分割方法被提出[10]-[13],但专门针对透明物体的设计却很少。透明物体表现出独特的物理特性,包括高透光率和低反射率。因此,它们的外观强烈依赖于背景,没有独特的纹理或颜色特征。此外,复杂的光线折射导致边界严重模糊,与背景融为一体[14]-[16],这些挑战使得依赖强烈外观线索和清晰边界的传统实例分割模型性能显著下降。

最近,Cherian等人[17]提出了TrInSeg,一种在少样本设置下,使用TransMixup数据增强和模板一致性过滤实现数据高效的透明实例分割的方法,并在机器人料箱拣选任务中展示了改进的性能。然而,该方法依赖于透明物体是刚性且形状规则的假设,这极大地限制了其对非刚性或不规则透明物体的泛化能力。

为解决上述问题,我们提出了SEP-YOLO框架,如图1所示,其主要贡献如下:

  • 我们提出了频域细节增强模块,通过频域中可学习的复数权重增强透明物体的微弱边界分量,解决了空间域特征中的低信噪比问题。
  • 我们设计了一个多尺度空间细化流,由内容感知对齐颈部多尺度门控细化模块组成。该流通过内容感知对齐和动态门控实现精确的跨尺度特征融合,促进精确的边界定位和噪声抑制。
  • 我们为Trans10K数据集[18]提供了高质量的实例级标注,填补了日常场景下实例分割的数据空白。我们的方法在Trans10K和GVD数据集上均实现了最先进性能,同时保持了实时推理速度,展现了在工业应用中的强大潜力。

image.gif

II. 提出方法

A. 频域细节增强模块

透明物体固有的物理特性导致其边界严重模糊,表现为信噪比极低的高频分量。这些脆弱的细节在卷积和池化过程中容易被稀释,导致边界信息不可逆地丢失。为解决此问题,我们提出了频域细节增强模块,该模块通过可学习的频域复数权重增强与透明物体边界对应的频率分量。然后,细化后的分量被重新整合回空间域,提供更清晰、更具判别力的特征表示。

image.gif

FDDEM采用双分支结构。空间上下文分支通过卷积层提取并保留多尺度上下文信息,而频域细节分支首先使用快速傅里叶变换[19]将输入特征映射到频域。该变换公式化为:

image.gif

其中X ∈ R^{H×W×C}表示输入特征图,F(X)表示其频域表示。

我们采用多分支频率增强策略,通过可学习的复数权重矩阵自适应地调制频域特征。与具有固定频率响应的传统高通滤波器不同,我们的方法使网络能够自主发现针对透明物体边界特定特征优化的增强模式。每个分支利用不同的复数权重矩阵通过逐元素乘法调整频谱分量,如图2(a)所示。每个分支的频率增强过程定义为:

image.gif

其中W^{i} ∈ C^{C×H×W}是可学习的复数权重矩阵,⊙表示哈达玛积。W^{i}的实部控制幅度调制,而虚部调整相位关系,从而实现对频域特性的全面控制。

这些自适应增强的频率分量通过逆快速傅里叶变换被转换回空间域。来自所有分支的增强特征被拼接起来,并通过1×1卷积进行压缩。然后,一个双注意力机制生成一个频率引导的注意力图,自适应地加权和增强空间特征。接着,频率增强的特征与空间分支进行集成。该集成操作将来自频域的边界细化信息与来自空间域的上下文表示连接起来,形成结合了增强边界细节与丰富空间上下文的统一特征表示。

B. 多尺度门控细化模块

尽管我们的FDDEM模块在频域中增强了高频边界,但特征在空间下采样和聚合过程中会被稀释,导致边界细节丢失和语义特征中定位不准确。为解决此问题,我们提出了多尺度门控细化模块,如图2(b)所示。

其核心组件是多尺度门控单元,本质上是卷积门控线性单元[20]的多尺度变体。它采用多尺度深度可分离卷积聚合多尺度深度卷积以实现高效的上下文提取,同时确保计算效率。作为一个多尺度CGLU,它增强了空间提取特征的非线性表示能力,并优化了跨尺度特征细化;门控机制[21]进一步对这些细化后的特征执行自适应通道加权和噪声抑制。完整的MS-GRB操作将MS-GU与残差学习相结合:

image.gif

其中X_k和V_k是来自通道分割的特征分支,D_{MS}(·)是MSDWConv,σ_{act}(·)/σ_{gate}(·)是激活和门控函数。这种深度门控细化使MS-GRB能够在最深层的语义级别实现对微弱边界信息的精确定位和增强,显著提高了在复杂背景下的分割精度和泛化能力。

C. 内容感知对齐颈部

由于透明物体的光学特性,其边界模糊且空间位置不稳定。在特征金字塔结构中,下采样和上采样操作都面临局限性:下采样会截断特征信息并减少空间细节,而上采样会平均像素值,稀释高频边界信息并导致空间错位。为应对这些挑战,我们提出了具有双路径增强的内容感知对齐颈部

在下采样路径中,我们采用线性可变形卷积替换标准步长卷积。如图3(a)所示,LDConv通过一种新颖的坐标生成算法,生成具有任意数量参数和任意采样形状的卷积核。这使得参数能够线性增长而非二次增长,同时保持表示能力。LDConv操作通过可学习的偏移量动态调整采样位置,以适应不同目标:

image.gif

其中N是卷积参数的数量,P_n是由算法生成的初始采样坐标,∆P_n是学习到的偏移量。该公式使LDConv能够在下采样期间捕获广泛的全局上下文,同时保留空间细节,其参数量随核大小线性增长,而非像标准和可变形卷积那样呈二次增长。

在上采样路径中,我们采用DySample[22],一种创新的动态上采样器,它将上采样过程从点采样的角度重新构建,如图3(b)所示。核心操作可表示为:

image.gif

其中G是原始采样网格,λ=0.25是静态范围因子。该设计采用双线性初始化以确保初始采样位置均匀分布,同时范围因子约束偏移范围以防止相邻采样点重叠,有效避免边界伪影和空间错位。这种机制使DySample能够根据特征内容自适应调整采样位置,在纹理丰富的边缘区域生成语义响应的采样点,以更好地保留细节信息。

双路径增强共同在整个金字塔结构中维护边界细节并确保精确的多尺度特征对齐,这对于边界模糊、空间位置不稳定的透明物体尤其有益。

III. 实验

A. 数据集

我们在两个具有代表性的透明物体数据集上评估SEP-YOLO:GVD [23] 和 Trans10k [18]。GVD 数据集包含 2,416 个实验室场景,涵盖 14 类透明化学仪器。由于现有的实例分割数据集缺乏对常见透明家居物品的覆盖,我们利用了 Trans10K 语义分割数据集,通过添加实例级标注使其适用于实例分割任务。这个改编后的数据集包含 9,491 张图像,涵盖两类透明物体:玻璃表面和玻璃器皿。这两个数据集共同覆盖了日常生活和专业实验室中遇到的大多数场景。将 SEP-YOLO 与最先进的检测方法进行比较,结果表明 SEP-YOLO 在透明物体分割方面实现了卓越的性能。

B. 评估指标与实现细节

评估指标包括精确率、召回率以及边界框和分割掩码的平均精度均值。SEP-YOLO 使用 PyTorch 2.7.1 实现,输入图像尺寸为 640×640,批量大小为 4,训练 300 个轮次。采用随机梯度下降优化器,初始学习率为 0.0001,使用余弦学习率调度器和 3 个轮次的预热阶段。所有实验均在配备 NVIDIA RTX 4090 GPU 和 Intel(R) Core(TM) i9-14900KF CPU 的服务器上进行。

C. 与最先进方法的比较

我们在两个基准数据集上将 SEP-YOLO 与八种最先进方法(包括 YOLO11)进行了比较。如表 I 所总结,SEP-YOLO 在 Trans10K 上取得了最佳性能,在 Box mAP50、Box mAP75、Mask mAP50 和 Mask mAP75 上分别超出排名第二的方法 3.6%、3.2%、3.8% 和 2.5%。在 GVD 数据集上,所有指标也观察到一致的改进。这些结果证实了 SEP-YOLO 在准确识别物体边界和生成高质量分割掩码方面的有效性。在效率方面,虽然 YOLO11 仍然是最快、最紧凑的,但 SEP-YOLO 仅增加 0.23M 参数就实现了显著更高的精度,从而在性能和复杂度之间保持了良好的平衡。

image.gif

这些结果共同表明,SEP-YOLO 有效地应对了透明物体分割中的边界模糊和低对比度挑战,在精度和泛化能力上都优于现有方法。图 4 中的视觉比较进一步突显了其生成更清晰边界和更完整掩码的能力,尤其是对于与复杂背景相互作用的透明物体。

image.gif

D. 消融研究与分析

在 Trans10K 和 GVD 数据集上的消融研究验证了 SEP-YOLO 的每个组件。如表 II 所示,基线在 Trans10K 上取得了 0.816 的 Box mAP50 和 0.813 的 Mask mAP50。单独添加 FDDEM 将 Box mAP50 提高到 0.836,Mask mAP50 提高到 0.833,证明了频域增强对透明物体边界的重要性。进一步加入 MS-GRB 或 CA²-Neck 带来了额外的增益,完整的 SEP-YOLO 取得了 0.852 的 Box mAP50 和 0.851 的 Mask mAP50 的最佳性能。在 GVD 上观察到了类似的趋势。这些结果证实了每个模块在应对透明物体实例分割独特挑战中的互补作用。

image.gif

image.gif

IV. 结论

在本文中,我们提出了 SEP-YOLO 以解决复杂场景下透明物体实例分割中的低对比度和边界模糊问题。在具有挑战性的 Trans10K 和 GVD 数据集上的全面实验表明,SEP-YOLO 在分割精度上显著优于现有最先进方法,同时保持了轻量级架构和实时推理速度。此外,我们为 Trans10K 数据集贡献了高质量的实例级标注,填补了关键的数据空白。因此,SEP-YOLO 的稳健性能和高效率证明了其在工业和机器人应用中的巨大潜力。

目录
相关文章
|
8天前
|
人工智能 安全 API
CoPaw:5分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
11天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
11630 97
|
8天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
7640 27
|
6天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
5792 11
|
9天前
|
人工智能 自然语言处理 机器人
保姆级教程:Mac本地搭建OpenClaw及阿里云上1分钟部署OpenClaw+飞书集成实战指南
OpenClaw(曾用名Clawdbot、Moltbot)作为2026年最热门的开源个人AI助手平台,以“自然语言驱动自动化”为核心,支持对接飞书、Telegram等主流通讯工具,可替代人工完成文件操作、日历管理、邮件处理等重复性工作。其模块化架构适配多系统环境,既可以在Mac上本地化部署打造私人助手,也能通过阿里云实现7×24小时稳定运行,完美兼顾隐私性与便捷性。
7048 17
|
3天前
|
人工智能 安全 前端开发
Team 版 OpenClaw:HiClaw 开源,5 分钟完成本地安装
HiClaw 基于 OpenClaw、Higress AI Gateway、Element IM 客户端+Tuwunel IM 服务器(均基于 Matrix 实时通信协议)、MinIO 共享文件系统打造。
2984 7
|
4天前
|
人工智能 JavaScript 测试技术
保姆级教程:OpenClaw阿里云及本地部署+Claude Code集成,打造全能 AI 编程助手
在AI编程工具百花齐放的2026年,Anthropic推出的Claude Code凭借72.5%的SWE-bench测试高分、25倍于GitHub Copilot的上下文窗口,成为开发者追捧的智能编程助手。但单一工具仍有局限——Claude Code擅长代码生成与审查,却缺乏灵活的部署与自动化执行能力;而OpenClaw(前身为Clawdbot)作为开源AI代理框架,能完美弥补这一短板,通过云端与本地双部署,实现“代码开发-测试-部署”全流程自动化。
2164 13
|
11天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
6816 17
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
4天前
|
人工智能 JSON API
保姆级教程:OpenClaw阿里云及本地部署+模型切换流程+GLM5.0/Seedance2.0/MiniMax M2.5接入指南
2026年,GLM5.0、Seedance2.0、MiniMax M2.5等旗舰大模型相继发布,凭借出色的性能与极具竞争力的成本优势,成为AI工具的热门选择。OpenClaw作为灵活的AI Agent平台,支持无缝接入这些主流模型,通过简单配置即可实现“永久切换、快速切换、主备切换”三种模式,让不同场景下的任务执行更高效、更稳定。
2520 2