【vision transformer】LETR论文解读及代码实战(一)

简介: 【vision transformer】LETR论文解读及代码实战

LETR: Line Segment Detection Using Transformers without Edges

基于vision-transformer/DETR 提取wireframe的网络框架,截止日前实现了sota性能。

论文:https://arxiv.org/abs/2101.01909

代码:https://github.com/mlpc-ucsd/LETR

该部分是论文解读:

08fe6bad38a04e0b8721806894866b77.png

该论文是DETR在wireframe 数据集任务上的变体迁移,也是vision transformer在wirefame上的成功尝试,实现了wreframe 检测任务的sota性能,DETR论文及代码的介绍参考

【vision transformer】DETR原理及代码详解(一)_wangshuaixian的博客-CSDN博客_detr代码详解

【vision transformer】DETR原理及代码详解(三)_wangshuaixian的博客-CSDN博客

【vision transformer】DETR原理及代码详解(四)_wangshuaixian的博客-CSDN博客

LETR论文:

(1)摘要

本文提出了一种利用transformer 机制的端到端的全局线段提取网络。它不需要后处理以及中间的启发式引导。LETR取自LinE segment TRansformers,利用DETR中的三个高明之处即集成化编码和解码的tokenized查询,自注意力和联合查询,解决了该领域的三个问题:边缘元素检测,感知聚合和全局推断。

transformer通过分层的注意力机制逐步细化线段,省略了之前线段提取中的启发式设计。我们设计的transformer 配备有多尺度的encoder和decoder,直接利用端点距离损失训练---这尤其适用于实体(例如边界框无法方便表示的线段),最终实现细粒度的线段提取。

LETR在wireframe和YorkUrban数据集上显示了sota性能,也为联合端到端的通用实体检测(没法用标准物体检测框表示)指明了方向。

(2) 创新点

LETR 跳过了传统的边缘/连接/区域检测+proposals+感知分组pipline,设计了一个通用的全局端到端线段分割的目标检测算法。LETR论文灵感来自于:transformer框架中的具有集成编码和解码功能的标记化查询,自注意力机制,匈牙利匹配算法的隐式覆盖了线段检测中的(信息检测、感知分组和整体评估)的重要内容。

41e60c8379d1488caf5a3de358912968.png

(3)主要贡献

除以上提到的两点外, 本文针对DETR框架的创新:

LETR在DETR 中引进了两个新的算法,

第一:多尺度的编码器/解码器,如下图所示,多尺度的encoder/decoder分阶段处理再融合,提高线段检测的精度;

第二:训练时直接用端点距离作为损失函数,解决了像线一样无法用标准bbox 表示特征的实体利用transformer框架检测的障碍。

3c34d5d808cc43be9966823a4d290fec.png

(4)LETR流程

  (1)Image feature extraction:

输入一张图像,通过cnn backbone 降维获得图像深度特征map  :(h×w×c)

  (2)Image feature encoding:

图像深度特征map flattened后维度为: (hw×c),然后通过多头注意力机制encode为

(hw×c),然后喂入FFN层。

  (3)Line segment detection:

在transformer 解码阶段,N可学习的线段候选 (N×C)通过交叉注意力机制与encoder 的输出交互

 ( 4)Line segment prediction:

     在transformer decoder 的顶层用两个预测头实现线段预测。线坐标通过多层感知机MLP预测,置信度通过线性层打分。

(5)挖掘点

                     self-attention and cross-attention(自注意力和交叉注意力)

                     Transformer encoder

                     Transformer decoer

                     Coarse-to-Fine Strategy (由粗到细的策略)

                     Biparttite Matching

(6)损失函数:  Line segment losses

classification loss:   binary cross-entropy loss

627664b9db19430cbf6351e7cd2f3f35.png

distance loss:L1 loss 用来回归线段的端点

d639e91fa0f140a5a6022b6dfe374e2f.png

LERT最后删除了DETR 中的GIOU损失,因为GIOU是针对bbox的,采用损失为:

f5c1b7392eeb41ca86362a3df9c6c1f7.png

(5)LETR的实验结果:

0c8edabd7f4c48d78842708fc6ce4428.png


目录
相关文章
|
数据处理 Python
|
机器学习/深度学习 数据可视化 自动驾驶
YOLO11-seg分割如何训练自己的数据集(道路缺陷)
本文介绍了如何使用自己的道路缺陷数据集训练YOLOv11-seg模型,涵盖数据集准备、模型配置、训练过程及结果可视化。数据集包含4029张图像,分为训练、验证和测试集。训练后,模型在Mask mAP50指标上达到0.673,展示了良好的分割性能。
5889 4
|
11月前
|
计算机视觉 Perl
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
361 15
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
|
12月前
|
机器学习/深度学习 人工智能 计算机视觉
NeurIPS 2024:无需训练,一个框架搞定开放式目标检测、实例分割
在NeurIPS 2024会议上,论文提出了一种名为VL-SAM的框架,旨在解决开放式目标检测和实例分割任务。该框架结合了视觉语言模型(VLM)和Segment-Anything模型(SAM),利用注意力图作为提示,在无需额外训练的情况下实现未知物体的检测与分割。实验结果显示,VL-SAM在长尾实例分割数据集(LVIS)和角落情况目标检测数据集(CODA)上均表现出色,展示了其在现实世界应用中的潜力。然而,注意力图质量和计算复杂性仍是潜在挑战。
497 19
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
21091 0
|
Kubernetes 监控 Java
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
3271 1
|
机器学习/深度学习 人工智能 自然语言处理
基于Mamba架构的,状态空间音频分类模型AUM
【8月更文挑战第7天】随着AI技术的发展,音频分类在诸多领域变得至关重要。传统方法如CNN面临计算成本高的问题。新兴的Mamba架构,基于状态空间模型(SSM),展示出优秀性能。受此启发,研究者开发了Audio Mamba (AUM)模型,首个完全基于SSM且不依赖自注意力机制的音频分类模型。AUM利用SSM的高效性捕捉音频时频特征,大幅降低计算复杂度,尤其适合大规模数据。实验显示,AUM在多个任务上的表现与先进自注意力模型相当甚至更好。尽管如此,AUM在复杂任务及泛化能力方面仍存在讨论空间。[论文](https://arxiv.org/abs/2406.03344)
452 1
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
|
网络架构
小区搜索过程
小区搜索是终端通过同步信号块SSB与小区建立联系的过程,包括取得小区下行频率、时间同步、检测小区识别号CellID、通过解码广播信道BCH上的系统信息。下行同步包括频率、符号和帧同步。
507 0
小区搜索过程
|
应用服务中间件 nginx
Nginx 配置,自定义日志格式 log_format
Nginx 配置,自定义日志格式 log_format
411 0