备案控制台登录注册

开发者社区人工智能文章正文

【vision transformer】LETR论文解读及代码实战（一）

2023-08-03 262 发布于甘肃

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【vision transformer】LETR论文解读及代码实战

LETR: Line Segment Detection Using Transformers without Edges

基于vision-transformer/DETR 提取wireframe的网络框架，截止日前实现了sota性能。

论文：https://arxiv.org/abs/2101.01909

代码：https://github.com/mlpc-ucsd/LETR

该部分是论文解读：

该论文是DETR在wireframe 数据集任务上的变体迁移，也是vision transformer在wirefame上的成功尝试，实现了wreframe 检测任务的sota性能，DETR论文及代码的介绍参考

【vision transformer】DETR原理及代码详解（一）_wangshuaixian的博客-CSDN博客_detr代码详解

【vision transformer】DETR原理及代码详解（三）_wangshuaixian的博客-CSDN博客

【vision transformer】DETR原理及代码详解（四）_wangshuaixian的博客-CSDN博客

LETR论文：

（1）摘要

本文提出了一种利用transformer 机制的端到端的全局线段提取网络。它不需要后处理以及中间的启发式引导。LETR取自LinE segment TRansformers，利用DETR中的三个高明之处即集成化编码和解码的tokenized查询，自注意力和联合查询，解决了该领域的三个问题：边缘元素检测，感知聚合和全局推断。

transformer通过分层的注意力机制逐步细化线段，省略了之前线段提取中的启发式设计。我们设计的transformer 配备有多尺度的encoder和decoder，直接利用端点距离损失训练---这尤其适用于实体（例如边界框无法方便表示的线段），最终实现细粒度的线段提取。

LETR在wireframe和YorkUrban数据集上显示了sota性能，也为联合端到端的通用实体检测（没法用标准物体检测框表示）指明了方向。

（2）创新点

LETR 跳过了传统的边缘/连接/区域检测+proposals+感知分组pipline，设计了一个通用的全局端到端线段分割的目标检测算法。LETR论文灵感来自于：transformer框架中的具有集成编码和解码功能的标记化查询，自注意力机制，匈牙利匹配算法的隐式覆盖了线段检测中的（信息检测、感知分组和整体评估）的重要内容。

（3）主要贡献

除以上提到的两点外，本文针对DETR框架的创新：

LETR在DETR 中引进了两个新的算法，

第一：多尺度的编码器/解码器，如下图所示，多尺度的encoder/decoder分阶段处理再融合，提高线段检测的精度;

第二：训练时直接用端点距离作为损失函数，解决了像线一样无法用标准bbox 表示特征的实体利用transformer框架检测的障碍。

（4）LETR流程

（1）Image feature extraction：

输入一张图像，通过cnn backbone 降维获得图像深度特征map ：（h×w×c）

（2）Image feature encoding：

图像深度特征map flattened后维度为：（hw×c），然后通过多头注意力机制encode为

（hw×c），然后喂入FFN层。

（3）Line segment detection：

在transformer 解码阶段，N可学习的线段候选（N×C）通过交叉注意力机制与encoder 的输出交互

（ 4）Line segment prediction：

在transformer decoder 的顶层用两个预测头实现线段预测。线坐标通过多层感知机MLP预测，置信度通过线性层打分。

（5）挖掘点

self-attention and cross-attention（自注意力和交叉注意力）

Transformer encoder

Transformer decoer

Coarse-to-Fine Strategy （由粗到细的策略）

Biparttite Matching

（6）损失函数： Line segment losses

classification loss： binary cross-entropy loss

distance loss：L1 loss 用来回归线段的端点

LERT最后删除了DETR 中的GIOU损失，因为GIOU是针对bbox的，采用损失为：

（5）LETR的实验结果：

文章标签：

计算机视觉

机器学习/深度学习

数据挖掘

算法

LeapMay

+关注

目录

打赏

0

0

0

0

20

相关文章

冷冻工厂

|

机器学习/深度学习自然语言处理算法

Transformer 模型：入门详解（1）

动动发财的小手，点个赞吧！

冷冻工厂

13504 1 6

Transformer 模型：入门详解（1）

clichong

|

机器学习/深度学习编解码并行计算

论文阅读笔记 | Transformer系列——CSWin Transformer

论文阅读笔记 | Transformer系列——CSWin Transformer

clichong

800 0 0

论文阅读笔记 | Transformer系列——CSWin Transformer

OpenMMLab

|

机器学习/深度学习编解码自然语言处理

Vision Transformer 必读系列之图像分类综述(二): Attention-based（上）

Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出，从题目中可以看出主要是靠 Attention 注意力机制，其最大特点是抛弃了传统的 CNN 和 RNN，整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制，然后再分析模型结构。

OpenMMLab

966 0 1

Vision Transformer 必读系列之图像分类综述(二): Attention-based（上）

modelscope

|

8天前

|

机器学习/深度学习人工智能自然语言处理

论文推荐：R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

简要介绍：由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集，包含图像和视频生成/理解任务，并利用该模型进行自动构建高质量偏好对数据，最终通过DPO优化视觉模型。实验结果表明，联合学习评估多样化视觉任务可以带来显著的相互益处。

modelscope

49 1 1

JOYCE_Leo16

|

10月前

|

机器学习/深度学习人工智能自然语言处理

Mamba 作者谈 LLM 未来架构

Mamba 作者谈 LLM 未来架构

JOYCE_Leo16

143 0 0

clichong

|

机器学习/深度学习编解码自然语言处理

【18】Vision Transformer：笔记总结与pytorch实现

【18】Vision Transformer：笔记总结与pytorch实现

clichong

954 0 0

【18】Vision Transformer：笔记总结与pytorch实现

clichong

|

计算机视觉

论文阅读笔记 | Transformer系列——Transformer in Transformer

论文阅读笔记 | Transformer系列——Transformer in Transformer

clichong

348 0 0

论文阅读笔记 | Transformer系列——Transformer in Transformer

clichong

|

机器学习/深度学习编解码自然语言处理

论文阅读笔记 | Transformer系列——Swin Transformer

论文阅读笔记 | Transformer系列——Swin Transformer

clichong

1434 0 0

论文阅读笔记 | Transformer系列——Swin Transformer

极智视界

|

10月前

|

机器学习/深度学习人工智能自然语言处理

极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构

大家好，我是极智视界，本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。

极智视界

471 0 0

LeapMay

|

SQL API

【vision transformer】DETR原理及代码详解（四）

【vision transformer】DETR原理及代码详解

LeapMay

642 0 1

热门文章

最新文章

FL Studio目前最新版本V21中文版下载安装包

VS Code书写vue项目配置 eslint+prettier 统一代码风格

阿里云物联网平台offline离线日志原因排查

maven checkstyle插件报错

网络基础知识之————A记录和CNAME记录的区别

日交易笔百万级，Ping++的大数据平台架构

MongoDB 6.x 在 Windows 和 Linux 下的安装教程（详细）

如何降低直播延时？

droid应用程序键盘（Keyboard）消息处理机制分析（10）

Vijos P1785 同学排序【模拟】

JT1078和GB28181差别在哪里？

H.264语法结构分析之frame_cropping_flag

Android平台GB28181执法记录仪技术方案与实现

[对话音视频牛哥]送给初入职场的程序员：不忘初心，砥砺前行

C++20之2025年上桌我坐哪里？

如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送

大牛直播SDK在四足机器人和无人机巡检中的创新应用方案

基于大牛直播SDK的无纸化同屏会议与智慧教室技术方案

RTSP协议规范与SmartMediaKit播放器技术解析

《分布式软总线：AI动态推理架构的智能“建造师”》

相关课程

更多

深度学习理论与实战（基于TensorFlow实现）

深度学习框架TensorFlow入门

神经网络与深度学习

Pytorch实战

深入浅出PyTorch

计算机视觉类比赛汇总

相关电子书

更多

中国地质大学博士学位论文

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

典型模型-卷积神经网络入门

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

使用PAI-快速开始，低代码实现大语言模型微调和部署

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

下一篇

阿里云oss简介和如何对接使用

你好，我是AI助理

可以解答问题、推荐解决方案等