备案控制台

开发者社区视觉智能文章正文

理解图像分割中的卷积（Understand Convolution for Semantic Segmentation）

2018-05-07 2154

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，分割抠图1万点

简介： 以最佳的101 layer的ResNet-DUC为基础，添加HDC，实验探究了几种变体：无扩张卷积(no dilation)：对于所有包含扩张卷积，设置r=1r=1扩张卷积(dilation Conv )：对于所有包含扩张卷积，将2个bloc...

以最佳的101 layer的ResNet-DUC为基础，添加HDC，实验探究了几种变体：

无扩张卷积(no dilation)：对于所有包含扩张卷积，设置r=1
扩张卷积(dilation Conv )：对于所有包含扩张卷积，将2个block和为一组，设置第一个block的r=2
Dilation-RF：对于res4b
Dilation-Bigger：对于res4b

可以看到增加接收野大小会获得较高的精度。如下图所示：

ResNet-DUC-HDC在较大的目标物上表现较好。下图是局部放大：

可以看到HDC有效的消除”gridding”产生的影响。

Deeper Networks：同样尝试了将ResNet-101切换为ResNet-152，使用ResNet152先跑了10个epoch学习了BN层参数，再固定BN层，跑了20个epochs.结果如下：

ResNet152为基础层的有1%的提升。

Test Set Results：论文将ResNet101开始的7×7

模型同时在coarse labels跑了一圈，与同样以deliated convolution为主的DeepLabv2相比，提升了9.7%.

KITTI Road Segmentaiton

KITTI有289的训练图片和290个测试图片。示例如下：

因为数据集有限，为了避免过拟合。论文以100的步长在数据集中裁剪320×320

结果达到了state-of-the-art水平.

PASCAL VOC2012 dataset

先用VOC2012训练集和MS-COCO数据集对ResNet-DUC做预训练。再使用VOC2012做fine-tune。使用的图片大小为512×512

可视化结果如下：

Conclusion

论文提出了简单有效的卷积操作改进语义分割系统。使用DUC恢复上采样丢失的信息，使用HDC在解决”gridding”的影响的同时扩大感受野。实验证明我们的框架对各种语义分割任务的有效性。

文章标签：

视觉智能开放平台

计算机视觉

ayew

目录

相关文章

宋晨明

|

3月前

|

机器学习/深度学习人工智能文件存储

【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet

本文介绍了一种名为HyperSegNAS的新方法，该方法结合了一次性神经架构搜索（NAS）与3D医学图像分割，旨在解决传统NAS方法在3D医学图像分割中计算成本高、搜索时间长的问题。HyperSegNAS通过引入HyperNet来优化超级网络的训练，能够在保持高性能的同时，快速找到适合不同计算约束条件的最优网络架构。该方法在医疗分割十项全能（MSD）挑战的多个任务中展现了卓越的性能，特别是在胰腺数据集上的表现尤为突出。

宋晨明

34 0 0

【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet

BetterBench

|

5月前

|

机器学习/深度学习网络协议 PyTorch

【文献学习】DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement

本文介绍了一种新的深度复数卷积递归网络（DCCRN），用于处理语音增强问题，特别是针对低模型复杂度的实时处理。

BetterBench

204 5 5

BetterBench

|

5月前

|

机器学习/深度学习 PyTorch 语音技术

【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition

文章介绍了Conformer模型，这是一种结合了Transformer的自注意力机制和CNN卷积模块的混合模型，旨在提高语音识别任务的性能，通过自注意力捕捉全局上下文信息，同时利用卷积模块有效捕获局部特征。

BetterBench

129 0 0

Trouble..

|

机器学习/深度学习编解码自然语言处理

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation论文解读

在过去的几年中，卷积神经网络(CNN)在医学图像分析方面取得了里程碑式的进展。特别是基于U型结构和跳跃连接的深度神经网络在各种医学图像任务中得到了广泛的应用。

Trouble..

727 0 0

LeapMay

|

编解码计算机视觉

NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读

NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读

LeapMay

239 2 2

Trouble..

|

机器学习/深度学习 PyTorch 测试技术

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

我们提出了SegNeXt，一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中，我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

Trouble..

422 0 0

Trouble..

|

机器学习/深度学习 PyTorch 算法框架/工具

【论文精读】ISBI 2022 - Retinal Vessel Segmentation with Pixel-wise Adaptive Filters

由于视网膜血管的纹理复杂和成像对比度低，导致精确的视网膜血管分割具有挑战性。以前的方法通常通过级联多个深度网络来细化分割结果

Trouble..

138 0 0

LiBiGo

|

机器学习/深度学习编解码数据可视化

图像目标分割_2 FCN（Fully Convolutional Networks for Semantic Segmentation）

图像语义分割：给定一张图片，对图片上每一个像素点进行分类！但是与图像分类目的不同，语义分割模型要具有像素级的密集预测能力才可以。

LiBiGo

252 0 0

征途黯然。

|

机器学习/深度学习数据挖掘

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

征途黯然。

212 0 0

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

AIEarth

|

机器学习/深度学习编解码数据挖掘

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

AIEarth

118 0 0

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

视觉智能

热门文章

最新文章

Python黑科技：50行代码运用Python＋OpenCV实现人脸追踪+详细教程+快速入门+图像识别+人脸识别+大神讲解

YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】

5款开源BI工具优缺点及介绍

‘通义万相’使用体验——令人惊艳的AI绘画创作大模型

YOLOv8改进 | 融合模块 | 用Resblock+CBAM卷积替换Conv【轻量化网络】

【OpenVI-图像超分实战篇】别用GAN做超分了，快来试试基于扩散模型的图像超分吧！

达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型

vue使用iconfont图标

FFmpeg开发笔记（六十）使用国产的ijkplayer播放器观看网络视频

超分辨率相关的开源项目

vue使用iconfont图标

阿里云多模态数据信息提取解决方案评测报告

阿里云多模态数据信息提取技术解决方案评测

【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态？

uni-app开发AI康复锻炼小程序，帮助肢体受伤患者康复！

【一步步开发AI运动小程序】十六、AI运动识别中，如何判断人体站位？

【一步步开发AI运动小程序】十五、AI运动识别中，如何判断人体站位的远近？

【一步步开发AI运动小程序】十四、主包超出2M大小限制，如何将插件分包发布？

【一步步开发AI运动小程序】十三、自定义一个运动分析器，实现计时计数02

【一步步开发AI运动小程序】十二、自定义一个运动分析器，实现计时计数01

相关电子书

更多

Understanding and Improving Layer Normalization论文

Rethinking Recurrent Neural Ne

Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

下一篇

阿里云无影云电脑免费试用，最长可试用3个月