产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
开发者社区
首页
计算机视觉
自然语言处理
语音
多模态
科学计算
魔搭社区官网
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
Modelscope模型即服务
弹性计算
云原生
数据库
物联网
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
ModelScope模型即服务
文章
正文
用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录!
2023-05-18
201
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
推荐场景:
AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装
简介:
用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录!
来自浦江实验室、清华等机构的研究人员提出了一种新的基于卷积的基础模型,称为 InternImage,与基于 Transformer 的网络不同,InternImage 以可变形卷积作为核心算子,使模型不仅具有检测和分割等下游任务所需的动态有效感受野,而且能够进行以输入信息和任务为条件的自适应空间聚合。InternImage-H 在 COCO 物体检测上达到 65.4 mAP,ADE20K 达到 62.9,刷新检测分割新纪录。
近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看,传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力;从结构层面看,传统 CNNs 结构缺乏先进组件。
针对上述技术问题,来自浦江实验室、清华等机构的研究人员创新地提出了一个基于卷积神经网络的大规模模型,称为 InternImage,它将稀疏动态卷积作为核心算子,通过输入相关的信息为条件实现自适应空间聚合。InternImage 通过减少传统 CNN 的严格归纳偏置实现了从海量数据中学习到更强大、更稳健的大规模参数模式。其有效性在包括图像分类、目标检测和语义分割等视觉任务上得到了验证。并在 ImageNet、COCO 和 ADE20K 在内的挑战性基准数据集中取得了具有竞争力的效果,在同参数量水平的情况下,超过了视觉 Transformer 结构,为图像大模型提供了新的方向。
论文链接:
https://arxiv.org/abs/2211.05778
开源代码:
https://github.com/OpenGVLab/InternImage
传统卷积神经网络的局限
扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模型的表征学习能力,而且能够实现从海量数据中进行学习和知识获取。ViT 和 Swin Transformer 首次将深度模型扩大到 20 亿和 30 亿参数级别,其单模型在 ImageNet 数据集的分类准确率也都突破了 90%,远超传统 CNN 网络和小规模模型,突破了技术瓶颈。但是,传统的 CNN 模型由于缺乏长距离依赖和空间关系建模能力,无法实现同 Transformer 结构相似的模型规模扩展能力。研究者总结了传统卷积神经网络与视觉 Transformer 的不同之处:
(1)从算子层面来看,视觉 Transformer 的多头注意力机制具有长距离依赖和自适应空间聚合能力,受益于此,视觉 Transformer 可以从海量数据中学到比 CNN 网络更加强大和鲁棒的表征。
(2)从模型架构层面来看,除了多头注意力机制,视觉 Transformer 拥有 CNN 网络不具有的更加先进的模块,例如 Layer Normalization (LN), 前馈神经网络 FFN, GELU 等。
尽管最近的一些工作尝试使用大核卷积来获取长距离依赖,但是在模型尺度和精度方面都与最先进的视觉 Transformer 有着一定距离。
可变形卷积网络的进一步拓展
InternImage 通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置,包括(1)DCNv3 算子,基于 DCNv2 算子引入共享投射权重、多组机制和采样点调制。(2)基础模块,融合先进模块作为模型构建的基本模块单元(3)模块堆叠规则,扩展模型时规范化模型的宽度、深度、组数等超参数。
该工作致力于构建一个能够有效地扩展到大规模参数的 CNN 模型。首先,重新设计的可变形卷积算子 DCNv2 以适应长距离依赖和弱化归纳偏置;然后,将调整后的卷积算子与先进组件相结合,建立了基础单元模块;最后,探索并实现模块的堆叠和缩放规则,以建立一个具有大规模参数的基础模型,并且可以从海量数据中学习到强大的表征。
算子层面,该研究首先总结了卷积算子与其他主流算子的主要区别。当前主流的 Transformer 系列模型主要依靠多头自注意力机制实现大模型构建,其算子具有长距离依赖性,足以构建远距离特征间的连接关系,还具有空间的自适应聚合能力以实现构建像素级别的关系。但这种全局的注意力机制其计算和存储需求量巨大,很难实现高效训练和快速收敛。同样的,局部注意力机制缺乏远距离特征依赖。大核密集卷积由于没有空间聚合能力,而难以克服卷积天然的归纳偏置,不利于扩大模型。因此,InternImage 通过设计动态稀疏卷积算子,达到实现全局注意力效果的同时不过多浪费计算和存储资源,实现高效训练。
研究者基于 DCNv2 算子,重新设计调整并提出 DCNv3 算子,具体改进包括以下几个部分。
(1)共享投射权重。与常规卷积类似,DCNv2 中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系。为了降低参数和内存复杂度,借鉴可分离卷积的思路,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有采样位置依赖性都得以保留。
(2)引入多组机制。多组设计最早是在分组卷积中引入的,并在 Transformer 的多头自注意力中广泛使用,它可以与自适应空间聚合配合,有效地提高特征的多样性。受此启发,研究者将空间聚合过程分成若干组,每个组都有独立的采样偏移量。自此,单个 DCNv3 层的不同组拥有不同的空间聚合模式,从而产生丰富的特征多样性。
(3)采样点调制标量归一化。为了缓解模型容量扩大时的不稳定问题,研究者将归一化模式设定为逐采样点的 Softmax 归一化,这不仅使大规模模型的训练过程更加稳定,而且还构建了所有采样点的连接关系。
构建 DCNv3 算子之后,接下来首先需要规范化模型的基础模块和其他层的整体细节,然后通过探索这些基础模块的堆叠策略,构建 InternImage。最后,根据所提出模型的扩展规则,构建不同参数量的模型。
基础模块
。与传统 CNN 中广泛使用的瓶颈结构不同,该研究采用了更接近 ViTs 的基础模块,配备了更先进的组件,包括 GELU、层归一化(LN)和前馈网络(FFN),这些都被证明在各种视觉任务中更有效率。基础模块的细节如上图所示,其中核心算子是 DCNv3,通过将输入特征通过一个轻量级的可分离卷积来预测采样偏置和调制尺度。对于其他组件,遵循与普通 Transformer 相同的设计。
叠加规则
。为了明确区块堆叠过程,该研究提出两条模块堆叠规则,其中第一条规则是后三个阶段的通道数
,由第一阶段的通道数
决定,即
;第二条规则是各模块组号与各阶段的通道数对应,即
;第三,堆叠模式固定为 “AABA”,即第 1、2 和 4 阶段的模块堆叠数是相同的
,并且不大于第 3 阶段
。由此选择将参数量为 30M 级别的模型作为基础,其具体参数为:Steam 输出通道数
为 64;分组数为每个阶段输入通道数的 1/16,第 1、2、4 阶段的模块堆叠数
为 4,第 3 阶段的模块堆叠数
为 18,模型参数为 30M。
模型缩放规则
。基于上述约束条件下的最优模型,该研究规范化了网络模型的两个缩放维度:即深度 D(模块堆叠数)和宽度 C(通道数),利用限制因子
和
沿着复合系数
对深度和宽度进行缩放,即,
,其中
,根据实验其最佳设置为
。
按照此规则,该研究构建了不同尺度的模型,即 InternImage-T、S、B、L、XL。具体参数为:
实验结果
图像分类实验
:通过使用 427M 的公共数据集合:Laion-400M,YFCC15M,CC12M,InternImage-H 在 ImageNet-1K 的精度达到了 89.2%。
目标检测
:以最大规模的 InternImage-H 为骨干网络,并使用 DINO 作为基础检测框架,在 Objects365 数据集上预训练 DINO 检测器,然后在 COCO 上进行微调。该模型在目标检测任务中达到了 65.4% 的最优结果,突破了 COCO 目标检测的性能边界。
语义分割
:在语义分割上,InternImage-H 同样取得了很好的性能,结合 Mask2Former 在 ADE20K 上取得了当前最高的 62.9%。
结论
该研究提出了 InternImage,这是一种新的基于 CNN 的大规模基础模型,可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。研究者调整灵活的 DCNv2 算子以满足基础模型的需求,并以核心算子为核心开发了一系列的 block、stacking 和 scaling 规则。目标检测和语义分割基准的大量实验验证了 InternImage 可以获得与经过大量数据训练、且精心设计的大规模视觉 Transformer 相当或更好的性能,这表明 CNN 也是大规模视觉基础模型研究的一个相当大的选择。尽管如此,大规模的 CNN 仍处于早期发展阶段,研究人员希望 InternImage 可以作为一个很好的起点。
文章标签:
计算机视觉
机器学习/深度学习
知识图谱
人工智能
存储
关键词:
CNN卷积
CNN模型
CNN检测
CNN卷积检测
-开发达人-
目录
相关文章
4as3qn2go3ure
|
9天前
|
机器学习/深度学习
TensorFlow
算法框架/工具
PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享
PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享
4as3qn2go3ure
36
7
7
4as3qn2go3ure
|
6天前
|
机器学习/深度学习
存储
监控
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
4as3qn2go3ure
17
0
0
桃李春风一杯酒
|
1天前
|
机器学习/深度学习
PyTorch
TensorFlow
【Python机器学习专栏】卷积神经网络(CNN)的原理与应用
【4月更文挑战第30天】本文介绍了卷积神经网络(CNN)的基本原理和结构组成,包括卷积层、激活函数、池化层和全连接层。CNN在图像识别等领域表现出色,其层次结构能逐步提取特征。在Python中,可利用TensorFlow或PyTorch构建CNN模型,示例代码展示了使用TensorFlow Keras API创建简单CNN的过程。CNN作为强大深度学习模型,未来仍有广阔发展空间。
桃李春风一杯酒
6
0
0
4as3qn2go3ure
|
3天前
|
机器学习/深度学习
算法
TensorFlow
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
4as3qn2go3ure
4
0
0
4as3qn2go3ure
|
4天前
|
机器学习/深度学习
数据可视化
数据挖掘
【视频】少样本图像分类?迁移学习、自监督学习理论和R语言CNN深度学习卷积神经网络实例
【视频】少样本图像分类?迁移学习、自监督学习理论和R语言CNN深度学习卷积神经网络实例
4as3qn2go3ure
12
1
1
wljslmz
|
5天前
|
机器学习/深度学习
人工智能
自然语言处理
揭秘卷积神经网络 (CNN):深度学习的视觉巨匠
【4月更文挑战第21天】
wljslmz
11
0
0
4as3qn2go3ure
|
13天前
|
机器学习/深度学习
人工智能
数据可视化
【视频】CNN(卷积神经网络)模型以及R语言实现回归数据分析
【视频】CNN(卷积神经网络)模型以及R语言实现回归数据分析
4as3qn2go3ure
24
0
0
4as3qn2go3ure
|
13天前
|
机器学习/深度学习
数据可视化
数据挖掘
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类:训练与结果评估可视化
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类:训练与结果评估可视化
4as3qn2go3ure
30
9
9
4as3qn2go3ure
|
14天前
|
机器学习/深度学习
数据采集
TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
4as3qn2go3ure
30
0
0
Nowl
|
23天前
|
机器学习/深度学习
数据可视化
算法框架/工具
深度学习第3天:CNN卷积神经网络
深度学习第3天:CNN卷积神经网络
Nowl
34
0
0
ModelScope模型即服务
热门文章
最新文章
1
手把手教你捏一个自己的Agent
2
阿里云通义千问向全社会开放!
3
Llama 3开源!魔搭社区手把手带你推理,部署,微调和评估
4
社区供稿 | FunASR 语音大模型在 Arm Neoverse 平台上的优化实践
5
通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!
6
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
7
社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型
8
Qwen1.5开源!魔搭最佳实践来啦!
9
ChatGPT中文版杀疯了,已登录AI模型市场
10
Qwen1.5-MoE开源!魔搭社区推理训练最佳实践教程来啦!
1
sysbench 对MySQL压测100分钟的命令
16
2
对云效流水线 Flow 的一些体验
25
3
百度百科都是谁写的
40
4
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
68
5
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
209
6
Phi-3:小模型,大未来!(附魔搭社区推理、微调实战教程)
239
7
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
301
8
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
158
9
在魔搭使用SD-WebUI,玩转AIGC!
125
10
社区供稿 | 本地部署通义千问大模型做RAG验证
186
相关课程
更多
【算法实战】10. 树回归算法
神经网络概览及算法详解
【算法实战】8. 集成方法-Adaboost
【算法实战】7. 集成方法-随机森林
【算法实战】2. K近邻算法
【算法实战】5. Logistic回归算法
相关电子书
更多
利⽤CNN实现⽆需联⽹的图像识别
深度学习论文实现:空间变换网络-第一部分
高维向量检索技术在PG中的设计与实践
相关实验场景
更多
如何快速训练大模型
推荐系统入门之使用ALS算法实现打分预测
下一篇
2024年阿里云免费云服务器及学生云服务器申请教程参考