【超越200层ResNet】颜水成团队 CVPR 新架构,提速300%

简介:

本文意在为您简要解读最近在 arXiv 上一篇最新的文章 《双通道网络》(Dual Path Networks),原作者已经将源码公开到了 GitHub。


在论文中,作者分析并证明了 ResNet 与 DenseNet 之间的重要联系:Densely Connected Network Family 里包含 Residual Network Family。作者分析了两者各自的优缺点,并基于分析所得结论,提出了一类新的网络拓补结构:双通道网络(Dual Path Network Family)。



论文地址:https://arxiv.org/pdf/1707.01629.pdf

ResNet 实际属于  DenseNet


DenseNet 是由[1] 提出的一类不同于 ResNet 的网络结构。ResNet 将输出与输入相加,形成一个残差结构;而 DenseNet 却是将输出与输入相并联——相并联,相并联(重要的事情说 3 遍),实现每一层都能直接得到之前所有层的输出。


下图中, (a/b) 展示了两种网络。请注意两者的区别,将 DenseNet 理解为一种有很多残差连接的 ResNet 是非常错误的理解。


文中作者发现,Residual Networks 其实就是 Densely Connected Networks 的一种特例。这里我们通过分析网络结构简要证明下:



上图中,假设实线箭头代表一次变换(本例中指含激活函数的卷积),若 (b) 中绿色箭头代表的函数相同,那么我们就可以通过添加一个残差通道(residual path)保留中间计算结果,将其化简为 (c)。而 (c) 的形式恰恰就是一个残差网络的形式(棕色点线)。


也就是说,一个 DenseNet 可以通过共享参数的方式,退化为 ResNet。ResNet 实际上就是 DenseNet 在跨层参数共享时候的特例


本文认为:


1)ResNet 通过这种跨层参数共享和保留中间特征的方式,可以有效的降低特征上冗余度,重复利用已有特征,但缺点在于难以利用高层信息再发掘底层特征;


2)DenseNet 每一层都重新在之前所有层的输出中重新提取有用信息,可以有效地利用高层信息再次发掘底层新特征,但其却存在特征上的冗余。


双通路网络 DPN:结合残差网络和 Densenet 两者优点


那么,一个很自然的想法就是结合这两类网络拓补结构,实现优缺点互补。于是,文章提出了一类全新的双通道网络结构:Dual Path Network(DPNs)。


DPN 具体网络结构


需要注意的是,与 Residual Network Family 和 Densely Connected Network Family一样,Dual Path Network Family 也将存在诸多变种,其内部链接并不局限于下图中的 “1x1->3x3->1x1” 这种形式。


其核心思想是,将残差通道和 densely connected path 相融合,实现优缺互补,其重点不在于细节部分是如何设定的。



上图中,(e) 以 (d) 为例,展示了实际使用中的一种 DPN。简单来讲,就是基于现有的残差网络,将最后的 1x1 输出切分为两路,一路加到 residual path 上去,一路并到 densely connected path 上去。(这里请注意与 PyramidNets [2] 的本质区别。)


本文分别在“图像分类”,“物体检测”和“物体分割”三大任务上对 DPN 进行了验证。在 ImageNet 1000 类分类任务中的性能如表 2 所示:



注意,这里的FLOPs是理论值,实际效率不同于理论值。MXNet 在 concat layer 和 split layer 那里还有待对 DPN 进行特殊优化,减少不必要的内存拷贝等操作。


但即便如此,在实测中: DPN-98 也显著提高了训练速度,降低内存占用,并保持更高的准确率。即便是最佳单模型 DPN-131 也并没有增加很多计算量和内存开销,完全可以直接作为其他任务的基础网络来使用。相较之前的最佳单模型 Very Deep PolyNet,DPN-131 实际训练速度提升约 300%。


下图给出了在单节点,4 块 K80(K80 为双GPU)下的实测结果:



DPN 在 PASCAL VOC 上的“物体检测”和“物体分割”对比实验结果如下表所示:



篇幅所限,感兴趣的老师同学请查看原文。


总结


构建高性能、低资源占用的网络结构一直是深度学习里一个重要的研究方向。正如残差网络 (ResNet) 所展现的,一个有效的网络拓补结构,不仅能全面提高“图像识别”任务中准确性,更能通过直接替换底层网络的方式受益“图像生成”、“检测”、“分割”、“美化”等等诸多应用。


在 DPN 这篇文章中,作者分析探讨了现在最受欢迎的两种网络结构,并提出了其独特的见解:认为 ResNet 是 DenseNet 在参数跨层共享时的特例。基于这一结论,作者进一步提出了一类高性能、低资源占用的全新网络拓补结构 Dual Path Networks,DPN 有效地融合了现有网络,实现了优势互补,其性能在“图像识别”、“图像检测”和“图像分割”这三大任务中均得到了验证,各项指标得到了显著提升。相信近期将能在更多的工作和报道中看到双通道网络的身影。


文章转自新智元公众号,原文链接

相关文章
|
机器学习/深度学习 编解码 人工智能
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。
951 84
|
自然语言处理
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
复旦大学研究团队提出Two-Player架构,通过分离推理和批评模型的角色,突破大语言模型(LLM)在复杂推理任务中的自我反思瓶颈。该架构利用批评模型提供逐步反馈,监督推理模型,提升其性能。研究开发了AutoMathCritique框架,收集76,321个响应数据,实验表明批评模型显著提高演员模型的探索效率和解决方案多样性。论文地址:http://arxiv.org/abs/2411.16579
241 2
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
443 5
|
机器学习/深度学习 存储 人工智能
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法
【4月更文挑战第19天】北京大学林宙辰团队在深度学习领域取得突破,提出基于一阶优化算法的神经网络设计方法,构建具有万有逼近性质的模型,提升训练速度和泛化能力。该方法利用一阶导数信息,高效处理大规模问题。虽然面临非光滑优化和收敛速度挑战,但团队通过正则化和自适应学习率等策略进行改进,相关研究在多个标准数据集上表现出色。
364 1
|
存储 算法 安全
微信团队分享:来看看微信十年前的IM消息收发架构,你做到了吗
好的架构是迭代出来的,却也少不了良好的设计,本文将带大家回顾微信背后最初的也是最核心的IM消息收发技术架构,愿各位读者能从中获得启发。
761 1
|
Kubernetes 调度 云计算
字节跳动基础架构编排调度团队论文入选云计算领域顶会 SoCC 2023
2023 年 10 月 30 日至 11 月 1 日, SoCC 2023 将在美国加州 Santa Cruz 举行。 字节跳动基础架构 - 编排调度团队的研究成果被 S o CC 2023 接收,并受邀进行现场报告。 SoCC 会议全称 Annual ACM Symposium on Cloud Computing,是 云计算领域顶级会议之一,同时也是 ACM 所有会议当中唯一一个同时被 SIGMOD 和 SIGOPS 赞助的顶会。代表了当前云计算领域在学术界、工业界和开源社区的前沿水平。SoCC 会议伴随着云计算的兴起而成立,至今已经举办到第 14 届。该会议每年吸引全球顶级研究机构和知名
926 0
|
机器学习/深度学习 人工智能 自然语言处理
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
408 0
|
监控 安全 架构师
「企业安全架构」EA874:安全架构团队
「企业安全架构」EA874:安全架构团队
|
存储 数据管理 大数据
「企业微服务架构」怎么弥合不同微服务团队之间的差距
「企业微服务架构」怎么弥合不同微服务团队之间的差距
|
机器学习/深度学习 Web App开发 人工智能
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
441 0

热门文章

最新文章