DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构

简介: DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构

研究者希望这篇文章对神经网络架构感兴趣的人有所帮助,特别是那些正在寻找不同角度进行研究的研究者。


深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得了 ImageNet 大规模图像分类挑战赛。

之后数据可用性的提高、计算技术的进步和算法的改进使得深度学习持续取得成功。随着最近大型模型的兴起,这一领域的快速发展还没有显示出放缓的迹象。

深度学习不仅对我们的日常生活产生了显著的影响,还改变了机器学习从业者和研究人员的工作流程。新的设计原则不断被提出,例如 ResNet 引入残差连接、 Transformers 采用多头自注意力等。在算法不断发展的过程中,效率和可扩展性是两个不能忽视的概念,让视觉模型变得既小又大又成为另一需求。

怎样理解既小又大呢?小模型代表对效率的需求,因为视觉识别系统通常部署在边缘设备上;大型模型突出对可扩展性的需求,其可以利用日益丰富的计算和数据来实现更高的准确率。最近几年这两个方向的研究都取得了卓越成效,产生了许多有用的设计原则被后来的研究所采用。

本文中,来自 UC 伯克利的博士生刘壮(Zhuang Liu)在其博士论文《 Efficient and Scalable Neural Architectures for Visual Recognition 》中,从两个方面展开研究:(1)开发直观的算法以实现高效灵活的 ConvNet 模型推理;(2) 研究基线方法以揭示扩展方法成功的原因。

具体而言,首先,本文介绍了关于密集预测的第一个随时算法研究。然后,该研究将模型剪枝算法与简单的基线方法进行比较来检查模型的有效性。最后研究者提出了这样一个问题,即通过采用 Transformer 中的设计技巧对传统的 ConvNet 进行现代化改造,来测试纯 ConvNet 所能达到的极限,并探索在视觉任务上自注意力机制在 Transformer 中的可扩展性上所起的作用。

论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.pdf

本文除了提出一个新架构外,该研究还从批判的角度对被认为是微不足道或老式基线的方法或模型进行实证研究,发现当提供正确的技术时,它们具有惊人的竞争力。

刘壮(Zhuang Liu)现在是 UC 伯克利 EECS(电气工程与计算机科学) 的博士生,由 Trevor Darrell 教授指导。此外,他还在 Meta AI Research(原 Facebook AI Research )担任兼职学生研究员。也曾在康奈尔大学、英特尔实验室和 Adobe Research 担任访问研究员或实习生。他于 2017 年在清华大学姚班获得学士学位。

刘壮的研究重点是准确和高效的深度学习架构 / 方法,他对开发简单的方法和研究基线方法特别感兴趣。他还是大名鼎鼎 DenseNet 的共同一作,凭借论文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最佳论文奖。

章节内容简介

第二章:基于置信的随时密集预测

本文介绍了一种随时密集视觉识别方法,它可以让神经网络推理更加灵活。随时推理需要一个模型对随时可能的停止进行一系列预测。先前关于随时视觉识别的研究主要集中在图像分类领域。作者提出了首个用于随时密集预测的统一和端到端方法。一连串的 exit 被附加到模型上以进行多个预测。作者重新设计了 exit,以考虑每个 exit 的特征的深度和空间分辨率。

为了减少总计算量并充分利用先前预测,作者开发了一种全新的空间自适应方法,以避免在早期预测已经足够置信的区域上进行进一步计算。这一方法被命名为基于置信的随时密集预测(anytime dense prediction with confidence, ADP-C),它达到了与基础模型相同的最终准确率水平,同时显著减少了总计算量。

ADP-C 方法概览。

作者在 Cityscapes 语义分割和 MPII 人体姿态估计数据集上评估了所提方法,结果表明,ADP-C 可以在不牺牲准确率的情况下随时进行推理,同时还将基础模型的总 FLOPs 减少 44.4% 和 59.1%。作者还与基于深度平衡网络和基于特征的随机采样进行的随时推理进行比较,表明 ADP-C 在准确率 - 计算曲线上始终占有优势。

本章目录如下:


第三章:重新思考网络剪枝的价值

与上章中的自适应计算随时推理方法相比,静态神经网络剪枝方法试图通过与输入无关的方式减少神经网络的计算量。由于自身具有的简单性、有效性以及有时更好的硬件兼容性,这类方法通常在实践中用于缩小模型。在本章中,作者试图了解静态神经网络剪枝方法成功背后的底层机制

典型的剪枝算法是一个三段式的 pipeline,分别为训练(大模型)、剪枝和微调。在剪枝过程中,根据一定的标准对冗余权重进行剪枝,并保留重要的权重,以保持最佳准确率。在这项工作中,作者提出了一些与常见看法相悖的观察结果。对于其检查过的所有 SOTA 结构化修剪算法,对修剪后的模型进行微调只能得到与使用随机初始化权重训练模型相当或更差的性能。对于假设预定义目标网络架构的剪枝算法,则可以摆脱整个 pipeline 并直接从头开始训练目标网络。

作者的观察结果对于多个网络架构、数据集和任务是一致的,这意味着:1)通常不需要训练大型、过度参数化的模型来获得高效的最终模型;2)学得的大模型的「重要」权重通常对小型剪枝模型没有用处;3)对最终模型的效率更关键的是剪枝后的架构本身,而非一组继承的「重要」权重。这表明在某些情况下,剪枝可能作为架构搜索范式产生作用。

结果表明,未来结构化剪枝方法的研究中需要进行更仔细的基线评估。作者还与「彩票假设」(Lottery Ticket Hypothesis)进行了比较,发现在最佳学习率下,彩票假设中使用的「中奖彩票」初始化并没有带来随机初始化的改进。

本章目录如下:

第四章:A ConvNet for the 2020s

剪枝是一种流行的缩小模型的方法。在上章中,作者通过实证研究证明了结构化剪枝的真正价值不是获得一组特定的权重值,而是识别出一个有用的子架构。在本章中,作者将注意力转向扩展计算机视觉神经架构

一个经典的例子是 ResNets,它提出了残差连接。将没有残差连接的「普通」网络扩展到数十层会导致训练损失增加,更不用说测试准确率变差了。然而,一个具有残差连接的 ResNet 可以扩展到 100 多层,同时改进了训练损失和测试准确率。之后,Vision Transformers 开始显现出比基于卷积的 ResNet 更大的可扩展性。作者试图通过与现代化 ConvNet 的比较,来了解 Transformers 扩展成功的背后是什么。

作者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限,并逐渐将标准 ResNet「升级(modernize」为视觉 Transformer 的设计,在过程中发现了导致性能差异的几个关键组件。作者将一系列纯 ConvNet 模型命名为 ConvNeXt。ConvNeXt 完全由标准 ConvNet 模块构建,并且在准确率和可扩展性方面,ConvNeXt 取得了媲美 Transformer 的结果,达到 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer,同时保持标准 ConvNet 的简单性和有效性。

本章目录如下:

更多详细内容请参阅原论文。

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
71 3
|
7天前
|
NoSQL 关系型数据库 MySQL
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
95 56
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
|
21天前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
54 3
图卷积网络入门:数学基础与架构设计
|
5天前
|
Serverless 决策智能 UED
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
|
1月前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
67 5
|
1月前
|
存储 安全 网络安全
网络安全法律框架:全球视角下的合规性分析
网络安全法律框架:全球视角下的合规性分析
46 1
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
43 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
2月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
77 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
监控 网络协议 安全
DNS服务器故障不容小觑,从应急视角谈DNS架构
DNS服务器故障不容小觑,从应急视角谈DNS架构
67 4
|
1月前
|
供应链 监控 安全
网络安全中的零信任架构:从概念到部署
网络安全中的零信任架构:从概念到部署