神经架构优化(NAO):新的神经架构搜索(NAS)算法

简介: 如果你是一名深度学习实践者,你可能发现自己经常会遇到同一个关键问题:我应该为现在的任务选择哪种神经网络架构?
TB1cQkhwAvoK1RjSZFwXXciCFXa.jpg

本文为 AI 研习社编译的技术博客,原标题 :

Discovering the best neural architectures in the continuous space | Microsoft Research

作者 |  Fei Tian

翻译 | 孙稚昊2

校对 | 酱番梨       整理 | 菠萝妹

原文链接:

https://www.microsoft.com/en-us/research/blog/discovering-the-best-neural-architectures-in-the-continuous-space/

TB1zwMpwAvoK1RjSZFDXXXY3pXa.jpg

如果你是一名深度学习实践者,你可能发现自己经常会遇到同一个关键问题:我应该为现在的任务选择哪种神经网络架构?这个决定取决于多种因素以及很多其他问题的答案。我应该给这一层选择什么操作----卷积,深度可分卷积,或者最大池化?卷积层应该选多大的核?3*3 还是 1*1 ? 还有哪个节点该拿来作为循环神经网络(RNN)节点的输入?这些决定对架构的成功至关重要。如果你既是神经网络建模也是手头特定任务的专家,你可能很容易找到答案。但如果你在某一方面的经验有限呢?

这种情况下,你可能会尝试神经架构搜索(NAS),这是一种自动的过程,另一个机器学习算法根据以往观察到的架构和他们的表现,来指导创建更好的架构。多亏了NAS,我们可以发现在被广泛使用的公开数据集,比如 ImageNet, 上表现最好的神经网络架构,且不需要人工干预。

然而现存的自动设计神经网络架构的方法 -- 通常基于增强学习或者进化算法 -- 需要在指数级增长的离散空间中做搜索,我的同伴和我在微软亚洲研究院机器学习组 设计了一种简化的,更有效的方法,基于连续空间内的优化。有了我们的新方法,叫做 神经架构优化 (NAO),我们利用基于梯度的方法在更紧密的空间中做优化。这项工作参加了今年的 神经信息处理系统会议 (NeurIPS)

  NAO的关键组件

驱动NAO进行在连续空间中基于梯度的优化,是靠以下三个组件:

一个把离散的神经网络架构转化为连续值向量的编码器,也叫嵌入模型

一个结果预估函数,它把向量作为输入,并产生一个数值作为架构的表现 (比如,准确率)

一个把连续值向量恢复成网络架构的解码器

这三个组件是一起训练的。我们完成训练后,从一个架构x 开始,我们用编码器E把x 转化为向量表示 ex , 再通过结果预估函数f给的梯度方向,把ex 转化为新的嵌入 ex` (如绿线表示)。既然我们在做梯度上升,只要步长够小,我们就能保证 f(ex`) >= f(ex)。最后,我们用decoder D把ex`转化为离散的架构 x`。这样,我们得到了一个可能更好的架构 x`.通过不断这样更新架构。我们得到了最终的架构,它应该有最好的表现。

TB1wLMfwwTqK1RjSZPhXXXfOFXa.jpg

 图1: NAO的流程

  有有限的资源达到好的结果

我们做了后续的实验来验证NAO自动发现最好神经架构的有效性。表1(如下)展示了不同卷积神经网络(CNN)架构在CIFAR-10图片分类数据集上的表现,这些架构由不同 NAS 算法生成。从表中我们可以看出,用NAO发现的网络得到了最低的错误率。另外,将NAO和权重共享机制结合起来(叫做 NAO-WS),我们得到了显著的搜索速度提升。权重共享可以降低网络架构搜索的计算成本,它通过让多种网络结构共用同一份参数来做到。在我们的实验中,我们用一块图像处理器(GPU),在7个小时内得到了一个CNN架构,达到了3.53的错误率。通过权重共享,我们不必从头训练其它不同的神经网络。

表2(如下)总结了PTB语言模型的结果。越低的Perplexity表示更好的表现。又一次,我们用NAO来找到的RNN架构取得了好结果,而且只用有限的计算资源。

通过在连续空间上的优化,NAO得到了更好的结果,相比于现有的NAS方法,他们直接在离散架构空间中搜索。至于未来的应用,我们计划用NAO来为其它重要的AI任务搜索架构,比如神经机器翻译。同样重要的,更简单高效的自动神经架构设计,可以使机器学习技术为各阶段的人所用。

TB1Lq3nwrvpK1RjSZFqXXcXUVXa.png

表1:CIFAR-10分类结果

TB1YfMfwwTqK1RjSZPhXXXfOFXa.png

表2:PTB语言模型结果

想要继续查看该篇文章相关链接和参考文献?

长按链接点击打开或点击【神经架构优化(NAO):新的神经架构搜索(NAS)算法】:

https://ai.yanxishe.com/page/TextTranslation/1335

AI研习社每日更新精彩内容,观看更多精彩内容:雷锋网(公众号:雷锋网)雷锋网雷锋网

五个很厉害的 CNN 架构

一文带你读懂计算机视觉

用Pytorch做深度学习(第一部分)

Python高级技巧:用一行代码减少一半内存占用

等你来译:

(Python)3D人脸处理工具face3d

25个能放到数据湖中的语音研究数据集

如何在数据科学面试中脱颖而出 

Apache Spark SQL以及DataFrame的基本概念,架构以及使用案例

相关实践学习
函数计算部署PuLID for FLUX人像写真实现智能换颜效果
只需一张图片,生成程序员专属写真!本次实验在函数计算中内置PuLID for FLUX,您可以通过函数计算+Serverless应用中心一键部署Flux模型,快速体验超写实图像生成的魅力。
目录
相关文章
|
8月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
444 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
8月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
594 129
|
7月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
855 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
2109 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
7月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
320 8
|
8月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
500 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
缓存 运维 监控
Redis 7.0 高性能缓存架构设计与优化
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Redis 7.0高性能缓存架构,探索函数化编程、多层缓存、集群优化与分片消息系统,用代码在二进制星河中谱写极客诗篇。
1373 3
|
8月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1429 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
368 0