【博士每天一篇文献-算法】 PNN网络启发的神经网络结构搜索算法Progressive neural architecture search

本文涉及的产品
文件存储 NAS,50GB 3个月
简介: 本文提出了一种名为渐进式神经架构搜索(Progressive Neural Architecture Search, PNAS)的方法,它使用顺序模型优化策略和替代模型来逐步搜索并优化卷积神经网络结构,从而提高了搜索效率并减少了训练成本。

阅读时间:2023-12-23

1 介绍

年份:2018
:Chenxi Liu,Google DeepMind研究科学家;Barret Zoph,OpenAI;Maxim Neumann,Goolge
会议:B区会议, Proceedings of the European conference on computer vision (ECCV).
引用量:2320
Liu C, Zoph B, Neumann M, et al. Progressive neural architecture search[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 19-34.
本文提出了一种新的卷积神经网络(CNN)结构学习方法。是一种顺序模型优化(Sequential Model-Based Optimization, SMBO)策略,通过逐步增加模型复杂度来搜索结构,并同时学习一个替代模型(surrogate model)来指导搜索过程。与直接搜索完整CNN结构的方法不同,本文方法首先搜索一个好的卷积“单元”(cell),然后根据训练集大小和期望的运行时间,将这个单元堆叠多次形成最终的CNN。从简单的模型开始,逐步过渡到复杂的模型,并在此过程中剪枝掉没有前景的结构。为了减少训练和评估模型的成本,同时训练一个模型或替代函数来预测一个结构的性能,而无需实际训练它。
image.png
image.png
image.png

2 创新点

  1. 渐进式搜索策略:与传统的一次性搜索整个网络结构的方法不同,论文提出了一种渐进式的搜索策略,即从简单的网络结构开始,逐步增加复杂性,这有助于快速获得初步结果并对替代模型进行训练。
  2. 结构化搜索空间:采用了一种结构化的搜索空间,通过搜索卷积“单元”(cell)而不是整个CNN,然后将这些单元堆叠起来构建最终的网络结构,这提高了搜索的效率和模型的可转移性。
  3. 替代模型引导搜索:为了减少实际训练模型的数量,论文提出了使用一个替代模型来预测候选模型的性能。这个替代模型基于已评估模型的性能数据进行训练,并用于指导搜索过程。
  4. 高效的性能预测:论文中使用了LSTM和MLP作为替代模型,通过学习模型结构与性能之间的映射关系,有效预测模型性能,减少了对实际训练的依赖。
  5. 优化的搜索过程:通过扩展当前候选单元并使用替代模型进行评估,选择最有前景的候选者进行训练和评估,这一过程不断迭代,直到达到所需的单元复杂度。
  6. 实验验证:论文在CIFAR-10和ImageNet数据集上进行了广泛的实验,验证了所提出方法的有效性,并且在计算效率和模型性能上均达到了当时的最佳水平。

3 算法步骤

  1. 初始化候选单元集合
    • 从单个块(block)的单元结构开始,构建所有可能的单元结构集合 $ S_1 $​。
  2. 单元转换为CNN
    • 将每个单元结构转换为一个CNN模型,这是通过将单元结构重复堆叠一定次数来完成的。
  3. 训练代理CNN
    • 训练集合 $ S_1 $​中的每个单元结构对应的CNN模型,并在训练集上进行训练。
  4. 评估验证准确率
    • 在验证集上评估每个CNN模型的性能,获取它们的验证准确率。
  5. 训练性能预测模型
    • 使用已评估的单元结构的准确率作为训练数据,训练一个性能预测模型(如LSTM或MLP),用于预测单元结构的性能。
  6. 扩展候选单元
    • 将当前候选单元集合 $ S_b $​中的每个单元扩展一个块,生成新的候选单元集合 $ S'_{b+1} $​。
  7. 预测性能
    • 使用性能预测模型对 $ S'_{b+1} $​中的单元进行评分,预测它们的性能。
  8. 选择最有前景的单元
    • 根据预测模型的评分,选择最有前景的K个单元结构,形成新的候选集合 $ S_{b+1} $​。
  9. 转换和训练
    • 将 $ S_{b+1} $​中的单元结构转换为CNN模型,并在训练集上进行训练。
  10. 更新性能预测模型
  • 使用新训练的CNN模型在验证集上的性能来更新性能预测模型。
  1. 迭代搜索
  • 重复步骤6到10,直到达到所需的最大块数量B。
  1. 选择最终模型
  • 在最终的候选单元集合 $ S_B $​中,选择验证准确率最高的单元结构作为最终的CNN模型。
  1. 进一步训练和评估
  • 将选定的单元结构进一步训练,并在测试集上评估其性能。

image.png
途中单元结构由5个“块”(blocks)组成,每个块代表网络中的一个操作或一组操作。
image.png
展示了PNAS算法在最大块数 ( B = 3 ) 的情况下的搜索步骤。

  1. 初始化候选单元集合
    • $ S_b $​表示具有b个块的候选单元集合。
    • 搜索从 $ S_1 $​开始,即所有只包含1个块的单元结构集合 $ S_1 = B_1 $​。
  2. 训练和评估
    • 训练并评估 $ S_1 $​中的所有单元,并使用它们的性能数据来更新性能预测模型(预测器)。
  3. 迭代扩展
    • 在第2次迭代中,将 $ S_1 $​中的每个单元扩展为具有2个块的单元,得到 $ S'_2 = B_1:2 $。
    • 使用性能预测模型对 $ S'_2 $​中的所有可能的2块单元进行评分。
  4. 选择和评估
    • 从 $ S'_2 $​中选择预测性能最好的K个单元,形成 $ S_2 $​。
    • 训练并评估 $ S_2 $​中的单元,并再次更新性能预测模型。
  5. 进一步迭代
    • 在第3次迭代中,将 $ S_2 $​中的每个单元扩展为具有3个块的单元的子集,得到 $ S'_3 \subseteq B_1:3 $。
    • 同样地,使用性能预测模型对 $ S'_3 $中的单元进行评分。
  6. 最终选择
    • 从 $ S'_3 $​中选择预测性能最好的K个单元,形成$ S_3 $​。
    • 训练并评估 $ S_3 $中的单元,选择最终的最佳单元作为搜索过程的获胜者。
  7. 搜索树的每个层级
    • 在搜索树的每个层级,“beam size” K 表示在该层级训练和评估的模型数量。这是一个重要的参数,因为它决定了在每一步中考虑的候选模型的数量。
  8. 块的数量
    • $ B_b $​表示在第b层可能的块的数量。随着b的增加,理论上可能的块组合数量会增加,但实际搜索过程中会使用性能预测模型来减少需要考虑的候选数量。

4 实验分析

(1)PNAS算法中使用的MLP集成预测器的准确性
image.png
图中上下部分分别展示了预测器在训练集上和未见过的更大模型集上的表现。

  • 训练集上的准确性:对于训练集,RNN通常比MLP有更高的相关系数,这意味着RNN在训练数据上能够更准确地预测模型的性能排名。
  • 泛化能力:当预测器应用于未见过的更大的模型时,MLP似乎比RNN有更好的表现。这表明尽管RNN在训练集上表现良好,但MLP在新数据上的泛化能力更强。

(2)神经架构搜索(NAS)、渐进式神经架构搜索(PNAS)和随机搜索这三种方法的相对效率
image.png

  • PNAS的效率:PNAS在训练和评估较少模型的情况下,能够快速地获得高性能的模型架构。这表明PNAS在搜索过程中具有很高的效率。
  • NAS的效率:与PNAS相比,NAS在达到相同平均准确率时需要训练和评估更多的模型。这意味着NAS的效率低于PNAS。
  • 随机搜索的效率:随机搜索在图4中作为基线,通常需要更多的尝试才能找到性能良好的模型,因此在效率上不如PNAS和NAS。
  • 性能稳定性:误差条和彩色区域显示了不同方法在多次试验中性能的波动情况。较短的误差条意味着方法的性能更加稳定。
  • 模型训练次数的影响:每个模型都训练了20个周期,这意味着不同方法在模型训练上的投入是相同的,但PNAS在模型选择上更为高效。
  • 搜索策略的重要性:结果强调了有效的搜索策略在神经架构搜索中的重要性,PNAS通过渐进式搜索和性能预测模型的使用,显著提高了搜索过程的效率。

5 思考

借鉴了PNN的结构设计的架构搜索算法。

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
目录
相关文章
|
1天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
102 80
|
20天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
110 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
19天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
115 30
|
26天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
1月前
|
机器学习/深度学习 算法 关系型数据库
基于PSO-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目展示了利用粒子群优化(PSO)算法优化支持向量机(SVM)参数的过程,提高了分类准确性和泛化能力。包括无水印的算法运行效果预览、Matlab2022a环境下的实现、核心代码及详细注释、操作视频,以及对PSO和SVM理论的概述。PSO-SVM结合了PSO的全局搜索能力和SVM的分类优势,特别适用于复杂数据集的分类任务,如乳腺癌诊断等。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
1月前
|
算法 搜索推荐 数据库
二分搜索:高效的查找算法
【10月更文挑战第29天】通过对二分搜索的深入研究和应用,我们可以不断挖掘其潜力,为各种复杂问题提供高效的解决方案。相信在未来的科技发展中,二分搜索将继续发挥着重要的作用,为我们的生活和工作带来更多的便利和创新。
51 1
|
20天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
6天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
14天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。