本文从模型搜索NAS的问题出发,整理了最新ICLR2021相关投稿论文。
神经网络除了权重(W)之外,其通道数、算子类型和网络连接等结构参数需要设定,而模型搜索NAS即是确定结构参数的自动方法。最初NASNet中每种结构参数的模型单独训练带来的巨大开销,最近两年基于权重共享的NAS方法中,不同结构参数模型复用权重组成代理模型(SuperNet)一起训练,然后评测子模型指标并通过RL , EA , Random搜索(One-shot)或由参数化离散变连续用梯度下降(Darts)从结构参数空间(A)求解出最优子结构,最后重训最优子结构得最后需要的模型。
整个流程中分为SuperNet训练,最优子模型搜索,重训三个阶段,其中搜索阶段时间因为不同的评测方式和指标,快则几秒慢则几天,而SuperNet训练周期一般设置成重训阶段相近,因此目前流行的权重共享搜索方法多是单独训练的两倍左右开销。其中结构参数空间如何建模,代理模型评测好坏是否真实(一致性),以及训练开销是否可以进一步降低,这些问题对应投稿论文整理如下:
- One-shot方法中SuperNet训练以及一致性? One-shot方法中大多以megvii 的Singlepath为framework,之后的改进工作主要集中在采样方式和具体训练策略上,GreedyNAS 和 AngleNAS分别用droppath和dropnode改进采样方式,Once for all和BigNAS利用训练策略使得SuperNet中子模型性能变强而省去了重训步骤,文【1】是年初的文章总结了训练细节比如分组BN等影响。One-shot框架中其他问题如代理模型评测误差等也都有ICLR2021投稿工作研究;
- Darts方法的训练和优化方式? Darts方法用bi-level优化轮替优化权重(W)和结构参数(A),因为softmax以及无参数OP影响导致模型坍塌以及结果不稳定,文【2】通过引入辅助分支改善训练,文【3】加noise改善了模型坍塌,文【4】和文【5】都是解耦连接和OP的搜索。由于bi-level求解存在优化误差文,文【6】和文【7】采用single-level优化方法,希望这两篇工作能结束魔改Darts的局面;
- 结构参数空间怎么建模?比如文【8】按照分布建模,文【9】按照流形建模,文【10】按照邻接关系建模,随着NAS benchmarks101等出现,直接用结构参数作为输入X,提前测试好的对应精度作为Y, 学习X到Y映射关系可以看作对搜索空间建模,这样工作有基于GCN, LSTM等的预测器以及排序器等,如文【6】,文【7】和文【11】等;
- NAS without training?文【13】和 文【14】类似,以及我们所更早的工作ModuleNet,都是通过精心设计指标取代精度来避免权重训练的开销,虽然结果图有相关趋势,但是经实际评测一致性数值较低,其他如随机权重的工作基本只能解决很简单任务难以实用;
- 新的NAS benchmark? 如 TransNAS-Bench-101,NAS-Bench-301,HW-NAS-Bench等,都是推动领域大大的好工作,respect!
- NAS的下游任务应用?检测上应用如文【16】, 量化上应用如文【17】等。
总结:48篇文章中既有延续之前解决One-shot和Darts框架中训练不稳定以及减少评测误差等方面问题的文章,也有single-level优化,流形结构建模等反思前提假设的硬核文章,更多的NAS benchmark以及泛化应用推动NAS研究的进步与落地。诚然,模型搜索方面的研究大厦似乎已经落成,部分新的改进工作因为评测数据集简单(如cifar等)和不公平对比而难以判断良莠,期待大佬组以及大厂能够持续开坑以及贡献更多solid工作。
ICLR2021中NAS方面投稿文章整理
1. How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS
链接:https://openreview.net/forum?id=txC1ObHJ0wB
2. DARTS-: Robustly Stepping out of Performance Collapse Without Indicators
链接:https://openreview.net/pdf?id=KLH36ELmwIB
3. Noisy Differentiable Architecture Search
链接:https://openreview.net/pdf?id=JUgC3lqn6r2
4.FTSO: Effective NAS via First Topology Second Operator
他们提出一种称为FTSO的方法,通过分别搜索网络拓扑和运营商,将NAS的搜索时间从几天缩短至0.68秒,同时在ImageNet上实现76.42%的测试精度,在CIFAR10上实现97.77%的测试精度。
链接:https://openreview.net/pdf?id=7Z29QbHxIL
5. DOTS: Decoupling Operation and Topology in Differentiable Architecture Search
本文研究正确的单级优化几何结构可为NAS提供最新的方法。
链接:https://openreview.net/pdf?id=y6IlNbrKcwG
6. Geometry-Aware Gradient Algorithms for Neural Architecture Search
本文研究正确的单级优化几何结构可为NAS提供最新的方法。
链接:https://openreview.net/pdf?id=MuSYkd1hxRP
7. GOLD-NAS: Gradual, One-Level, Differentiable
新的可区分NAS框架结合了一级优化和逐步修剪功能,可在大型搜索空间上工作。
链接:https://openreview.net/pdf?id=DsbhGImWjF
8. Weak NAS Predictor Is All You Need
他们提出了一种新方法,可以在基于预测变量的神经体系结构搜索中逐步估计弱预测变量。通过从粗到细的迭代,逐步完善了采样空间的排名,最终有助于找到最佳架构。
链接:https://openreview.net/pdf?id=kic8cng35wX
9. Differentiable Graph Optimization for Neural Architecture Search
他们学习了可微图神经网络作为替代模型来对候选架构进行排名。
链接:https://openreview.net/pdf?id=NqWY3s0SILo
10 . DrNAS: Dirichlet Neural Architecture Search
他们提出了一种简单而有效的渐进式学习方案,该方案可直接搜索大型任务,从而消除了搜索和评估阶段之间的差距。大量的实验证明了我们方法的有效性。
链接:https://openreview.net/pdf?id=9FWas6YbmB3
11 . Neural Architecture Search of SPD Manifold Networks
他们首先介绍几何丰富且多样化的SPD神经体系结构搜索空间,以进行有效的SPD单元设计。此外,我们使用超网策略为新的NAS问题建模,该策略将架构搜索问题建模为单个超网的一次训练过程。
链接:https://openreview.net/pdf?id=1toB0Fo9CZy
12 . Neighborhood-Aware Neural Architecture Search
他们提出了一种用于神经体系结构搜索的邻域感知公式,以在搜索空间中找到平坦的最小值,该最小值可以更好地推广到新的设置。
链接:https://openreview.net/pdf?id=KBWK5Y92BRh
13 . A Surgery of the Neural Architecture Evaluators
本文评估了在受控设置下具有多个直接标准的当前快速神经体系结构评估器。
链接:https://openreview.net/pdf?id=xBoKLdKrZd
14 . Exploring single-path Architecture Search ranking correlations
关于几种方法变化如何影响体系结构排名预测质量的实证研究。
链接:https://openreview.net/pdf?id=J40FkbdldTX
15 . Neural Architecture Search without Training
链接:https://openreview.net/pdf?id=g4E6SAAvACo
16 . Zero-Cost Proxies for Lightweight NAS
单个小批量数据用于为NAS的神经网络评分,而不是执行完整的训练。
链接:https://openreview.net/pdf?id=0cmMMy8J5q
17 . Improving Zero-Shot Neural Architecture Search with Parameters Scoring
可以考虑参数空间中的jacobian来设计分数,这可以高度预测任务的最终性能。
链接:https://openreview.net/pdf?id=4QpDyzCoH01
18. Triple-Search: Differentiable Joint-Search of Networks, Precision, and Accelerators
我们提出了三重搜索框架,以可区分的方式联合搜索网络结构,精度和硬件体系结构。
链接:https://openreview.net/pdf?id=OLOr1K5zbDu
19 . TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search
链接:https://openreview.net/pdf?id=HUd2wQ0j200
20 . Searching for Convolutions and a More Ambitious NAS
用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。
链接:https://openreview.net/pdf?id=ascdLuNQY4J
21 . EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation
他们展示了有效的维数如何揭示现代深度学习中的多种现象,包括两次下降,宽度-深度权衡和子空间推断,同时提供了一种直接且引人注目的通用度量。
链接:https://openreview.net/pdf?id=qzqBl_nOeAQ
22 . Efficient Graph Neural Architecture Search
通过设计一种新颖而富有表现力的搜索空间,提出了一种基于随机松弛和自然梯度的高效单次NAS方法。
23 . Multi-scale Network Architecture Search for Object Detection
链接:https://openreview.net/pdf?id=mo3Uqtnvz_
24 . Exploring single-path Architecture Search ranking correlations
关于几种方法变化如何影响体系结构排名预测质量的实证研究。
25 . Network Architecture Search for Domain Adaptation
链接:https://openreview.net/pdf?id=4q8qGBf4Zxb
26 . Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective
他们的TE-NAS框架分析了神经切线核(NTK)的频谱和输入空间中线性区域的数量,从而实现了高质量的架构搜索,同时在ImageNet上将搜索成本显着降低到了四个小时。
链接:https://openreview.net/pdf?id=Cnon5ezMHtu
27. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters
修正用于稳定DARTS算法的建筑参数梯度估计中的错误。
链接:https://openreview.net/pdf?id=67ChnrC0ybo
28. NAS-Bench-301 and the Case for Surrogate Benchmarks for Neural Architecture Search
链接:https://openreview.net/pdf?id=1flmvXGGJaa
29. NASOA: Towards Faster Task-oriented Online Fine-tuning
本文提出了一种名为NASOA的神经体系结构搜索和在线适应框架,旨在根据用户的请求进行更快的面向任务的微调。
链接:https://openreview.net/pdf?id=NqPW1ZJjXDJ
28. Model-based Asynchronous Hyperparameter and Neural Architecture Search
本文提出了一种新的异步多保真贝叶斯优化方法,可以有效地搜索神经网络的超参数和体系结构。
29. Searching for Convolutions and a More Ambitious NAS
用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。
30. A Gradient-based Kernel Approach for Efficient Network Architecture Search
他们首先将这两个术语表述为基于梯度的统一内核,然后选择初始化时具有最大内核的体系结构作为最终网络。新方法取代了昂贵的“先培训后测试”评估范式。
31. Fast MNAS: Uncertainty-aware Neural Architecture Search with Lifelong Learning
他们提出了FNAS,可将基于RL的标准NAS流程加速10倍,并保证在各种视觉任务上具有更好的性能。
32. Explicit Learning Topology for Differentiable Neural Architecture Search
33. NASLib: A Modular and Flexible Neural Architecture Search Library
34. TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search
35. Rethinking Architecture Selection in Differentiable NAS
36. Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective
37. Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets
他们提出了一种有效的NAS框架,该框架在包含数据集和预先训练的网络的数据库上接受过一次训练,并且可以快速生成新数据集的神经体系结构。
38. Interpretable Neural Architecture Search via Bayesian Optimisation with Weisfeiler-Lehman Kernels
他们提出一种NAS方法,该方法效率高,性能高且可解释。
39. AutoHAS: Efficient Hyperparameter and Architecture Search
40. Differentiable Graph Optimization for Neural Architecture Search
该文学习了可微图神经网络作为替代模型来对候选架构进行排名。
41. Width transfer: on the (in)variance of width optimization
他们控制了三种现有宽度优化算法的训练配置(即网络架构和训练数据),发现优化宽度在很大程度上可以跨设置转移。
42. NAHAS: Neural Architecture and Hardware Accelerator Search
他们提出了NAHAS,这是一种由延迟驱动的软件/硬件协同优化器,可以共同优化神经体系结构和移动边缘处理器的设计。
43. Neural Network Surgery: Combining Training with Topology Optimization
他们展示了一种将神经网络训练与基于遗传算法的架构优化相结合的混合方法。
44. Efficient Architecture Search for Continual Learning
他们提出的CLEAS与神经体系结构搜索(NAS)紧密合作,后者利用强化学习技术来搜索适合新任务的最佳神经体系结构。
45. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation
Auto Seg-Loss是第一个用于搜索替代损失以获取主流语义细分指标的通用框架。
46. Improving Random-Sampling Neural Architecture Search by Evolving the Proxy Search Space
47. SEDONA: Search for Decoupled Neural Networks toward Greedy Block-wise Learning
首次尝试使去耦神经网络自动化以实现贪婪的逐块学习,并且在CIFAR-10,Tiny-ImageNet和ImageNet分类上均优于端到端的反向传播和最新的贪婪学习方法。
48. Intra-layer Neural Architecture Search
神经体系结构在单个权重参数的级别上进行搜索。
49. EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation
50. HW-NAS-Bench: Hardware-Aware Neural Architecture Search Benchmark