ICLR2021 | 从50篇投稿,看模型搜索最新进展

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 他们提出一种称为FTSO的方法,通过分别搜索网络拓扑和运营商,将NAS的搜索时间从几天缩短至0.68秒,同时在ImageNet上实现76.42%的测试精度,在CIFAR10上实现97.77%的测试精度。

本文从模型搜索NAS的问题出发,整理了最新ICLR2021相关投稿论文。


神经网络除了权重(W)之外,其通道数、算子类型和网络连接等结构参数需要设定,而模型搜索NAS即是确定结构参数的自动方法。最初NASNet中每种结构参数的模型单独训练带来的巨大开销,最近两年基于权重共享的NAS方法中,不同结构参数模型复用权重组成代理模型(SuperNet)一起训练,然后评测子模型指标并通过RL , EA , Random搜索(One-shot)或由参数化离散变连续用梯度下降(Darts)从结构参数空间(A)求解出最优子结构,最后重训最优子结构得最后需要的模型。


整个流程中分为SuperNet训练,最优子模型搜索,重训三个阶段,其中搜索阶段时间因为不同的评测方式和指标,快则几秒慢则几天,而SuperNet训练周期一般设置成重训阶段相近,因此目前流行的权重共享搜索方法多是单独训练的两倍左右开销。其中结构参数空间如何建模,代理模型评测好坏是否真实(一致性),以及训练开销是否可以进一步降低,这些问题对应投稿论文整理如下:


  • One-shot方法中SuperNet训练以及一致性? One-shot方法中大多以megvii 的Singlepath为framework,之后的改进工作主要集中在采样方式和具体训练策略上,GreedyNAS 和 AngleNAS分别用droppath和dropnode改进采样方式,Once for all和BigNAS利用训练策略使得SuperNet中子模型性能变强而省去了重训步骤,文【1】是年初的文章总结了训练细节比如分组BN等影响。One-shot框架中其他问题如代理模型评测误差等也都有ICLR2021投稿工作研究;
  • Darts方法的训练和优化方式? Darts方法用bi-level优化轮替优化权重(W)和结构参数(A),因为softmax以及无参数OP影响导致模型坍塌以及结果不稳定,文【2】通过引入辅助分支改善训练,文【3】加noise改善了模型坍塌,文【4】和文【5】都是解耦连接和OP的搜索。由于bi-level求解存在优化误差文,文【6】和文【7】采用single-level优化方法,希望这两篇工作能结束魔改Darts的局面;
  • 结构参数空间怎么建模?比如文【8】按照分布建模,文【9】按照流形建模,文【10】按照邻接关系建模,随着NAS benchmarks101等出现,直接用结构参数作为输入X,提前测试好的对应精度作为Y, 学习X到Y映射关系可以看作对搜索空间建模,这样工作有基于GCN, LSTM等的预测器以及排序器等,如文【6】,文【7】和文【11】等;
  • NAS without training?文【13】和 文【14】类似,以及我们所更早的工作ModuleNet,都是通过精心设计指标取代精度来避免权重训练的开销,虽然结果图有相关趋势,但是经实际评测一致性数值较低,其他如随机权重的工作基本只能解决很简单任务难以实用;
  • 新的NAS benchmark? TransNAS-Bench-101NAS-Bench-301HW-NAS-Bench等,都是推动领域大大的好工作,respect!
  • NAS的下游任务应用检测上应用如文【16】, 量化上应用如文【17】等。


总结48篇文章中既有延续之前解决One-shot和Darts框架中训练不稳定以及减少评测误差等方面问题的文章,也有single-level优化,流形结构建模等反思前提假设的硬核文章,更多的NAS benchmark以及泛化应用推动NAS研究的进步与落地。诚然,模型搜索方面的研究大厦似乎已经落成,部分新的改进工作因为评测数据集简单(如cifar等)和不公平对比而难以判断良莠,期待大佬组以及大厂能够持续开坑以及贡献更多solid工作。


ICLR2021中NAS方面投稿文章整理


1. How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS


640.png


链接:https://openreview.net/forum?id=txC1ObHJ0wB

2. DARTS-: Robustly Stepping out of Performance Collapse Without Indicators


640.png


接:https://openreview.net/pdf?id=KLH36ELmwIB

3. Noisy Differentiable Architecture Search

链接:https://openreview.net/pdf?id=JUgC3lqn6r2

4.FTSO: Effective NAS via First Topology Second Operator


他们提出一种称为FTSO的方法,通过分别搜索网络拓扑和运营商,将NAS的搜索时间从几天缩短至0.68秒,同时在ImageNet上实现76.42%的测试精度,在CIFAR10上实现97.77%的测试精度。


640.png



链接:https://openreview.net/pdf?id=7Z29QbHxIL

5. DOTS: Decoupling Operation and Topology in Differentiable Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。


640.png


链接:https://openreview.net/pdf?id=y6IlNbrKcwG


6. Geometry-Aware Gradient Algorithms for Neural Architecture Search

本文研究正确的单级优化几何结构可为NAS提供最新的方法。


640.png


链接:https://openreview.net/pdf?id=MuSYkd1hxRP


7. GOLD-NAS: Gradual, One-Level, Differentiable


新的可区分NAS框架结合了一级优化和逐步修剪功能,可在大型搜索空间上工作。


640.png


链接:https://openreview.net/pdf?id=DsbhGImWjF


8. Weak NAS Predictor Is All You Need


他们提出了一种新方法,可以在基于预测变量的神经体系结构搜索中逐步估计弱预测变量。通过从粗到细的迭代,逐步完善了采样空间的排名,最终有助于找到最佳架构。


640.png


链接:https://openreview.net/pdf?id=kic8cng35wX


9. Differentiable Graph Optimization for Neural Architecture Search


他们学习了可微图神经网络作为替代模型来对候选架构进行排名。


640.png


链接:https://openreview.net/pdf?id=NqWY3s0SILo


10 . DrNAS: Dirichlet Neural Architecture Search


他们提出了一种简单而有效的渐进式学习方案,该方案可直接搜索大型任务,从而消除了搜索和评估阶段之间的差距。大量的实验证明了我们方法的有效性。


640.png


链接:https://openreview.net/pdf?id=9FWas6YbmB3


11 . Neural Architecture Search of SPD Manifold Networks

他们首先介绍几何丰富且多样化的SPD神经体系结构搜索空间,以进行有效的SPD单元设计。此外,我们使用超网策略为新的NAS问题建模,该策略将架构搜索问题建模为单个超网的一次训练过程。


640.png


链接:https://openreview.net/pdf?id=1toB0Fo9CZy


12 . Neighborhood-Aware Neural Architecture Search


他们提出了一种用于神经体系结构搜索的邻域感知公式,以在搜索空间中找到平坦的最小值,该最小值可以更好地推广到新的设置。


640.png


链接:https://openreview.net/pdf?id=KBWK5Y92BRh


13 . A Surgery of the Neural Architecture Evaluators


本文评估了在受控设置下具有多个直接标准的当前快速神经体系结构评估器。


640.png


链接:https://openreview.net/pdf?id=xBoKLdKrZd


14 . Exploring single-path Architecture Search ranking correlations


关于几种方法变化如何影响体系结构排名预测质量的实证研究。


640.png


链接:https://openreview.net/pdf?id=J40FkbdldTX


15 . Neural Architecture Search without Training


640.png


链接:https://openreview.net/pdf?id=g4E6SAAvACo


16 . Zero-Cost Proxies for Lightweight NAS


单个小批量数据用于为NAS的神经网络评分,而不是执行完整的训练。


640.png


链接:https://openreview.net/pdf?id=0cmMMy8J5q


17 . Improving Zero-Shot Neural Architecture Search with Parameters Scoring

可以考虑参数空间中的jacobian来设计分数,这可以高度预测任务的最终性能。


640.png


链接:https://openreview.net/pdf?id=4QpDyzCoH01


18. Triple-Search: Differentiable Joint-Search of Networks, Precision, and Accelerators

我们提出了三重搜索框架,以可区分的方式联合搜索网络结构,精度和硬件体系结构。


640.png


链接:https://openreview.net/pdf?id=OLOr1K5zbDu


19 . TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

640.png


链接:https://openreview.net/pdf?id=HUd2wQ0j200


20 . Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。


640.png


链接:https://openreview.net/pdf?id=ascdLuNQY4J


21 . EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation


他们展示了有效的维数如何揭示现代深度学习中的多种现象,包括两次下降,宽度-深度权衡和子空间推断,同时提供了一种直接且引人注目的通用度量。


640.png


链接:https://openreview.net/pdf?id=qzqBl_nOeAQ


22 . Efficient Graph Neural Architecture Search


通过设计一种新颖而富有表现力的搜索空间,提出了一种基于随机松弛和自然梯度的高效单次NAS方法。


23 . Multi-scale Network Architecture Search for Object Detection

640.png


链接:https://openreview.net/pdf?id=mo3Uqtnvz_


24 . Exploring single-path Architecture Search ranking correlations

关于几种方法变化如何影响体系结构排名预测质量的实证研究。

25 . Network Architecture Search for Domain Adaptation

640.png


链接:https://openreview.net/pdf?id=4q8qGBf4Zxb


26 . Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective


他们的TE-NAS框架分析了神经切线核(NTK)的频谱和输入空间中线性区域的数量,从而实现了高质量的架构搜索,同时在ImageNet上将搜索成本显着降低到了四个小时。


640.png


链接:https://openreview.net/pdf?id=Cnon5ezMHtu


27. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters


修正用于稳定DARTS算法的建筑参数梯度估计中的错误。


640.png


链接:https://openreview.net/pdf?id=67ChnrC0ybo


28. NAS-Bench-301 and the Case for Surrogate Benchmarks for Neural Architecture Search


640.png

640.png


链接:https://openreview.net/pdf?id=1flmvXGGJaa


29. NASOA: Towards Faster Task-oriented Online Fine-tuning

本文提出了一种名为NASOA的神经体系结构搜索和在线适应框架,旨在根据用户的请求进行更快的面向任务的微调。


640.png


链接:https://openreview.net/pdf?id=NqPW1ZJjXDJ


28. Model-based Asynchronous Hyperparameter and Neural Architecture Search

本文提出了一种新的异步多保真贝叶斯优化方法,可以有效地搜索神经网络的超参数和体系结构。


29. Searching for Convolutions and a More Ambitious NAS

用于神经体系结构搜索的通用搜索空间,该空间可以发现击败图像数据上的卷积的操作。


30. A Gradient-based Kernel Approach for Efficient Network Architecture Search


他们首先将这两个术语表述为基于梯度的统一内核,然后选择初始化时具有最大内核的体系结构作为最终网络。新方法取代了昂贵的“先培训后测试”评估范式。


31. Fast MNAS: Uncertainty-aware Neural Architecture Search with Lifelong Learning


他们提出了FNAS,可将基于RL的标准NAS流程加速10倍,并保证在各种视觉任务上具有更好的性能。


32. Explicit Learning Topology for Differentiable Neural Architecture Search

33. NASLib: A Modular and Flexible Neural Architecture Search Library

34. TransNAS-Bench-101: Improving Transferrability and Generalizability of Cross-Task Neural Architecture Search

35. Rethinking Architecture Selection in Differentiable NAS

36. Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective

37. Rapid Neural Architecture Search by Learning to Generate Graphs from Datasets


他们提出了一种有效的NAS框架,该框架在包含数据集和预先训练的网络的数据库上接受过一次训练,并且可以快速生成新数据集的神经体系结构。


38. Interpretable Neural Architecture Search via Bayesian Optimisation with Weisfeiler-Lehman Kernels


他们提出一种NAS方法,该方法效率高,性能高且可解释。


39. AutoHAS: Efficient Hyperparameter and Architecture Search


40. Differentiable Graph Optimization for Neural Architecture Search


该文学习了可微图神经网络作为替代模型来对候选架构进行排名。


41. Width transfer: on the (in)variance of width optimization


他们控制了三种现有宽度优化算法的训练配置(即网络架构和训练数据),发现优化宽度在很大程度上可以跨设置转移。


42. NAHAS: Neural Architecture and Hardware Accelerator Search


他们提出了NAHAS,这是一种由延迟驱动的软件/硬件协同优化器,可以共同优化神经体系结构和移动边缘处理器的设计。


43. Neural Network Surgery: Combining Training with Topology Optimization

他们展示了一种将神经网络训练与基于遗传算法的架构优化相结合的混合方法。


44. Efficient Architecture Search for Continual Learning

他们提出的CLEAS与神经体系结构搜索(NAS)紧密合作,后者利用强化学习技术来搜索适合新任务的最佳神经体系结构。


45. Auto Seg-Loss: Searching Metric Surrogates for Semantic Segmentation


Auto Seg-Loss是第一个用于搜索替代损失以获取主流语义细分指标的通用框架。


46. Improving Random-Sampling Neural Architecture Search by Evolving the Proxy Search Space

47. SEDONA: Search for Decoupled Neural Networks toward Greedy Block-wise Learning


首次尝试使去耦神经网络自动化以实现贪婪的逐块学习,并且在CIFAR-10,Tiny-ImageNet和ImageNet分类上均优于端到端的反向传播和最新的贪婪学习方法。


48. Intra-layer Neural Architecture Search


神经体系结构在单个权重参数的级别上进行搜索。


49. EnTranNAS: Towards Closing the Gap between the Architectures in Search and Evaluation


50. HW-NAS-Bench: Hardware-Aware Neural Architecture Search Benchmark


640.png


链接:https://openreview.net/pdf?id=_0kaDkv3dVf

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
相关文章
|
4月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
82 4
|
5月前
|
机器学习/深度学习 人工智能 算法
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
【7月更文挑战第26天】Xidong Feng等研究人员提出了一项创新方法,通过采用AlphaZero式的树搜索算法来增强大语言模型(LLMs)的推理与训练能力。这项技术,称为TS-LLM(Tree-Search for LLMs),将LLMs的解码过程视为搜索问题,并运用AlphaZero的树搜索来指导这一过程。TS-LLM不仅提升了模型的通用性和适应性,还在多个任务中实现了显著的性能提升。此外,它能在训练阶段指导LLMs学习更优的解码策略。尽管如此,TS-LLM依赖于高质量的预训练LLM,并面临较高的计算成本挑战。[论文](https://arxiv.org/abs/2309.17179)
92 5
|
4月前
|
人工智能 数据库
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
本文提供了关于如何判断期刊类别、影响因子,识别顶级会议,以及在期刊内部进行检索的科研技巧,并探讨了AI技术在撰写综述和制作PPT方面的应用。
163 6
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
|
6月前
|
数据采集 人工智能 算法
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
【6月更文挑战第20天】探索AI如何理解与生成图像和文本,VLM结合图像与文本映射,涉及图像描述、问答等任务。论文由多所名校和机构研究人员共创,介绍VLM历史、类型(对比学习、掩码、生成、预训练)及应用,如图像生成和问答。同时,讨论数据质量、计算资源和模型可解释性的挑战。[阅读更多](https://arxiv.org/pdf/2405.17247)
210 2
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会“图的语言”
【5月更文挑战第1天】谷歌在ICLR 2024提出新方法,使大语言模型(LLM)性能提升高达60%,通过结合图神经网络(GNN),LLM学会理解与生成“图的语言”,打破处理复杂任务的局限。此创新模型适用于社交网络分析等领域,但面临计算资源需求大和模型解释性问题。研究强调需确保LLM在道德和法律框架内使用。论文链接:https://openreview.net/pdf?id=IuXR1CCrSi
255 3
|
7月前
|
数据采集 人工智能 数据挖掘
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
393 0
【AI大模型应用开发】【附】常用Prompt记录 - 论文全文写作
|
存储 机器学习/深度学习 人工智能
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
581 1
|
机器学习/深度学习 算法 大数据
深度学习入门笔记5 Facebook营销组合分类预测
深度学习入门笔记5 Facebook营销组合分类预测
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术
大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术
361 0
|
机器学习/深度学习 算法 PyTorch
Kaggle第一人 | 详细解读2021Google地标识别第一名解决方案(建议全文背诵)(一)
Kaggle第一人 | 详细解读2021Google地标识别第一名解决方案(建议全文背诵)(一)
327 0

热门文章

最新文章