阅读时间:2023-11-26
1 介绍
年份:2022
作者:Sarthak Mittal,Yoshua Bengio,蒙特利尔大学
期刊: Advances in Neural Information Processing Systems
引用量:22
这篇论文探讨了模块化架构在机器学习系统中的有效性,灵感来自人类认知中的稀疏性和模块化性。作者强调了模块化架构在泛化能力、可扩展性、学习速度和可解释性方面的优势。他们提出评估指标,通过合成数据分布评估常见模块化架构的性能,重点关注模块化和稀疏性。通过分析不同的模型架构,如MLP、MHA和RNN,作者研究了模块化系统的专业化和性能。该文旨在深入了解模块化系统的工作原理和可以提高其性能的归纳偏差。通过详细的实验和分析析,作者观察到模块化系统中的专业化可以显著增强性能,特别是在具有许多基本规则的任务中。该文中开发的评估指标揭示了当前模块化系统的优势和劣势,暗示了需要额外的归纳偏差来优化性能。
2 创新点
(1)通过系统性和广泛的实验,展示了当支持良好且分布式专业化时,模块化的特性可以在内外分布测试中超越单体模型。
(2)提出了针对模块化体系结构常见组成部分的评估、量化和分析的原则性方法,并通过一系列模型对一系列基于标准MLP样式连接、循环连接或注意力操作(Bahdanau等人,2015; Vaswani等人,2017)支持的模块化网络的有效性进行了探究。
(3)发现模块化系统中的专业化在任务中存在许多基础规则时,可以显著提高性能,但在只有少量规则时效果不明显。
3 算法
(1)数据生成
数据生成过程。使用了简单的专家混合模型(MoE)Yuksel等人(2012);Masoudnia和Ebrahimpour(2014)风格的数据生成过程(混合分布)。
(2)三种模型架构
三种模型架构MLP、多头自注意力(Multi-Head Attention,MHA)和RNN
4 思考
这里提到的模块化,是指的程序的模块化?而不是储层中的节点模块化,这里指的粒度更大。
有源码,可以看一下源码,其中的模块化是如何做的。
GitHub 地址:https://github.com/sarthmit/Mod\_Arch