LeCun带两位UC伯克利华人博士提出「循环参数生成器」,一个参数重复用!

简介: 近日,LeCun带领两位来自UC伯克利的华人博士共同发表了一份关于如何减少参数冗余问题的论文,团队提出的RPG循环参数生成器,在减少骨干参数的同时,也依然能获得比SOTA更好的性能。

模型压缩,我所欲也,模型性能,亦我所欲也;

二者不可得兼?

且慢,小孩子才做选择!
虽说参数数量越多,模型性能越好,但显然过参数化的模型太占用资源。 尤其是GPT-3,参数高达1750亿个!

1.gif

为解决这一问题,研究人员试图从不同角度来减少参数的冗余,包括神经网络剪枝、参数正则化、模型量化、网络结构搜索、循环模型…… 这些方法尝试从预训练的大型神经网络中删去不重要的参数,实现对大模型的压缩。 近日,LeCun的研究团队就发表了一篇题为「循环参数生成器」(Recurrent Parameter Generators)的论文。 其中,循环参数生成器可以被看作是模型压缩的一种逆向方法,其目的不是从一个大的模型中去除多余的参数,而是将更多的信息挤压到少量的参数中。 

2.jpg

论文地址:https://arxiv.org/pdf/2107.07110.pdf 论文主要带来了三点贡献:
1. 循环参数生成器 (RPG)能使用任意数量的参数来构建给定的神经网络。 2. 在给定的压缩率下,RPG与SOTA的模型剪枝方法相比,实现了同等甚至更好的性能。 3. 通过破坏权重共享,RPG与几种循环权重共享模型相比,拥有更强的性能。


参数更少,更灵活


在标准神经网络中,所有参数都是相互独立的,所以,模型越深,也就变得越大。 而RPG则在一个环中共享一组固定的参数,并利用它们来生成神经网络中不同部分的参数。



3.jpg



模型的第三部分(黄色)开始与环中的第一部分(红色)重叠,所有后面的层可能会多次共享生成的参数。4.jpg

以ResNet34为例,应用RPG后,只需要骨干参数的一半,也能够实现相同的ImageNet top-1的精度。 研究发现,即使在单个标量值级别,参数也可以在深度网络架构的另一个任意位置重新使用,不会对模型性能产生明显影响。 而出乎意料的是,对于相同参数能够分配到网络的多个随机位置问题,能够通过深度网络的反向传播训练来解决,同样也不会对模型性能产生明显影响 因此作者表示,要想有高性能,并不代表着大型神经网络就要过度参数化。 此外,将Resnet18模型一个卷积层的权重数量减少4.72倍也能达到ImageNet top-1精度的67.2%。 从某种意义上说,RPG可以看作是一种自动模型剪枝技术,探索精度与参数之间的最优解。 而除了灵活性之外,其压缩结果往往与SOTA剪枝方法相当,甚至要更好。 即使将Resnet18骨干参数减少到36K,也就是减少了约300倍,Resnet18仍然可以达到ImageNet top-1精度的40.0%。


5.jpg

                      包括图像分类(左)、人体姿势估计(中)和多任务(右) 

循环参数生成器

为了实现更好的参数容量,作者引入了一种均匀的采样策略。 假设正在构建一个深度卷积神经网络,它包含L个不同的卷积层。让K1, K2, ...... , KL是相应的L个卷积核。 并创建一个单一的参数集W∈RN,用它来为每个卷积层生成相应的参数。

6.jpg

其中Ri是一个固定的预定义生成矩阵,用于从W中生成Ki,其中{Ri}和W即为循环参数生成器(RPG)。 此外,W的梯度是每个卷积层的梯度的线性叠加。根据链式规则可以得到W的梯度是:



7.jpg

不同规模的循环参数生成器 除了创建一个在所有层中全局共享的RPG。作者还提出了在块和子网络规模上创建局部RPG。

8.jpg

一个全局RPG为整个ResNet18生成卷积核;4个局部RPG分别负责为ResNet18的模块生成卷积核 以ResNet18为例, ResNet18有4个构建块,其中每个块有2个残差卷积模块。 为了在块规模上叠加ResNet18,作者创建了四个局部RPG。每个RPG都在相应的构建块内共享,其中RPG的大小是灵活的,可由用户决定。 许多任务可以重新使用子网络或循环网络,因为它们通过迭代完善和改进了预测。 通常而言,在重复使用子网络时,权重是共享的,但这可能不是最优方案。 因为不同阶段的子网络迭代会改进预测,共享权重也可能会限制适应不同阶段的学习能力。另一方面,完全不共享权重还会极大增加模型大小。 因此作者尝试将不同的子网络与一个或多个RPG进行叠加。经过叠加的子网络可以有更小的模型尺寸,而不同子网络的参数会发生变化,而不是直接复制粘贴。 

图像分类

 在进行CIFAR测试时,批大小为128,权重衰减为5e-4,初始学习率为0.1,gamma为0.1,epoch为60、120和160。 在进行ImageNet测试时批次大小为256,权重衰减为3e-5,初始学习率为0.3,每75 epochs的gamma为0.1。 作为隐含模型的代表,深度均衡模型可以通过额外的优化寻找固定点来减少模型的冗余度。 与MDEQ相比,RPG可以在CIFAR10上将精度提高3.4% - 5.8%,在CIFAR100上提高3% - 5.9%。 推理时间方面,RPG则比MDEQ少15-25倍,因为MDEQ在训练期间需要额外的时间来解决平衡问题。

9.jpg

与ResNet相比,拥有全局RPG的ResNet-RPG在相同的参数大小下取得了更高的精度。 而ResNet-RPG34只用了ResNet34骨干参数的50%就达到了相同的精度73.4%。

10.jpg

令人意外的是,作者发现在CIFAR100上达到36%的精度只需8K骨干参数。 此外,ResNet34-RPG比ResNet18-RPG实现了更高的精度,这表明时间复杂度的增加提升了模型的性能。

11.jpg

与相同参数数量的标准ResNet18相比,局部RPG网络可以将精度提升1.0%。相比之下,全局RPG在精度上提升了1.4%。 也就是说,参数均匀分布的全局RPG在精度上会比多个局部RPG高0.4%。

12.jpg


作者简介13.jpg

Jiayun Wang,2018年毕业于西安交通大学电子工程系,如今是UC伯克利分校视觉科学项目博士候选人,研究领域为计算机视觉,导师是Stella Yu。 

14.jpg

Yubei Chen,2012年获得清华大学电气工程系学士学位,后加入UC伯克利分校的EECS系和伯克利人工智能研究所 (BAIR),攻读博士学位,在Bruno Olshausen教授指导下研究生成式无监督学习模型。 就读UC伯克利期间,获得了EECS硕士学位和数学硕士学位。 2012年曾获得NSF GRFP奖学金,此外还担任NeurIPS、ICLR、ICML、AAAI等大会的论文审稿人。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
5月前
|
人工智能 自然语言处理 算法
思维链不存在了?纽约大学最新研究:推理步骤可省略
【5月更文挑战第26天】纽约大学研究发现,Transformer模型在处理复杂任务时可能不依赖思维链,而是通过填充符号实现计算。实验显示,填充符号能提升模型在特定任务中的准确率,扩展其表达能力,尤其是在处理嵌套量词问题时。然而,模型有效利用填充符号的学习是个挑战,因填充符号的隐藏层表示不易判断。研究提示,Transformer模型可能通过填充符号并行化解决TC0类问题,但可能使决策过程变得不透明,影响可解释性。该研究为优化语言模型提供了新思路,但也提出了可解释性与计算效率之间平衡的议题。[链接](https://arxiv.org/pdf/2404.15758)
48 1
|
人工智能
如何写一篇人工智能领域的期刊论文(SCI论文的固定模式和一些套路)
如何写一篇人工智能领域的期刊论文(SCI论文的固定模式和一些套路)
|
自然语言处理 算法 数据挖掘
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
160 0
|
编解码 人工智能 文字识别
连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数
连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数
151 0
|
人工智能 算法 机器人
仅需10%参数量即超越SOTA!浙大、字节、港中文联合提出「类别级位姿估计」任务新框架|CoRL2022
仅需10%参数量即超越SOTA!浙大、字节、港中文联合提出「类别级位姿估计」任务新框架|CoRL2022
162 0
|
机器学习/深度学习 数据采集 人工智能
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉
259 0
|
机器学习/深度学习 人工智能 自动驾驶
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(下)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(下)
|
机器学习/深度学习 编解码 数据可视化
苏黎世华人博士提出模型SwinIR,只用33%的参数量就碾压图像修复领域sota
参数量和模型的性能有绝对关系吗?苏黎世华人博士提出SwinIR模型,实验结果告诉你,越小的模型还可能更强!SwinIR使用Transformer力压CNN,又在图像修复领域屠榜,模型参数量降低67%,再也不要唯参数量论英雄了!
480 0
苏黎世华人博士提出模型SwinIR,只用33%的参数量就碾压图像修复领域sota
|
机器学习/深度学习 计算机视觉
英伟达的实习生提出零样本风格迁移:多模态CLIP玩出花,只用文本就能干CV的活!
零样本的风格迁移听说过没有?英伟达一个实习生小哥集文本CLIP和图像生成StyleGAN于一身,只需要输入几个单词就可以完成你想要的风格迁移效果!再也不用为了风格迁移找数据啦!
287 0
英伟达的实习生提出零样本风格迁移:多模态CLIP玩出花,只用文本就能干CV的活!
下一篇
无影云桌面