脑洞大开的机器视觉多领域学习模型结构 | CVPR 2018论文解读

简介:

这篇论文来自于牛津大学 VGG 组,该研究小组在机器视觉和迁移学习领域发表多篇重磅论文并且都被各类顶会录用,作者之一的 Andrea Vedaldi 就是轻量级视觉开源框架 VLFeat 的主要作者

平常工程中或者参加过 Kaggle 比赛的都知道迁移学习对模型效果提升、训练效率提升的好处。这篇文章认为人类可以很快地处理大量不同的图像进行不同的任务分析,所以模型也能够经过简单的调整适应不同的场景。

本文提出了一种适合多领域、多任务、可扩展的学习模式,尽管当前阶段多领域学习有很大突破,但效果相比于专有模型略有差距。

作者提出一种参数获取模式——Parametric Family(图a),这种模式改变了以往的阶段性的参数提取(图b),需适应的参数更少,并且在参数较少的基础上使用了参数压缩方法依然可以保证模型的效果。

a5b99d133e2d4e41dc7e861e5dd960f1eccdb3dc

模型介绍

论文中提出了两种残差适配器,顺序残差适应器(Series Residual Adapters)和平行残差适应器(Parallel Residual Adapters)。两种模型的结构如下所示。

51a4bef345d30c32545dcb0fb9e646119b682d5c

本文作者在 2017 年的 NIPS 上发表了一篇关于残差适应器(Residual Adapters)的论文Learning multiple visual domains with residual adapters [1],这篇论文中将残差适应器定义为:

81758ee677931e12897b3fd62196a51613a036a9

公式中 α 为适应参数,这样做法的好处是当 α 为 0 时,f 就恢复到曾经的状态,这样就保证了记忆性。当参数 α 进行强正则项时, α 会接近于 0(L1 正则和 L2 正则都会令参数接近于 0)。

这里作者们利用一种操作将 C×D 维的矩阵 A 进行重塑(Reshape)。

70e6f72914b81608216f1d28ddea12106d26b392

1. 顺序残差适应器(Series Residual Adapters)在前残差适应器(Residual Adapters)进行了改进。

5abde4396bd34710b20a2614d3c4da391d54ed8c

公式中 f 是标准的 filter,新的 filter g 可以看作是用 f 做为标准的低质的矩阵组合。

994cde1ed42e041a3b2f7ee1e50e18819fa87b1f

这样适应器相当于对卷积层 filter 加入了“保险”机制。并且适应参数 α 维度较小是 filter f 的 1/L^2 大小。

2. 平行残差适应器(Parallel Residual Adapters)和它的名字一样适应参数 α 采用一种平行的方式。

d5c903aaab51e553068c18176889dd37b170a7e4

新的 filter g 可以按照如下公式定义:

1137a8f3ebaba5383a2c06a9a6d2a5924b83b28d

论文选择 RestNet [2] 作为两种残差适应器(Residual Adapters)的应用网络结构。论文中利用 SVD 矩阵分解将适应参数进行降维处理使得存储的参数变得更加低维。

模型实验效果

模型通过不同数据集,取 RestNet 的不同阶段应用残差适应器(Residual Adapters),并同常见的 Finetuning 以及两种不同的多领域学习模型 [1,3] 进行比较,得出实验结果如下所示。

15cacf05a3a356da1cb608c77ccd564c64b976c6

平行残差适应器(Parallel Residual Adapters)进行参数压缩后的平均结果最佳,相较于 Finetuning 以及两种不同的多领域学习模型 [1,3] 都有很好的提升。

论文还验证了不同规模的数据集的效果和 fine-tuning 进行比较,得出小规模数据和中等规模数据上两种残差适应器的效果都比较好,特别是小规模数据集中表现总是优于 fine-tuning,但是在大量数据集中 fine-tuning 效果就要领先了。

论文评价

这篇论文的模型结构比较有特点,改变了以往的阶段性参数获取模式,采用压缩方式适应性获取,对预训练的模型参数有记忆性,保留先前的领域知识。

本文在效果上也相对不错,开拓了新的迁移学习模型结构,是多领域学习的一大突破,同时也是迁移学习领域的一个较为突出的进展。


原文发布时间为:2018-04-9

本文作者:姜松浩

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
12天前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
12 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
1月前
|
测试技术 网络架构 计算机视觉
中科院领衔发表首篇基于扩散模型的图像编辑综述
【2月更文挑战第17天】中科院领衔发表首篇基于扩散模型的图像编辑综述
17 1
中科院领衔发表首篇基于扩散模型的图像编辑综述
|
10月前
|
机器学习/深度学习 存储 人工智能
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
AlphaFold1是一种人工智能模型,由DeepMind公司开发,用于预测蛋白质的三维结构。它是基于深度学习的方法,使用了神经网络来预测蛋白质的结构。AlphaFold1的预测准确率非常高,已经被证明可以在很短的时间内预测出数千个蛋白质的结构。 AlphaFold1的核心思想是将蛋白质的结构预测问题转化为一个优化问题。具体来说,它使用了一种称为“残基-残基接触预测”的方法,通过预测蛋白质中不同残基之间的接触情况来推断出蛋白质的三维结构。这种方法需要大量的训练数据和计算资源,但是它可以在很短的时间内预测出高质量的蛋白质结构
105 0
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
|
11月前
|
机器学习/深度学习 算法 异构计算
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
100 0
|
11月前
|
机器学习/深度学习 监控 自动驾驶
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
108 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
「扩散模型」首篇综述!谷歌&北大最新研究
「扩散模型」首篇综述!谷歌&北大最新研究
434 0
|
11月前
|
机器学习/深度学习 人工智能 算法
AlphaZero的黑箱打开了!DeepMind论文登上PNAS
AlphaZero的黑箱打开了!DeepMind论文登上PNAS
|
机器学习/深度学习 传感器 机器人
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
人类能够模仿别人的行为,根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型,赋予机器人相同的能力,最终生成的模型与操作器、任务都无关,具有更好地通用性。
161 0
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
|
算法 图形学 信息无障碍
真·降维打击:这篇SIGGRAPH 2020论文帮你「想象」三维生物眼里的四维空间
四维空间是什么样子?里面的物体如何运动?一篇 SIGGRAPH 2020 论文帮我们 “想象” 出了这个过程,看完论文,你还可以上手试试游戏。
200 0
真·降维打击:这篇SIGGRAPH 2020论文帮你「想象」三维生物眼里的四维空间
|
机器学习/深度学习 人工智能 资源调度
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
267 0

热门文章

最新文章