今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章“Shortcut learning in deep neural networks”。文章认为有很多种深度学习(DL)案例的失败可以看作是同一个问题——捷径学习(Shortcut Learning)的不同表现。捷径学习是在标准基准上性能良好但是在更具挑战性的测试条件上表现较差的决策规则(decision rule)。捷径学习可能是生物和机器学习系统的一个共同特征。基于此,作者提出了一些关于模型解释和基准测试的建议,并且介绍了机器学习(ML)从实验到实际应用提高鲁棒性(robustness)和可移植性(transferability)的最新进展。
1
介绍
深度学习领域正在蓬勃发展,据报道,深度神经网络(Deep Neural Networks,DNNs)以越来越快的速度取得了人类级别的对象分类性能,对我们的生活和社会产生了巨大的影响。
但是,深度学习仍处于发展的开端,科研人员缺乏对其基本原理和局限性的深入了解。在深度学习应用程序的社会影响日益增长的现在,这成为了迫切需要解决的问题。如果我们信赖自动驾驶算法驾驶汽车,如果我们使用神经网络在工作中进行评估,如果我们癌症筛查需要深度学习的帮助,那么我们必须明确——深度学习是怎么工作的?什么时候会犯错误?以及犯错的原因?
图1.深度学习失败案例
通过对深度学习局限性的观察,可以找到它大量的失败案例(图1)。一方面是超人的性能,一方面是惊人的失败,这两者之间的差异如何调节?根据观察可以发现,许多失败案例并非个例,而是与DNNs使用捷径策略相互关联。DNNs经常通过走捷径而不是学习预期方案(intended solution)来解决问题,从而导致泛化(generalisation)的缺乏,这种现象可以在很多实际应用中观察到。所以虽然捷径策略表面上是成功的,但情况稍有不同就会失败。捷径学习并不是一种新现象,它有很多不同的术语名称,例如“协变移位学习 ”、“反因果学习”、“数据集偏差”、“坦克传奇 ”和“聪明汉斯效果”等。在很多特定的深度学习领域都出现了捷径学习的问题,如计算机视觉(Computer Vision)、自然语言处理(Natural Language Processing)、基于 Agent(强化)学习(Agent-based(Reinforcement) Learning)和公平性和算法决策(Fairness & algorithmic decision- making)等。
本文针对这些可以统称为捷径的现象提出一个统一的看法,并阐述在理论和实践中为解决这些问题采取的方法。
2
主体内容
2.1定义捷径:决策规则的分类法
在人工神经网络中的捷径学习是怎么样的呢?作者通过一个简单的分类问题(区分星星和月亮)进行举例(图2)。预期方案是基于对象形状进行分类,实际模型学习的捷径方案是基于对象位置进行分类,因为神经网络不能从训练数据中判断出预期方案和捷径方案的差异。
图2.神经网络中捷径学习例子
一般来说,任何神经网络都会执行一个定义输入和输出之间关系的决策规则。为了将捷径与其他决策规则区分开,作者引入一种决策规则的分类方法(图3)其中包含:
所有可能的方案(含无法处理数据的方案);
可解决训练集的方案(含过拟合);
可解决i.i.d.测试的方案(包括捷径学习)(i.i.d.(independent and identically distributed):独立同分布数据集;o.o.d.(out-of-distribution):分布外数据集。);捷径学习在训练集和i.i.d.测试集上性能良好(标准基准排行榜的分高),但是在o.o.d.泛化测试中性能糟糕。
期望方案:在i.i.d.测试集和o.o.d.测试集上都可以运行。
图4
捷径从哪里来?
作者认为,需要从两方面考虑这个问题。一是数据中存在的捷径机会(或捷径特征);二是如何组合不同的决策规则的特征。它们共同决定了模型的泛化方式。
训练数据集中,对象和背景或上下文之间的系统关系很容易创造出捷径机会,就像DNNs可以识别出草地上的牛,却无法识别海边的牛(图4 a);郁郁葱葱的草地会被DNNs误判为一群放牧的羊群(图1)。捷径机会是无处不在的,当数据集的规模简单地按一定数量级放大时,捷径机会就会出现。
除此之外,DNNs十分依赖纹理和其他局部结构进行对象分类,而忽略了对象全局形状。如DNNs认为模型训练时学习纹理特征比学习全局形状特征更有效,但实际测试时模型会将猫的图像归类为大象(图4 b),这就是模型中的捷径学习。判别学习(DIscriminative learning)可以选择解决给定数据集测试的可靠特征,但是它并不知道实际的测试情况,不知道如何将用于区分的特征与定义对象的其他特征相结合。
图5:图像分类
既然了解了捷径的来源,那么如何发现它们呢?
实验证明,捷径学习可以通过泛化测试发现。在泛化测试中,DNNs将图4 c错误判断为吉他,该实验发现DNNs似乎学会了检测某些特征而代替了吉他,所以在i.i.d.测试集性能良好的策略在o.o.d.数据上性能糟糕。这说明人类预期方案和模型实际学习的方案之间存在这差异,泛化失败既不是学习的失败也不是泛化的失败,而是没有按预期方向泛化的失败。
2.3诊断理解快捷学习
目前捷径学习有很多元素已经被发现并且取得了实质性进展,但是开发者都是在没有一个普遍认可的策略下来探索方法的。所以作者介绍了诊断和分析捷径学习的三个可行步骤。
1)仔细分析结果
目前机器学习领域最流行的基准测试仍然是i.i.d.测试,这使人们不再需要验证测试性能与人们真正该兴趣的基础能力(underlying ability)之间是否有关系。如原本计划用来衡量模型“识别对象”能力的ImageNet数据集,实际发现DNNs似乎主要依赖“对纹理块的计数”来通过测试。因此可以得出,模型简单通过数据集测试和模型实现了人们期望的基础能力之间是不一样的。数据集只有能很好地代表人类真正感兴趣的功能时才是有用的数据集。
动物通常以一种意想不到的方式解决一个实验范式,而未使用人们真正感兴趣的能力,从而欺骗了实验者。摩根法则(Morgan's Canon)提到,如果可以用较低的心理过程来解释某种行为,那么绝将其归因于高级的心理过程,即法则否认了“人类思维模式和处理问题的方法很容易被非人类利用“的观点。但在算法层面,通常有一种默认的假设(same strategy assumption),如果模型有类人的表现,那么它采取的策略也是类人的。同理,在深度学习中,DNN单元不同于生物神经单元,但是如果DNNs成功识别了对象,那么很自然地假设它们像人类一样使用物体形状来识别。
因此我们需要区分模型在数据集的性能表现与实际获取的能力之间的关系,在将“物体识别”或“语言理解”等高级能力赋予模型前要非常谨慎,因为通常有一个更简单的解释:“永远不要将能用捷径学习充分解释的结果归因于高级能力。”
2)面向o.o.d.泛化测试以检测捷径学习
通过i.i.d测试集上的验证性能来衡量模型性能是大部分机器学习基准测试的核心。但是在现实世界中,i.i.d.假设很少是合理的。如果模型性能仅在i.i.d.测试数据上进行评估,那么就无法发现模型是否真的采用了预期方案,因为模型利用捷径也会在标准指标上产生虚假的好结果。
因此,作者希望能够确定一个足够简单有效的o.o.d.测试来取代i.i.d.测试,成为未来机器学习模型基准测试的新标准方法。作者认为优秀的o.o.d.测试至少要满足以下三个条件:
有一个明确的分布变化。
有一个明确定义的预期解决方案。
是一个大多数现有的模型都认为具有挑战性的测试集。
。
目前表现优秀的o.o.d.基准有Adversarial attacks、ARCT with removed shortcuts、Cue conflict stimuli、ImageNet-A、ImageNet-C、ObjectNet、PACS和Shift-MNIST / biased CelebA / unfair dSprites。
3)为什么学习捷径
对于DNNs来说,利用捷径比学习预期的解决方案要容易得多。但是,是什么因素决定一个解决方案是否容易学习?对于机器来说,解决方案是否容易学习不仅仅取决于数据,而且取决于机器学习算法的四个组成部分:架构(architecture)、训练数据(training data)、损失函数(loss function)和优化(optimisation),他们被称为模型的归纳偏向(inductive bias)。归纳偏向会影响某些解决方案比其他方案更容易学习,从而使模型决定学习捷径方案而不是预期方案。
2.4当前几种有前途的解决捷径的方法
机器学习普遍存在缺乏分布外泛化的问题。因此,机器学习研究的很大一部分都与克服捷径学习有关。作者简单列举了几种前景很好的解决方法,每一种都提供了超越捷径学习的独特视角,例如特定领域的先验知识(Domain-specific prior knowledge)、对抗样本和鲁棒性(Adversarial examples and robustness)、领域自适应,领域泛化和领域随机化(Domain adaptation, -generalisation and -randomisation)、公平性(Fairness)、元学习(Meta-learning)和生成模型和disentanglement(Generative modelling and disentanglement)。
3
总结
虽然深度学习在过去几年里取得了巨大的进步,但仍然在模型如何从数据中学习方案的原理理解和局限性方面落后。如何克服捷径学习的问题不仅与机器学习的当前应用领域相关,未来可能还会与其他学科交叉融合。因此,为了深入理解捷径学习,从而减轻它的影响,作者提出了四条建议:
捷径学习无处不在,让不同领域通过它联系起来
仔细分析结果
使用o.o.d.测试集进行泛化
了解解决方案容易学习的原因,弄清归纳偏向四个因素的影响以及彼此之间的相互作用。
捷径学习是实现公平、健壮、可部署和值得信赖的机器学习的主要障碍之一。虽然完全克服捷径学习可能是无法实现的,但任何减轻捷径学习影响的进展都将使模型所学解决方案和预期解决方案取得更好的一致性。这就保证了机器即使是在远离训练经验的情况下也能表现得可靠。此外,机器决策将因此变得更加透明,能够更容易地检测和消除偏差。目前,关于捷径学习的研究仍然在不同社区中开展作者希望能推进讨论,建立替代当前i.i.d测试的o.o.d新标准范式。