摘要
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
总结来说,本文的主要贡献如下:
- 它提供了XAI中关注深度视觉模型的文献的第一次全面回顾。该综述涵盖了现代深度学习时代到来时开发的具有影响力的技术,以及该领域旗舰研究来源中出现的最新最先进的方法。它特别关注具有里程碑意义的贡献。文献按照这些方法所采用的技术方法进行分类。因此,提供了现有技术所利用的广泛战略的清晰图景;
- 论文发现,视觉模型可解释性能的量化在文献中仍然缺乏所需的清晰度,这是因为在测量抽象的主观解释概念方面存在固有的困难。为了帮助研究界解决这一问题,论文从文献中挖掘出一系列评估指标,并将其组织为不同解释特性的定量度量。这是本综述的第二个主要部分。据设想,这种第一次对评价指标进行广泛系统的处理将大大有助于对未来技术进行急需的系统评价;
- 由于缺乏重点回顾,XAI中当前的视觉建模文献在技术术语和为技术提供正确上下文方面存在明显的不一致。论文通过在整篇文章中提供对术语的易懂理解以及富有洞察力的讨论来解决这一问题;
- 本文最后强调了这一方向面临的主要开放挑战,并根据回顾文献中的见解提出了未来展望。
内在可解释模型
论文发现社区中普遍存在一种印象,即深度视觉模型的可解释性和性能是负相关的。然而,Rudin[2019]正确地指出了这方面缺乏具体证据,并主张开发内在可解释的模型。为此,最近的论文设计了两个方向的方法:(a)从头开始设计可解释的模型,(b)用可解释的组件扩充黑盒模型。
从头开始解释模型设计
沿着这个方向,一类方法探索了广义加性模型(GAM)的知识[Hastie,2017]。中心思想是将输入的预期转换(即建模)实现为一组单独处理输入特征的附加子模型。这用于保持整体转换的可解释性[Agarwal等人,2021],[Chang等人,2021],[Dubey等人,2022],[Alvarez-Melis和Jaakkola,2018年]。然而,缺乏适当的可扩展性是该策略实用性的主要障碍。Blazek等人(2021)采用了不同的方法,提出了采用基于支持向量机神经元的非标准构建块的本质神经网络。通过对底层神经网络的系统架构设计,他们展示了该方法的显著泛化能力。然而,他们网络的设计过程仍然很繁琐,并且严重依赖于领域专家的积极参与。Li等人[2021]提出使用插槽注意力机制构建视觉分类器的分类阶段,该机制学习语义上有意义的内部表示。然而在网络的早期阶段,他们的方法仍然必须依赖于主干模块,这会影响整个模型的可解释性。
众所周知,深度学习的一个关键优势,尤其是在视觉领域,是通过分层结构以可识别的低级和高级特征表示数据的能力。旨在充分解释模型的方法必须手动解释网络结构中域数据的合理分层处理。这通常需要该领域的专家知识,这使得完全可解释的建模对于许多问题来说不那么有吸引力。
增强神经模型的可解释性
一般来说,视觉模型的可解释性被视为一种连续性,而不是一种离散性度量。这种观点鼓励研究人员设计方法来提高模型的可解释性。通常,这是通过用(i)可解释的内部成分或(ii)提供所需解释的外部成分来增强传统神经模型来实现的。
内部组件增强:为了提高视觉模型的内在解释性,Chen等人[2020]引入了一个概念白化模块,旨在将模型潜在空间的轴与先验已知概念对齐。这种对齐还涉及到为可理解性去相关概念空间的过程。Wang等人[2021]还探索了一种密切相关的机制,该机制为由基本概念跨越的模型提供了插件嵌入空间。这里,基础概念保持类别意识,类别内的概念保持相互正交,以便于人类理解。这些确实是有用的方法,但它们的代价是进一步复杂化神经建模的训练过程。
Concept bottleneck建模[Koh等人,2020]是另一个有趣的框架,它让神经模型首先学习人类可解释的(子)概念,并通过进一步处理这些概念进行最终预测。在架构上,它在网络中引入了一个概念层,该概念层也支持预测阶段的人工干预[Chauhan等人,2022年]。概念瓶颈模型(CBM)目前正引起研究界的关注。Bahadori等人[2020]对这些模型进行了因果推理,而Antognini等人[2021]使用了这个框架来应用文本合理化。基于与CBM相似的原理,ProtoPNetwork[Chen et al.,2019]还在网络中引入了一个原型层,该层将高级子概念与其神经元相关联。
注意,前文中讨论的一些方法在概念上与CMB非常相似。例如与CBM一样,只有[Blazek和Lin,2021]中视觉模型的后期层是可解释的。这是因为,在视觉建模的情况下,他们的技术必须依赖于深层特征(而不是图像像素)来构建可解释(子)网络。然而,与[Blazek和Lin,2021]不同,使用内部成分增强的技术沿着一些基本算术操作使用标准神经元,以提高网络层的可解释性。值得注意的是,这两种范式都对模型解释的神经网络的深层次感兴趣。这甚至适用于[Kim等人,2022年],该研究专门试图通过使用神经树作为模型学习的表示的解码器,使视觉Transformer更易于解释,其中树的节点是上下文Transformer模块。
外部组件增强:内部组件增强技术将模块嵌入到神经网络中,这样它们就不会形成图的新分支。相比之下,最近的一些技术引入了解释模块作为网络的外部分支。例如,Sarkar等人[2022]提出了在基于概念的模型背景下学习外部解释模块的框架[Koh等人,2020]。他们的解释模块使用外部概念解码器来提高模型的可解释性。类似地,[Lang等人,2021]将外部StyleGAN训练为视觉分类器的解释者。在这种方法中,通过依赖外部模块的样式空间所学习的语义上有意义的维度来生成人类可理解的解释。外部解释者的另一个例子可以在[Stalder等人,2022年]中找到,该解释者声称使用可训练模型生成相关图像区域的清晰掩模。虽然有用,但基于外部模块的方法的一个明显缺点是模块可能会无意中影响模型性能及其解释。对于后一种情况,解释可能无意中编码了模块的行为,而不是解释模型。
事后解释(Post-hoc explanations)
很难确定任何严格建立模型可解释性与其性能之间反向关系的研究。然而,们普遍认为存在这种相反的关系。因此,与开发本质上可解释的模型相比,研究界相对更积极地设计事后解释工具。事后工具包括一类在模型信息可用时利用模型信息的方法,而另一类方法可以在模型信息不可用时处理场景。这种灵活性,以及这些方法不会干扰模型性能的事实,使得后期工具非常实用。
模型不可知方法
对于模型信息不可用的情况,即黑盒场景,事后解释方法以某种形式查询模型,以模型不可知的方式识别输入中的重要像素。例如,Fong等人[2019]使用查询来计算极值扰动,以识别最显著的输入像素。局部可解释模型不可知解释(LIME)是模型不可知方法的早期尝试,通过将简单的可解释模型拟合到输入的扰动版本来近似输入周围的局部邻域内的模型行为[Ribeiro等人,2016]。然而,已知LIME不稳定。Dhurandhar等人[2022]最近提出了解决这种不稳定性的方法。解释随机输入抽样(RISE)[Petsiuk等人,2018]是另一种流行的模型不可知解释方法。Lundberg&Lee[2017]提出了利用Shapely值的SHapley加法扩展(SHAP)[SHapley,1997]来估计每个特征对预测的贡献。最近,有人声称,Shapely值计算的边际贡献对于模型解释来说是次优的。因此,在[Kwon和Zou,2022]中引入了加权SHAP。
模型不可知策略是在黑箱设置中解释模型的唯一方案。由于这些方法不利用模型信息,因此它们解决了一个更难产生解释的问题。因此论文经常发现这些方法依赖于启发式来控制其解空间。这些启发可能会对生成的解释产生意想不到的影响。一般来说,尽管使用了启发式方法,但这些方法在计算上仍然很昂贵。
当模型的内部信息可用时,有两个重要信息可以用来解释模型行为;即(i)内部激活和(ii)反向传播梯度。
基于神经元激活的技术
有一系列方法强烈依赖于模型内部神经元的激活值来解释它们的预测。但需要强调的是,激活可能不是这些方法使用的唯一内部信息。
显著性方法:一个流行的技术流使用模型的内部神经元激活来计算输入的显著性图,作为视觉解释。类激活映射(CAM)[Zhou等人,2016]是这方面最早的方法之一,它使用全局平均池化神经元激活来弱定位输入中的目标,以进行显著性映射。Oquob等人[2015]将最大池神经元用于类似目的。尽管存在多种其他基于激活的显著性映射技术,GradCAM[Selvaraju等人,2017]是一项里程碑式的工作,它将模型梯度与其内部神经元的激活相结合,以计算显著性映射。GradCAM的多种变体已出现在文献中,例如Grad-CAM++[Chattopadhay等人,2018年]、Score CAM[Wang等人,2020年]、Smooth GradCAM++[Omeiza等人,2019年],所有这些变体都使用神经元激活信号。通常,模型的内部层的激活图的大小与输入之间存在很大的差异。这需要对激活信号进行插值以计算最终的显著性图,这导致图的分辨率差。最近,Jalwana等人[2021]使用CAMERAS方法解决了这一弱点,该方法使用多尺度映射进行高分辨率显著性映射。
尽管已有大量基于激活的显著性映射方法,但我们仍然经常看到沿着这一研究路线出现的新技术。另一方面,还有许多其他流行的经典技术,例如分层关联传播(LRP)[Bach等人,2015]、DeepLift[SShrikumar等人,2017],它们依赖于多层的激活来计算显著性图。随着视觉建模的范式转向有利于Transformer,这些经典方法也在扩展,以解释基于Transformer的模型[Ali等人,2022年]。
神经元概念关联方法:虽然CBMs等技术[Koh等人,2020]通过设计鼓励神经概念关联,但论文也找到了旨在以事后方式识别这种关联的方法。例如,Bau等人[2017]旨在量化模型神经元和已知语义概念之间的对齐。类似地,Mu等人[2020]搜索由多义神经元学习的概念组成定义的逻辑解释形式。[Wang等人,2022]中还开发了一种神经元概念解释器,它利用了显著性图和Shapley值。此前,[Ghorbani和Zou,2020]还利用神经元的Shapley值来分析神经元对给定输出的重要性。另一方面,流行的TCAV方法也使用激活[Kim等人,2018]来识别神经元对给定概念集的敏感性。
基于反向传播的方法
在现代深度神经网络中,在现代深度神经网络中,模型相对于输入的梯度被广泛认为是其系数的自然模拟。论文发现了一系列利用反向传播模型梯度进行解释的方法。Simonyan等人[2014]是第一批使用模型梯度估计预测的输入特征相关性的人。Guidedbackpropagation[Springenberg等人,2015年]、smoothGrad[Smilkov等人,2017年]、fullGrad[Srinivas和Fleuret,2019年]以及后来文献中使用反向传播梯度来估计特征归因得分的多种其他方法。值得注意的是,其他类型的方法有时也采用了反向投影梯度。例如,例如Grad CAM、CAMERAS,也使用模型梯度。然而,这些梯度不会完全传播回输入。
在主要依赖于反向传播梯度的方法中,有一个重要的子类路径归因方法。受博弈论的启发,这些方法累积由输入和参考图像之间的路径定义的图像的反向传播梯度,其中参考图像表示输入中没有特征。Sundrarajan等人[2017]的开创性工作声称,路径归属策略可以为解释保留某些理想的公共特性。他们的主张最近在[Londstrom等人,2022年]中得到进一步证实。最初的工作启发了一系列使用路径归属框架的方法[Yang等人,2023],[Erion等人,2021]。然而,Stumfels等人[2020]也注意到,路径归因策略可能会受到参考图像本身产生的某些伪影的影响。论文仔细检查发现,尽管这些方法具有公共特性,但有时计算出的结果与直觉相反。此外,文献往往无法确定最终方法实际上保留了所声称的特性。
评价指标
评估模型解释工具的性能并不简单。由于解释概念的抽象主观性质和缺乏基本事实,客观评估方法的性能需要量化计算解释的多个方面。因此,目前正在积极开发评估解释方法的指标。论文从不同的贡献中挖掘出许多指标,并根据它们量化的解释特性对其进行组织。
量化模型保真度
对模型的解释的真实性是解释捕捉模型真实行为的程度的量度。这是计算解释的最基本属性。广义地说,量化该特性的度量依赖于估计输入特征(通过解释方法计算)的相关性和当这些特征被扰动/移除时输出变化之间的某种形式的相关性。核心直觉是,对于一个模型的忠实解释,输出变化对于更相关特征的扰动应该更强。
作为评估模型保真度的早期示例,Bach等人[2015]开发了一种像素翻转度量,其中通过翻转具有高(绝对)分数的输入像素来观察预测分数的变化来评估保真度。该度量后来在[Samek等人,2016]中被推广到区域扰动,其中来自均匀分布的随机样本被用于扰动一组输入像素,以分析对预测的影响。类似地,Alvarez等人[2018]从输入中移除了像素,并测量了预测分数和归因分数之间的相关性。在[Ancona等人,2017]中,提出了SensitivityN度量,以测量计算的像素属性子集的和与相应像素受到扰动时预测的变化之间的相关性。这一概念在[Yeh et al.,2019]中得到了进一步的推广,将不真实性度量作为输入扰动对归因的点积与扰动导致的预测变化之间的预期差异。
上述度量的关键策略是扰动(或移除)输入特征并分析对输出的影响。然而,Hooker等人[2019]表明,这导致了模型的分布偏移问题,因为它们的训练过程不考虑任何像素移除或扰动。这会影响评估指标的可靠性。因此,他们建议在删除修改后的训练数据上的每个像素之后迭代地重新训练模型。由于其全局性(就训练数据而言),他们的移除和重新训练(ROAR)是被广泛采用的度量之一。然而它的评估在计算上可能是禁止的。为了解决这一问题,Rong等人[2022]提出了一个Remove and Debias(ROAD)度量,该度量通过去偏置步骤避免了再训练。作者声称,当首先移除最相关的像素或首先移除最不相关的像素时,ROAR得分之间的一致性具有理想的特性——ROAR没有表现出这种特性。
尽管模型保真度存在多种度量,但仍然没有一个统一的度量被认为能够准确、全面地量化这一特性。新兴的相关趋势包括结合现有指标[Yang等人,2023]和量化模型保真度与其他财产,例如计算属性的一致性和充分性[Dasgupta等人,2022]或提出新的设置来评估该属性[Rao等人,2022]。对该特性进行全面可靠的评估仍然是视觉领域面临的挑战。
量化定位能力
准确的解释必须为前景目标特征赋予高度相关性。这种直觉导致了一系列旨在量化解释绩效的指标。他们的关键思想是测量计算出的相关性分数与包含感兴趣目标的边界框、分割掩码或网格单元的关联程度。从这个意义上说,我们可以将它们视为定位量化指标。
Pointing game[Zhang等人,2018年]是这方面的流行示例之一,它计算位于前景目标上的每个样本的最相关像素的百分比。类似地,Kohlbrenner等人[2020]提出了一种属性定位度量,该度量计算输入中归因于前景目标的累积相关性分数的分数。在[Arras等人,2022]中,同样的度量被称为相关性质量,其中还引入了另一个相关性等级度量,该度量估计了与前K个相关像素共同的目标掩码像素的分数,其中K是掩码大小。在[Arras等人,2022年]中,使用不同数据样本的马赛克来量化分配给前景目标的相关性分数。
尽管基于定位的度量可以利用GT,但其目标对模型保真度是不可知的。无论模型的实际行为如何,对前景进行更强归因的解释方法将获得这些指标的更高分数。因此,仅依赖基于定位的度量可能会产生误导。
量化稳定性
当输入仅发生轻微变化时,正确的解释不应发生剧烈变化。根据这种直觉,已经出现了多种度量,这些度量量化了计算解释的某种形式的稳定性。例如,Avarez等人[2018]测量了解释的局部Lipschitz连续性,以观察其稳定性。类似地,Motavon等人[2018]计算了两个输入的解释之间的最大“L1距离”,通过它们之间的欧几里德距离归一化,以观察解释稳定性。在[Yeh等人,2019]中,考虑了对邻域输入解释之间的最大距离的估计,以量化稳定性。Dasgupta等人[2022]量化了相似样本解释之间的相似性概率。在[Agarwal等人,2022年]中,根据输入、模型嵌入和模型输出逻辑估计了解释的相对变化,以提出三种稳定性度量,即:相对输入稳定性、相对表示稳定性和相对输出稳定性。作者主张放弃模型是黑箱的假设(对于黑箱方法),并建议利用完整的模型信息,以确保对解释方法进行更可靠的评估。
尽管稳定性的概念在不同的论文中都有相同的理解,但论文在其命名约定中没有找到共识。例如,稳定性在[Montavon等人,2018]中称为连续性,在[Yeh等人,2019]中称为敏感性,在[Dasgupta等人,2022]中称为一致性。还值得强调的是,当前流行的稳定性概念是以所讨论的模型是平滑的假设为基础的。不遵循该假设的模型解释的稳定性度量可能存在问题。
评估其他理想的特性
除上述之外,论文还在文献中发现了一些其他指标,这些指标解决了解释的其他理想特性。总结如下:
简洁:有效的解释应该简洁。根据这种直觉,Chalasani等人[2020]通过使用基尼指数估计解释的稀疏性来量化解释的简洁性,而Bhatt等人[2202]使用解释的输入特征的分数贡献分布来评估解释的复杂性,以测量简洁性。类似地,Nguyen等人[2020]也测量了解释的有效复杂性,其中低复杂性意味着较少依赖更多的输入特征。同样,尽管原著使用了不同的命名约定,但它们都关注简洁性。
健全性保存:Adeboya等人[2018]首次表明,多个显著性映射方法无法通过基本的健全性保存(sanity preservation)。此后,健全性保存通常被用作显著性方法的评估标准[Jalwana等人,2021]。级联随机化[Adebyo等人,2018]是这方面的常见测试,它以级联方式改变模型权重,以直观地观察这种随机化对计算解释的影响。Sixt等人[2020]还提出了基于反向传播的方法的测试,该方法观察了随机化后一层对解释的影响。此类健全性保存测试通常可以被视为其他财产的方便定性(在某些情况下,是定量)测量,例如模型保真度。
公共特性:在上面,我们能够系统地组织评估指标。这是因为这些指标基本上是为了评估解释的特定特性而开发的。然而,这些特性本身仍然是抽象的概念。相比之下,有一些特性具有具体的数学定义,例如完整性、线性、输入不变性[Sundararajan等人,2017],[Kindermans等人,2019]。衡量解释满足这些公共特性的程度也被用作评估标准。然而,它与博弈论启发的路径归因方法更相关[Sundararajan等人,2017]。论文参考[Lundstrom等人,2022]了解公共特性的详细信息。最近,Khakzar等人[2022]还提出了一个实证框架,该框架使用多个非博弈论公理来评估解释。
挑战和未来方向
解释的概念是抽象和主观的。其不明确的性质给研究界带来了多重挑战,尤其是在视觉领域,感知数据的定性方面甚至混淆了解释的目标。通过对视觉模型XAI的首次文献综述,我们能够确定该方向的关键挑战。下面列出了这些解决方案,并指出了可能的解决方案。
不处理模型不透明度的事后方法:XAI深度学习的目的是解决模型的黑盒性质。然而,尽管使用事后技术解释了模型预测,但该模型仍保持了几乎相同的不透明度水平,因为该解释仅涉及单个样本。当前的文献以事后技术为主,这对这些方法所追求的计算输入特定解释的当前目标提出了疑问。理想情况下,这种主要的方法流也应该通过解释它们的一般行为来帮助降低模型的不透明度。最近,[Akhtar和Jalwana,2023]中报告了这方面的有趣结果,其中计算了显著性图,以以输入不可知的方式捕捉模型对一般几何模式的敏感性。我们可以期待未来的后期技术进一步探索这一概念。
相关性与因果关系:通常情况下,“相关性不是因果关系”。当前视觉领域的文献主要将解释问题视为计算输入特征和模型预测之间的相关性。例如,显著性图简单地突出了与模型预测具有高度相关性的图像区域。更好的相关性也是提高模型保真度得分的标准。虽然有用,但仅凭相关性不足以真正解释该模型。一方面,必须开发解释因果关系的技术;另一方面,我们需要评估指标来衡量现有方法的因果能力。我们预计这些方法将比现有方法更复杂,评估指标将更全面。激励域不匹配:视觉数据有其独特的性质。顺便说一句,许多解释视觉模型的技术都受到其他领域的启发。例如,基于路径的方法和公共特性评估都有游戏理论根源。同样,Shapely价值观[Shapley,1997]是与经济相关的概念。视觉领域和激励领域之间的固有不匹配可能会导致问题。然而,这方面在文献中经常被忽视。例如,在基于路径的方法中,很难定义图像中特征的“缺失”,以正确识别该图像的“参考”。这在其他博弈论应用中不是问题。有趣的是,我们还看到,由现有基于路径的方法计算的最终属性映射很少在严格意义上表现出广受欢迎的公共特性。未来的探索必须努力解决这些领域不匹配问题,以使解释可靠。
性能与透明度的两难选择:事实上,论文发现一种趋势,即更多人类可理解的模型性能更低。不考虑可解释性的模型目前是视觉领域的佼佼者。这一观察结果很可能是一个主要的原因,因为人们普遍认为,可解释性和表现之间存在着相反的关系。然而,论文在当前的文献中没有发现分析(或更系统地)强化或反驳这一观点的严谨研究。一些领先的视觉研究实验室甚至认为,在实践中,解释能力是不必要的。然而,有关人工智能开发和部署的监管机构一致认为,系统需要透明/可解释。解决这一矛盾局面需要对“性能与透明度”的困境进行全面调查。我们可以预见未来会有一些研究活动来解决这个问题。
方法和度量的一致性:由于一般解释性任务缺乏具体的依据,因此很难对方法进行评估。可用评估指标的不一致进一步加剧了这一问题。例如,一些此类指标的统计不可靠性和不一致性已在[Tomsett等人,2020]中得到证明。在这些指标下,显著性方法的比较排名是不可信的。同时,众所周知,解释方法本身有时无法通过基本的健全性保存[Adebyo等人,2018]。问题的这种危险性需要进一步的研究,充分关注每一个子问题。与其在提出新的解释方法(文献中的一个普遍趋势)的同时对评估指标做出微小贡献,还需要充分关注设计评估指标和方案的彻底工作。显然,还需要发明技术,为评估提供基本事实。
参考
[1] A Survey of Explainable AI in Deep Visual Modeling: Methods and Metrics
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)