神经网络是否建模了清晰、符号化的概念表征
有了这一指标,我们进一步探索上面提到的核心问题:神经网络是否真的能从训练任务中总结出清晰的、符号化的、概念化的表征?所定义的交互概念真的能表示一些有意义的 “知识”,还是仅仅是一个纯粹从数学上凑出来的没有明确意义的 tricky metrics?为此,我们从以下四个方面回答这一问题 —— 符号化概念化的表征应当满足稀疏性、样本间迁移性、网络间迁移性,以及分类性。
要求一(概念稀疏性):神经网络所建模的概念应当是稀疏的
不同于连结主义,符号主义的一个特性在于人们希望用少量的、稀疏的概念来表示网络学到的知识,而不是用大量、稠密的概念。实验中我们发现,在大量潜在概念中,仅有非常少量的显著概念。即大部分交互概念的交互效用 I (S) 趋近于 0,故可以忽略,仅有极少量的交互概念有较显著的交互效用 I (S),这样神经网络的输出仅仅决定于少量概念的交互效用。换句话说,神经网络对于每个样本的推断可以被简洁地解释为少量显著概念的效用。
要求二(样本间迁移性):神经网络所建模的概念在不同样本间应当具有迁移性
在单个样本上满足稀疏性是远远不够的,更重要的是,这些稀疏的概念表达应当能够在不同样本之间互相迁移。如果同一个交互概念可以在不同样本中表征,如果不同样本总提取出类似的交互概念,那么这个交互概念更可能代表一种有意义的普适的知识。反之,如果大部分交互概念仅仅在一两个特定样本上有表征,那么这样所定义的交互更倾向于一个仅有数学定义但没有物理意义的 tricky metric。在实验中,我们发现,往往存在一个较小的概念字典,它能够解释神经网络为同类别样本所建模的大部分概念。
我们也可视化了一些概念,并且发现,相同的概念通常对不同的样本产生类似的效果,这也验证了概念在不同样本之间的迁移性。
要求三(网络间迁移性):不同神经网络所建模的概念之间应当具有迁移性
类似地,这些概念应当能够被不同的神经网络稳定地学到,无论是不同初始化的网络,还是不同架构的网络。虽然神经网络可以设计为全然不同的架构,建模不同维数的特征,但是如果不同的神经网络面对同一个具体任务可以实现『殊途同归』,即如果不同神经网络都可以稳定地学习到类似的一组交互概念,那么我们可以认为这组交互概念是面向这个任务的根本的表征。比如,如果不同的人脸检测网络都不约而同地建模了眼睛、鼻子、嘴之间的交互,那么我们可以认为这样的交互是更 “本质的”“可靠的”。在实验中,我们发现,越显著的概念越容易被不同的网络同时学到,相对比例的显著交互是被不同神经网络所共同建模的。
要求四(概念分类性):神经网络所建模的概念应当具有分类性
最后,对于分类任务而言,如果一个概念具有较高的分类性,那么它应当为大多数样本上的分类起到一致的正向作用(或是一致的负向作用)。较高的分类性可以验证这个概念可以独立地承担分类任务,从而更大可能的是一个可靠的概念,而不是不成熟的中间特征。我们同样设计了实验来验证这一性质,发现神经网络建模的概念往往具有较高的分类性。
综上所述,上面的四个方面表明,在大部分情况下,神经网络的表征是清晰的、稀疏的、符号化的。当然,神经网络也并不是每时每刻都能够建模这种清晰、符号化的概念,在少数极端情况下,神经网络学不到稀疏、可迁移的概念,具体请看我们的论文 [2]。
此外,我们还利用此交互来解释了大模型[22]。
神经网络的符号化表征在神经网络可解释性中的意义
1. 从可解释性领域发展的角度来看,最直接的意义就是为 “概念层面解释神经网络” 找到了一定的依据。如果神经网络本身的表征都不是符号化的,那么从符号化概念层面对神经网络的解释就只能是隔靴搔痒,解释的结果一定是似是而非的,并不能实质性的推导深度学习进一步的发展。2. 从 2021 年开始,我们逐步构建了一个基于博弈交互的理论体系。发现基于博弈交互,我们可以统一解释两个核心问题 “怎样量化神经网络所建模的知识” 和 “怎样解释神经网络的表征能力”。在 “怎样量化神经网络所建模的知识” 方向上,除了本文提到的两个工作之外,课题组的前期工作已经基于博弈交互概念指标,来定义 Shapley value 的最优基准值 [13],并探索视觉神经网络所建模的『原型视觉概念』及其『美观度』[7,8]。3. 在 “怎样解释神经网络的表征能力” 方向上,课题组证明了神经网络对不同交互的表征瓶颈 [6],研究了神经网络如何通过其所建模的交互概念来确定其泛化性 [12,19],研究神经网络所建模的交互概念与其对抗鲁棒性和对抗迁移性的关系 [9,10,11,20],证明了贝叶斯神经网络更难以建模复杂交互概念 [21]。
更多阅读请参考:https://zhuanlan.zhihu.com/p/264871522/
参考文献[1] Ren et al. “Can we faithfully represent masking states to compute Shapley values on a DNN?”in CVPR 2023[2] Li et al. “Does a Neural Network Really Encode Symbolic Concepts?” in arXiv:2302.13080[3] Rudin, Cynthia. “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead.” Nature machine intelligence (2019): 206-215. URL: https://www.nature.com/articles/s42256-019-0048-x[4] Zhang et al. “Interpreting multivariate Shapley interactions in DNNs.” AAAI 2021. Vol. 35. No. 12. 2021. URL: https://arxiv.org/abs/2010.05045 Zhihu blog: https://zhuanlan.zhihu.com/p/264953129[5] Zhang et al. “Building interpretable interaction trees for deep NLP models.” AAAI 2021. URL: https://arxiv.org/abs/2007.04298. Zhihu blog: https://zhuanlan.zhihu.com/p/264953129[6] Deng et al. “Discovering and explaining the representation bottleneck of DNNs.” ICLR 2022. URL: https://arxiv.org/abs/2111.06236 Zhihu blog: https://zhuanlan.zhihu.com/p/422420088[7] Cheng et al. “A game-theoretic taxonomy of visual concepts in dnns.” arXiv:2106.10938 (2021). URL: https://arxiv.org/abs/2106.10938 Zhihu blog: https://zhuanlan.zhihu.com/p/386548661[8] Cheng et al. “A hypothesis for the aesthetic appreciation in neural networks.” arXiv:2108.02646 (2021). URL: https://arxiv.org/abs/2108.02646 Zhihu blog: https://zhuanlan.zhihu.com/p/395709713[9] Wang et al. “A unified approach to interpreting and boosting adversarial transferability.” ICLR 2021. URL: https://arxiv.org/abs/2010.04055 Zhihu blog: https://zhuanlan.zhihu.com/p/369883667[10] Ren et al. “A unified game-theoretic interpretation of adversarial robustness.” NeurIPS 2021. URL: https://arxiv.org/abs/2111.03536 Zhihu blog: https://zhuanlan.zhihu.com/p/361686461[11] Zhang et al. “Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability.” arXiv:2207.11694 (2022). URL: https://arxiv.org/abs/2207.11694 Zhihu blog: https://zhuanlan.zhihu.com/p/546433296[12] Zhang et al. “Interpreting and boosting dropout from a game-theoretic view.” ICLR 2021. URL: https://arxiv.org/abs/2009.11729. Zhihu blog: https://zhuanlan.zhihu.com/p/345561960[13] Ren et al. “Can We Faithfully Represent Masking States to Compute Shapley Values on a DNN?” ICLR 2023. URL: https://arxiv.org/abs/2105.10719 Zhihu blog: https://zhuanlan.zhihu.com/p/395674023[14] Bau et al. “Network dissection: Quantifying interpretability of deep visual representations.” CVPR 2017. URL: http://openaccess.thecvf.com/content_cvpr_2017/html/Bau_Network_Dissection_Quantifying_CVPR_2017_paper.html[15] Kim et al. “Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (TCAV).” ICML 2018. URL: http://proceedings.mlr.press/v80/kim18d.html[16] Shapley, L. S. A value for n-person games. Contributions to the Theory of Games, 2 (28):307–317, 1953.[17] Grabisch, M. and Roubens, M. An axiomatic approach to the concept of interaction among players in cooperative games. International Journal of game theory, 28 (4):547–565, 1999.[18] Sundararajan et al. "The Shapley Taylor interaction index." ICML 2020. URL: http://proceedings.mlr.press/v119/sundararajan20a.html[19] Zhou et al. “Concept-Level Explanation for the Generalization of a DNN” arXiv:2302.13091 (2023), URL: https://arxiv.org/abs/2302.13091[20] Wang et al. “Interpreting Attributions and Interactions of Adversarial Attacks” ICCV 2021.[21] Ren et al. “Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts” arXiv:2302.13095 (2023), URL: https://arxiv.org/abs/2302.13095
[22] Shen et al. "Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?"arXiv:2304.01083(2023), URL: https://arxiv.org/abs/2304.01083