重新审视AI,神经网络中概念符号涌现的发现与证明(1)

简介: 重新审视AI,神经网络中概念符号涌现的发现与证明


该研究发现在大部分情况下,神经网络的表征是清晰的、稀疏的、符号化的。


本文围绕近期的两项工作,讨论神经网络中符号概念的涌现现象,即『深度神经网络的表征是否是符号化的』的问题。如果我们绕开 “应用技术提升” 的视角,从 “科学发展” 的角度来重新审视 AI,证明 AI 模型中的符号涌现现象无疑是具有重大意义的。

1. 首先,目前大部分的可解释性研究都在试图将神经网络解释为一个 “清晰的”、“语义化的”、或 “逻辑化的” 模型。但是,如果无法证明神经网络的符号涌现,如果神经网络内在表征成分真的有大量的混乱成分,那么大部分的可解释性研究就失去了其基本事实依据。2. 其次,如果无法证明神经网络的符号涌现,深度学习的发展将会大概率困在 “结构”、“损失函数”、“数据” 等外围因素的层面,而无法直接高层的认知层面去实现知识层面的交互式学习。往这个方向发展需要更干净清晰的理论支撑。

因此,本文主要从以下三个方面介绍。

1. 如何去定义神经网络所建模的符号化概念,从而可靠地发现神经网络的符号涌现现象。2. 为什么所量化的符号化概念可以认为是可信的概念(稀疏性、对神经网络表征的 universal matching、迁移性、分类性、对历史解释性指标的解释)。3. 如何证明符号化概念的涌现 —— 即理论证明当 AI 模型在某些情况下(一个并不苛刻的条件),AI 模型的表征逻辑可以解构为极少数的可迁移的符号化概念的分类效用(这部分会在 4 月底公开讨论)。

论文地址:https://arxiv.org/pdf/2111.06206.pdf



论文地址:https://arxiv.org/pdf/2302.13080.pdf


该研究作者包括上海交通大学硕士二年级学生李明杰、上海交通大学博士三年级学生任洁,李明杰和任洁都师从张拳石老师。他们所在的实验室团队常年做神经网络可解释性的研究。对于可解释性领域,研究者可以从不同角度来分析,有解释表征的,有解释性能的,有相对可靠合理的,也有不合理的。但是,深入讨论下去,对神经网络的解释有两个根本的愿景,即「能否清晰且严谨地表示出神经网络所建模的概念」「能否准确解释出决定神经网络性能的因素」。

在「解释神经网络所建模的概念」这一方向上,所有研究者都必须面对的一个核心问题 ——“神经网络的表征到底是不是符号化概念化的”。如果这个问题回答不清楚,那么后续的研究很难进行 —— 如果神经网络的表征本身都是混乱的,然后研究者强行用一堆 “符号化的概念” 或 “因果逻辑” 去解释,这样一来方向就错了?对神经网络符号化表征的假设,是进行深入研究该领域的基础,但是对此问题的论证往往让人无从下手。

大部分研究者对神经网络的第一直觉是 “它不可能是符号化的吧?” 神经网络毕竟不是图模型。在一篇由 Cynthia 等人撰写的论文中《Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead》 [3],,让人们误以为对神经网络的事后解释(post-hoc explanation)天然地是不可靠的。


那么,神经网络内在表征真的是非常混乱的?而不是清晰的、稀疏的、符号化的吗?围绕这个问题,我们定义了博弈交互 [4,5],证明了神经网络表征瓶颈 [6],研究了神经网络对视觉概念表征的特点 [7,8],从而证明了交互概念与神经网络泛化和鲁棒性的关系 [9,10,11,12],进而完善了沙普利值 [13],但是实验室前期仅仅围绕 “符号化表征” 核心的周边进行探索,始终无法直接探索神经网络表征是否是符号化的

这里我们先说结论 —— 在大部分情况下,神经网络的表征是清晰的、稀疏的、符号化的。这个结论背后有大量的理论证明,以及大量的实验论证。在理论方面,我们目前的研究证明了一些可以支撑 “符号化” 的特性,但是目前证明还不足以对 “符号化表征” 给出严谨明确的解答。未来几个月,我们会有更加严谨、全面的证明。

如何定义神经网络所建模的概念

在分析神经网络之前,我们需要明确 “如何定义网络所建模的概念”。实际上,对于这一问题,之前已经有了相关研究 [14,15],并且实验结果也比较优异 —— 但是,我们认为,“概念” 的定义在理论上应有 “严谨性” 的数学保证。

因此,我们在论文 [1] 中定义了 I(S) 这一指标,用来量化概念 S 对于网络输出的效用,这里 S 指的是组成这一概念的所有输入变量的集合。例如,给定一个神经网络和一个输入句子 x=“I think he is a green hand.”,每个单词可以看成网络的其中一个输入变量,句中的三个词 “a”,“green”,“hand” 可以构成一个潜在的概念 S={a,green,hand}。每个概念 S 表示了 S 中输入变量之间的 “与” 关系:当且仅当 S 中的输入变量全部出现时,这一概念才被触发,从而为网络输出贡献 I (S) 的效用。而当 S 中任意变量被遮挡时,I (S) 这部分效用就从原本的网络输出中移除了。例如,对于 S={a,green,hand} 这一概念,如果把输入句子中的 “hand” 一词遮挡,那么这一概念就不被触发,网络输出中也不会包含这一概念的效用 I (S)。

我们证明了神经网络输出总可以被拆分为所有触发概念效用之和。即在理论上,对于一个包含 n 个输入单元的样本,最多有 种不同的遮挡方式,我们总可以用『少量概念』的效用来『精确拟合』神经网络『所有种』不同遮挡样本上的输出值,从而证明了 I (S) 的『严谨性』。下图给了一个简单的例子。



进一步,我们在论文 [1] 中证明了 I (S) 满足博弈论中 7 条性质,进一步说明了这一指标的可靠性。


除此以外,我们还证明了博弈交互概念 I (S) 能够解释博弈论中大量经典指标的基本机理,比如 Shapley value [16]、Shapley interaction index [17],以及 Shapley-Taylor interaction index [18]。具体地,我们可以将这三种指标表示为交互概念的不同线性和的形式。


实际上,课题组的前期工作已经基于博弈交互概念指标来定义 Shapley value 的最优基准值 [13],并探索视觉神经网络所建模的『原型视觉概念』及其『美观度』[8]。


相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
801 56
|
2月前
|
存储 人工智能 测试技术
手把手带你入门AI智能体:从核心概念到第一个能跑的Agent
AI智能体是一种能感知环境、自主决策并执行任务的人工智能系统。它不仅能生成回应,还可通过工具使用、计划制定和记忆管理完成复杂工作,如自动化测试、脚本编写、缺陷分析等。核心包括大语言模型(LLM)、任务规划、工具调用和记忆系统。通过实践可逐步构建高效智能体,提升软件测试效率与质量。
|
1月前
|
机器学习/深度学习 人工智能
生成式AI的创造性核心:涌现能力从何而来?
生成式AI的创造性核心:涌现能力从何而来?
319 119
|
3月前
|
人工智能 安全 网络安全
2025攻防演习回顾,AI赋能下的网络安全新格局
网络安全实战攻防演习历经9年发展,已成为检验安全体系、洞察威胁趋势的重要手段。攻击呈现实战化、体系化特征,APT、0day、勒索攻击等手段升级,AI、大数据等新技术带来新风险。攻击入口多元化、工具智能化、API成重点目标,“AI+人工”协同攻击加剧威胁。面对挑战,企业需构建纵深防御体系,从被动防御转向主动对抗。瑞数信息通过动态安全技术与AI融合,实现0day防护、漏扫干扰、勒索应急等能力,打造WAAP超融合平台,助力关键基础设施构建智能、协同、前瞻的主动防御体系。
370 1
|
2月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
192 10
|
2月前
|
人工智能 运维 安全
AI来了,网络安全运维还能靠“人海战术”吗?
AI来了,网络安全运维还能靠“人海战术”吗?
229 28
|
2月前
|
人工智能 安全 网络安全
从不确定性到确定性,“动态安全+AI”成网络安全破题密码
2025年国家网络安全宣传周以“网络安全为人民,靠人民”为主题,聚焦AI安全、个人信息保护等热点。随着AI技术滥用加剧,智能化攻击频发,瑞数信息推出“动态安全+AI”防护体系,构建“三层防护+两大闭环”,实现风险前置识别与全链路防控,助力企业应对新型网络威胁,筑牢数字时代安全防线。(238字)
153 1
|
1月前
|
机器学习/深度学习 人工智能 监控
上海拔俗AI软件定制:让技术真正为你所用,拔俗网络这样做
在上海,企业正通过AI软件定制破解通用化难题。该模式以业务场景为核心,量身打造智能解决方案,涵盖场景化模型开发、模块化架构设计与数据闭环优化三大技术维度,推动技术与业务深度融合,助力企业实现高效、可持续的数字化转型。