架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息

简介: 架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息

本文中,剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。然后使用 V-information 来量化这个数量。通过评估流行的 transformer 语言模型注意力机制,该研究发现关于句子的语法树信息大部分都可以由模型提取。然而,对于随机初始化的 transformer 模型而言,情况并非如此。因此,该研究得出结论,对 transformer 的训练会导致注意力头具有解码语法树的潜力。

预训练语言模型在各种自然语言处理任务上的惊人表现,引起了人们对其分析的兴趣。Probing 是进行此类分析所采用的最普遍的方法之一。在典型的 probing 研究中,probing 是一个插在中间层的浅层神经网络,通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对 probing 进行训练和验证,以发现是否捕获了此类辅助信息。


一般来讲,研究者首先冻结模型的权重,然后在模型的上下文表示的基础上训练probe,从而预测输入句子的属性,例如句法解析(其对句子结构进行分析,理清句子中词汇之间的连接规则)。不幸的是,关于如何设计此类 probe 的最佳实践仍然存在争议。


一方面,有研究者倾向于使用简单的 probe,这样就可以将 probe 与 NLP 任务区分开来;另一方面,一些人认为需要复杂的 probe 才能从表示中提取相关信息。此外,还有一些人考虑折中的方法,主张将复杂性 - 准确性帕累托曲线上的 probe 考虑在内。


本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。



论文地址:https://arxiv.org/pdf/2211.06420.pdf


举例来说,该研究假设 transformer 的注意力头是其使用句法信息的瓶颈,因为这是 transformer 中唯一可以同时访问多个 token 的组件。根据 ABP,该研究提出注意力 probe,就像注意力头一样。该 probe 回答了这样一个问题:transformer 在计算其注意力权重时可以使用多少句法信息?


结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。


注意力 Probe


目前,有许多方法用来设计有效的 probe,分类原则大致包括:线性原则、最大信息原则、易提取原则,此外还包括本文提出的 ABP 原则。


可以说 ABP 将前三个原则联系起来。最重要的是,ABP 泛化了线性原则、最大信息原则,此外,ABP 还通过限制 probe 的容量来隐式控信息制提取的难易程度。


该研究重点关注 transformer 注意力机制。此前研究人员曾断言,在计算注意力权重时,transformer 会使用句法信息。此外,注意力头是 transformer 中唯一可以同时访问多个单词的组件。因此,在注意力头的背景下探索 ABP 是一个自然的起点。具体而言,根据 ABP,我们可以研究 transformer 的注意力头可以从输入表示中提取多少信息。


实验结果


对于数据,研究者使用了通用依赖(UD)树库。他们分析了四种不同类型的语言,包括巴斯克语、英语、泰米尔语和土耳其语。此外,研究者将分析重点放在未标记的依赖树上,并注意到 UD 使用特定的句法形式,这可能会对结果造成影响。


对于模型,研究者探讨了以上四种语言的多语言 BERT 以及仅支持英语的 RoBERTa 和 ALBERT。根据 ABP,他们保持 probe 的隐藏层大小与 probed 架构中的相同。最后,他们还将一个具有与 BERT 相同架构的未训练 transformer 模型作为基线。


下图 1 展示了主要结果。首先,研究者的 probe 估计大多数句法信息可以在中间层提取。其次,大量句法信息在馈入注意力头的表示中进行编码。虽然他们估计使用英语、泰米尔语和巴斯克语句子编码的信息接近 31 bits,但使用土耳其句子编码的信息约为 15 bits。研究者怀疑这是因为土耳其语在语料库中的句子最短。



研究者还发现,句子中的几乎所有句法信息都可用于考虑中的基于 transformer 的模型。例如在英语中,他们发现信息量最大的层在 BERT、RoBERTa 和 ALBERT 中的 V 系数分别为 90%、82% 和 89%,具体如下表 1 所示。这意味着这些模型可以访问一个句子中约 85% 的句法信息。不过未训练的 BERT 表示并不适合这种情况。



最后,研究者将 BERT 的注意力权重(通过其预训练的注意力头计算)直接插入到原文公式 (8) 并分析产生的未标记附件分数。英语相关的 BERT 结果如下图 2 所示。简言之,虽然注意力头可以使用大量的句法信息,但没有一个实际的头可以计算与句法树非常相似的权重。


但是,由于 BERT 有 8 个注意力头,因此可能以分布式方式使用句法信息,其中每个头依赖该信息的子集。


相关文章
|
16天前
|
安全 物联网 物联网安全
量子通信网络:安全信息交换的新平台
【10月更文挑战第6天】量子通信网络作为一种全新的安全信息交换平台,正逐步展现出其独特的优势和巨大的潜力。通过深入研究和不断探索,我们有理由相信,量子通信网络将成为未来信息安全领域的重要支柱,为构建更加安全、高效、可靠的信息社会贡献力量。让我们共同期待量子通信网络在未来的广泛应用和美好前景!
|
6天前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
67 0
|
8天前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
27 0
|
1月前
|
负载均衡 5G 网络性能优化
深入解析LTE(长期演进技术)的基本架构及其关键组件
深入解析LTE(长期演进技术)的基本架构及其关键组件
179 2
|
7天前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
17 9
|
8天前
|
消息中间件 监控 Java
大数据-109 Flink 体系结构 运行架构 ResourceManager JobManager 组件关系与原理剖析
大数据-109 Flink 体系结构 运行架构 ResourceManager JobManager 组件关系与原理剖析
21 1
|
11天前
|
存储 安全 开发工具
百度公共IM系统的Andriod端IM SDK组件架构设计与技术实现
本文主要介绍了百度公共IM系统的Andriod端IM SDK的建设背景、IM SDK主要结构和工作流程以及建设过程遇到的问题和解决方案。
34 3
|
14天前
|
SQL 安全 算法
网络安全与信息安全:构建数字世界的防线在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系社会秩序、保障个人隐私与企业机密的重要基石。本文旨在深入探讨网络安全漏洞的本质、加密技术的前沿进展以及提升安全意识的有效策略,为读者揭示数字时代下信息保护的核心要义。
本文聚焦网络安全与信息安全领域,详细剖析了网络安全漏洞的形成机理、常见类型及其潜在危害,强调了及时检测与修复的重要性。同时,文章系统介绍了对称加密、非对称加密及哈希算法等主流加密技术的原理、应用场景及优缺点,展现了加密技术在保障数据安全中的核心地位。此外,针对社会普遍存在的安全意识薄弱问题,提出了一系列切实可行的提升措施,如定期安全培训、强化密码管理、警惕钓鱼攻击等,旨在引导公众树立全面的网络安全观,共同构筑数字世界的安全防线。
|
16天前
|
测试技术 数据库 Android开发
深入解析Android架构组件——Jetpack的使用与实践
本文旨在探讨谷歌推出的Android架构组件——Jetpack,在现代Android开发中的应用。Jetpack作为一系列库和工具的集合,旨在帮助开发者更轻松地编写出健壮、可维护且性能优异的应用。通过详细解析各个组件如Lifecycle、ViewModel、LiveData等,我们将了解其原理和使用场景,并结合实例展示如何在实际项目中应用这些组件,提升开发效率和应用质量。
25 6
|
24天前
|
SQL 安全 网络安全
网络安全的盾牌:漏洞防御与信息加密技术
【9月更文挑战第27天】在数字时代,网络安全和信息安全成为维护数据完整性、保密性和可用性的关键因素。本文将探讨网络安全漏洞的概念、成因及预防措施,同时深入讨论加密技术在保护信息安全中的作用。通过分析安全意识的重要性和提升方法,旨在为读者提供一套全面的网络安全知识框架,以增强个人和组织对抗网络威胁的能力。
33 5