MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。

在深度学习领域,多头注意力机制一直是Transformer模型的核心组成部分,在自然语言处理和计算机视觉任务中取得了巨大成功。然而,研究表明并非所有的注意力头都具有同等重要性,许多注意力头可以在不影响模型精度的情况下被剪枝。基于这一洞察,这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,旨在提高注意力机制的效率,同时保持或超越先前的准确性水平。

研究的主要目的包括:

1、提出一种动态注意力头路由机制,使每个token能够自适应地选择适当的注意力头。

2、在不增加参数数量的情况下,提高模型性能和推理效率。

3、验证MoH在各种流行的模型框架中的有效性,包括Vision Transformers (ViT)、Diffusion models with Transformers (DiT)和Large Language Models (LLMs)。

4、探索将预训练的多头注意力模型(如LLaMA3-8B)继续调优为MoH模型的可能性。

方法改进

MoH的核心思想

MoH的核心思想是将注意力头视为混合专家机制(Mixture-of-Experts, MoE)中的专家。具体来说,MoH由以下部分组成:

多个注意力头: H = {H1, H2, ..., Hh},一个路由器: 激活Top-K个头,MoH的输出是K个选定头的输出的加权和:

其中gi表示路由分数,只有当第i个注意力头被激活时,gi才非零。

主要改进如下

共享头:

指定一部分头为始终保持激活的共享头。

在共享头中巩固共同知识,减少其他动态路由头之间的冗余。

两阶段路由:

路由分数由每个单独头的分数和与头类型相关的分数共同决定。公式如下:

其中hs表示共享头的数量,Ws和Wr分别表示共享头和路由头的投影矩阵。

负载平衡损失:

为避免不平衡负载,应用了负载平衡损失。公式如下:

总训练目标:

总训练损失是任务特定损失和负载平衡损失的加权和:

 L = Ltask + β * Lb

其中β是权衡超参数,默认设置为0.01。

MoH的优势

使每个token能够选择最相关的注意力头,提高推理效率。通过加权求和替代标准求和,增加了注意力机制的灵活性。无需增加参数数量即可提高模型性能。

实验设置

作者在多个流行的模型框架上评估了MoH的性能:

ViT用于图像分类:

在ImageNet-1K数据集上进行训练和评估。使用AdamW优化器,学习率为1e-3,权重衰减为0.05。训练300个epoch,使用余弦学习率调度器。

DiT用于类条件图像生成:

在ImageNet-1K数据集上进行256×256分辨率的类条件图像生成。使用AdamW优化器,固定学习率为1e-4,无权重衰减。使用指数移动平均(EMA)权重,衰减率为0.9999。

从头训练LLMs:

使用Megatron作为训练框架。在RedPajama、Dolma和Pile等公开数据集上进行训练。使用AdamW优化器,批量大小为400万个token,序列长度为2048。

继续调优LLaMA3-8B:

分两个阶段进行:

使用300B个token继续调优原始LLaMA3-8B模型。使用100B个token将调优后的模型转换为MoH模型。

使用AdamW优化器,批量大小为1600万个token,序列长度为8192。

实验结果

ViT图像分类结果

在ImageNet-1K分类基准测试中:

MoH-ViT-B在仅激活75%的注意力头的情况下,达到了84.9%的Top-1准确率。相比之下,基准模型TransNeXt在激活100%的头的情况下,准确率为84.8%。

MoH-ViT模型在减少激活的注意力头数量的同时,仍能保持或略微提升性能。即使在仅激活50%头的情况下,MoH-ViT-B的性能仍与使用全部头的TransNeXt-B相当。MoH方法在不同规模的模型中都表现出良好的适应性。

DiT类条件图像生成结果

在ImageNet-1K 256×256分辨率的类条件图像生成任务中:

MoH-DiT模型在激活90%的注意力头的情况下,持续优于原始DiT模型。然而,当仅激活75%的注意力头时,MoH-DiT模型的表现略逊于激活100%注意力头的DiT模型。

注:FID(Fréchet Inception Distance)越低越好,IS(Inception Score)越高越好。

这些结果揭示了以下几点:

在小型模型(DiT-S/2)中,MoH-DiT在激活90%头的情况下能够略微提升性能。对于大型模型(DiT-XL/2),MoH-DiT在各项指标上都显示出明显的优势。作者认为,图像生成任务对注意力头的依赖似乎比图像分类任务更强,这可能是由于需要捕捉更细粒度的像素级关系。

从头训练LLMs的结果

在多个语言任务基准测试中:

MoH-LLM-S在仅激活50%的注意力头的情况下,达到了45.4%的平均准确率。相比之下,基线模型在激活100%的注意力头的情况下,平均准确率为43.9%。

这表明MoH在大语言模型训练中也能有效提高性能和效率。

MoH-LLM在大多数任务中都能够在减少激活头数的同时保持或提升性能。在某些任务(如SciQ和TruthfulQA)上,MoH-LLM显示出明显的优势。对于较小的模型(LLM-S),激活50%的头似乎比激活75%的头效果更好,这可能是由于起到了一定的正则化作用。

继续调优LLaMA3-8B的结果

在14个基准测试中:

MoH-LLaMA3-8B在仅使用75%的注意力头的情况下,达到了64.0%的平均准确率。这比原始LLaMA3-8B模型高出2.4个百分点。

这一结果证明,预训练的多头注意力模型可以成功地继续调优为MoH模型,大大提高了MoH方法的适用性。

MoH-LLaMA3-8B在大多数任务上都超越了原始LLaMA3-8B模型,特别是在CEVAL、CMMLU和TruthfulQA等任务上表现突出。在某些任务(如PIQA和NQ)上,MoH-LLaMA3-8B的性能略有下降,这可能是由于这些任务对特定类型的知识更为敏感。

总体而言,MoH-LLaMA3-8B在仅使用75%注意力头的情况下,平均性能提升了2.4个百分点,这是一个显著的改进。

MoH-LLaMA3-8B在继续调优过程中的性能演变

消融实验

作者进行了一系列消融实验,以评估MoH中各个组件的重要性:

这些结果表明:

共享头机制显著提升了模型性能,可能是因为它有效捕捉了常见知识。两阶段路由进一步微调了性能,提供了更灵活的注意力分配策略。

作者还探讨了共享头比例对性能的影响:

这表明模型性能在较广范围的共享头比例下保持稳定,为实际应用提供了灵活性。

最后作者对MoH模型中注意力头的使用情况进行了深入分析。如图3所示,不同类别和任务主题的注意力头分配存在显著差异。

这表明:

MoH模型能够根据不同的任务类型自适应地分配注意力资源。某些头可能专门处理特定类型的信息或特征。这种动态分配机制使得参数利用效率高于标准的多头注意力。

讨论与未来方向

MoH与MoA的比较

作者指出了MoH与之前提出的Mixture-of-Attention (MoA) 方法的几个关键区别:

动机不同:MoH旨在提高注意力机制的效率和性能,而不增加参数数量。MoA则更类似于MoE,目标是在保持推理成本低的同时扩展模型参数。

方法学差异

MoH引入了共享头和两阶段路由来增强标准MoE方法。MoH证明了预训练的多头注意力模型可以继续调优为MoH模型,大大提高了其适用性。MoA直接将多头注意力与MoE结合,并且由于采用共享键和值,必须从头训练。

应用范围:MoH在多个模型框架(ViT、DiT、仅解码器LLMs)和任务上进行了验证,而MoA仅在编码器-解码器架构的语言任务上进行了验证。

局限性与未来工作

  1. 异构注意力头:探索在MoH框架中使用不同隐藏大小的注意力头。
  2. 更低的激活率:目前MoH使用50%~90%的注意力头就能超越多头注意力。未来工作可以尝试进一步降低激活率。
  3. 多模态输入:研究MoH在处理不同模态输入(如视觉和文本)时的注意力模式。
  4. 更多下游任务:在更广泛的任务中评估MoH的性能,如音频处理和多模态任务。
  5. 更大规模模型:将MoH扩展到参数量超过8B的更大模型中。

总结

MoH作为多头注意力的改进版本,在多个任务和模型框架中展现出了卓越的性能和效率。通过引入动态路由机制、共享头和两阶段路由等创新,MoH能够在减少激活头数的同时保持或提升模型性能。特别是MoH能够成功地应用于预训练模型的继续调优,这大大增强了其实用性。

作者认为MoH为开发更先进和高效的基于注意力的模型奠定了坚实的基础,有望在学术研究和工业应用中产生深远影响。未来的工作将进一步探索MoH的潜力,包括在更多样化的任务、更大规模的模型和多模态场景中的应用。

https://avoid.overfit.cn/post/41a8250d1e4c420cafb23ecfb07b073d

目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 并行计算
大模型开发:什么是Transformer架构及其重要性?
Transformer模型革新了NLP,以其高效的并行计算和自注意力机制解决了长距离依赖问题。从机器翻译到各种NLP任务,Transformer展现出卓越性能,其编码器-解码器结构结合自注意力层和前馈网络,实现高效训练。此架构已成为领域内重要里程碑。
217 2
|
3天前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
37 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
6天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
30 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
BERT的继任者ModernBERT:融合长序列处理、代码理解与高效计算的新一代双向编码器
ModernBERT 是一个全新的模型系列,在**速度**和**准确性**两个维度上全面超越了 BERT 及其后继模型。
37 9
|
1月前
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
64 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
29天前
|
机器学习/深度学习 自然语言处理 语音技术
揭秘深度学习中的注意力机制:兼容性函数的深度解析
揭秘深度学习中的注意力机制:兼容性函数的深度解析
|
4月前
|
数据采集 人工智能 编解码
抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法
【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]
63 1
|
5月前
|
测试技术 计算机视觉 网络架构
【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升
【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升
|
6月前
|
机器学习/深度学习 人工智能
ACL 2024:提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
【6月更文挑战第8天】哈工大和度小满在ACL 2024会议上提出SAPT,一种共享注意力框架,用于提升大模型的持续学习性能,解决灾难性遗忘和知识转移问题。SAPT通过协调学习和选择模块,共享注意力以保留旧知识并有效转移至新任务。实验显示SAPT在多个基准和模型规模上表现优秀,但可能增加模型复杂性和计算成本,且在特定任务中适用性需进一步评估。论文链接:https://arxiv.org/abs/2401.08295
118 8
|
7月前
|
机器学习/深度学习 人工智能
论文介绍:PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
194 1