【文本分类】《融合注意力和剪裁机制的通用文本分类模型》

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【文本分类】《融合注意力和剪裁机制的通用文本分类模型》

·阅读摘要:

 针对实际场景中长短文本大量的情况,提出了双通道注意力机制与长文本裁剪机制来改进文本分类模型,最终提高了精度。

·参考文献:

 [1] 融合注意力和剪裁机制的通用文本分类模型

参考论文信息


  论文名称:《融合注意力和剪裁机制的通用文本分类模型》

  发布期刊:《计算机应用》

  期刊信息:CSCD扩展

image.png

  本文主要是针对数据集中长文本和短文本互相混和的情况,设计了一些改进。主要有六:

  ·词向量表示模块

  ·卷积神经网络模块

  ·双通道注意力模块

  ·长文本裁剪模块

  ·循环神经网络模块

  ·融合分类模块

  其中,值得说的是双通道注意力模块长文本裁剪模块,其他的模块都是比较基础的。

模型结构


  模型结构如下:

image.png

【注】:这个网络结构,我只能说是“简单的复杂”。纯把数据倒来倒去,然后拼接在一起,做个分类。它做了这么多工作,其实很有可能会产生debuff,甚至不如直接在BERT后面接个分类结果好。但是实践出真知,我持保留意见。


【注】:上面的模型除了数据倒来倒去,原理还是较为简单的,双通道注意力模块与长文本裁剪模块值得看一下。

  ·双通道注意力模块

image.png

  比较好理解,平均池化、最大池化、LSTM、激活、拼接……

【注】:1、我感觉“注意力”这个词,已经被用的完全背离它原始的定义了,现在什么都叫注意力;2、再说一次,步骤搞的这么多,真的不会产生负效果吗。

  ·长文本裁剪模块

image.png

  对于双通道注意力机制的输出,根据一定的阈值,把它们变成0-1值(二值化),这叫做阈值阶段

  连通分量筛选没看懂,如下:

image.png

  最后把连通分量筛选的结果和BERT+LSTM的结果点乘,最后再结果一系列操作……

【注】:这么多乱七八糟的操作,真的不会影响文本的实际表示吗…………

相关文章
|
6月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
1月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
63 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
|
1月前
|
机器学习/深度学习 编解码 负载均衡
MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用
本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。
53 1
|
4月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
409 0
|
11月前
|
机器学习/深度学习 运维 自然语言处理
揭示堆叠自动编码器的强大功能 - 最新深度学习技术
揭示堆叠自动编码器的强大功能 - 最新深度学习技术
96 0
|
机器学习/深度学习 存储 缓存
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
|
计算机视觉
ONE-PEACE: 更好的通用表征模型
ONE-PEACE: 更好的通用表征模型
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
412 0

热门文章

最新文章

下一篇
无影云桌面