TextCNN、DCNN、AttentionXML…你都掌握了吗？一文总结文本分类必备经典模型（三）-阿里云开发者社区

TextCNN、DCNN、AttentionXML…你都掌握了吗？一文总结文本分类必备经典模型（三）

2023-05-17 246 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： TextCNN、DCNN、AttentionXML…你都掌握了吗？一文总结文本分类必备经典模型

二、Attention

CNN和RNN在文本分类任务中表现出色。然而，这些模型不够直观，可解释性差，特别是在分类错误中，由于隐藏数据的不可读性而无法解释。随后，基于注意力的方法被成功地应用于文本分类中。基于注意力的模型架构如图8。注意力机制让模型对特定的输入给予不同的注意。它首先将重要的词聚集成句子向量，然后将重要的句子向量聚集成文本向量。它可以了解每个词和句子对分类判断的贡献有多大，这有利于通过两个层次的关注进行应用和分析。

图8 注意力机制架构

2.1 AttentionXML

AttentionXML是针对多标签分类（XML）问题引入注意力机制，文章发表在 NeurIPS 2019中。本文提出一种基于树结构的模型，即probabilistic label tree (PLT)，来解决标签数量大的问题。

XML-CNN的方法是将所有的labels看作平行结构，类似one-hot，这样导致所有的label都基于一个共同的表征向量来学习预测。PLT是一棵有L个叶子的树，每个叶子都对应着一个原始标签。首先将label文本用特征向量表示，然后用递归聚类构建label tree，生成的树结构，叶子节点是真实标签，非叶子节点是伪标签。本文对PLT做了改进，构建了一个较浅并且很宽的树结构。

AttentionXML的过程如图9所示：（1）给PLT中每一个level训练一个模型；（2）从d-1层选出TOP c个标签作为下一层训练的候选标签，以d-1层训练得到的权重作为以d层训练的初始化；（3）用d层训练好的模型，只预测属于d-1层TOP c节点中的子节点。

图9 用于多标签文本分类任务的基于标签树的深度模型Attention XML。(a) AttentionXML中使用的PLT的例子。(b) PLT构建过程的一个例子，设置为K=M=8=23，H=3，L=8000。从左到右的数字表示从上到下每一层的节点。红色的数字表示为了得到T_h+1而被删除的T_h中的节点。(c) 在AttentionXML中，以文本（长度Tˆ）为输入，以预测分数zˆ为输出的注意力感知深度模型的概述

当前 SOTA！平台收录 AttentionXML 共 1 个模型实现资源。

模型	SOTA！平台模型详情页
AttentionXML	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/models/models/839883d4-569c-4d5c-9457-e5a374375875

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

TextCNN、DCNN、AttentionXML…你都掌握了吗？一文总结文本分类必备经典模型（三）

二、Attention

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

TextCNN、DCNN、AttentionXML…你都掌握了吗？一文总结文本分类必备经典模型（三）

二、Attention

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景